66B là một mô hình ngôn ngữ lớn được xây dựng để xử lý ngôn ngữ tự nhiên ở quy mô khủng. Với khoảng 66 tỷ tham số, nó nhằm tăng cường khả năng hiểu và sinh ngôn ngữ ở nhiều nhiệm vụ như phân tích văn bản, trả lời câu hỏi, và viết sáng tạo. Mô hình này được thiết kế theo kiến trúc transformer, tận dụng cơ chế tự chú ý để nắm bắt mối quan hệ ngữ nghĩa ở cả câu và văn bản dài.
66B sử dụng nhiều lớp transformer encoder-decoder (hoặc decoder-only) với kích thước tham số lên tới khoảng 66 tỷ. Việc tăng quy mô tham số giúp cải thiện khả năng nắm bắt ngữ nghĩa, ngữ cảnh dài và khả năng tổng hợp thông tin từ nhiều nguồn dữ liệu, tuy nhiên đi kèm là yêu cầu tính toán và lưu trữ cao, cần tài nguyên phần cứng mạnh và tối ưu hạ tầng.
Để đạt hiệu suất, 66B được huấn luyện trên tập dữ liệu lớn và đa dạng, kết hợp văn bản từ web, sách, và văn bản do cộng đồng đóng góp, dưới các biện pháp lọc và kiểm soát chất lượng. Quá trình huấn luyện bao gồm tối ưu hóa chức năng mất mát và sử dụng kỹ thuật như học chuyển tiếp và làm mịn hiệp đồng, nhằm cải thiện khả năng tổng quát hóa.
66B có thể được dùng cho hỗ trợ khách hàng, trình bày thông tin, viết sáng tạo, tóm tắt văn bản và trợ lý ngôn ngữ. Tuy nhiên, thách thức bao gồm kiểm soát độ tin cậy, giảm thiên lệch, và đảm bảo an toàn nội dung. Việc triển khai cần giám sát đầu ra, chặn nội dung độc hại và tối ưu chi phí tính toán.
Sự xuất hiện của 66B và các mô hình quy mô lớn khác sẽ tác động đến nhiều ngành công nghiệp. Có thể giảm bớt công việc lặp đi lặp lại, đồng thời mở ra cơ hội cho chuyên gia dữ liệu, kỹ sư ML, và nhà phát triển ứng dụng. Đào tạo lại và thiết kế hệ thống an toàn trở nên thiết yếu để khai thác tiềm năng một cách có trách nhiệm.
