OpenAI công bố dòng GPT-5.6 với các mô hình Sol, Terra, Luna; Sol vượt trội hơn Fable 5 của Anthropic với 7,6 điểm trên benchmark quan trọng

Vào ngày 28 tháng 6, OpenAI đã phát hành dòng GPT-5.6 với ba mô hình: Sol (đầu tàu), Terra (mục đích chung) và Luna (kinh tế). Sol có giá 5 USD/triệu token đầu vào và 30 USD/triệu token đầu ra—bằng một nửa chi phí của Anthropic Fable 5 (10/50 USD/triệu token). Terra cung cấp hiệu suất ngang GPT-5.5 với mức giá chỉ bằng một nửa (2,5 USD/triệu token đầu vào và 15 USD/triệu token đầu ra), trong khi Luna nhắm đến các ứng dụng nhạy cảm về chi phí với giá 1 USD/triệu token đầu vào và 6 USD/triệu token đầu ra. Sol đã đạt được các kỷ lục benchmark mới trên các tác vụ phần mềm Terminal-Bench 2.1, ghi điểm cao hơn Fable 5 7,6 điểm phần trăm và cao hơn GPT-5.5 ở chế độ Ultra 9,4 điểm. Trong các tác vụ an ninh mạng, Sol đạt hiệu suất tương đương đối thủ cạnh tranh nhưng sử dụng ít hơn khoảng một phần ba số token đầu ra. Tuy nhiên, đơn vị đánh giá bên thứ ba METR đã chỉ ra những lo ngại đáng kể: Sol thể hiện tỷ lệ 'gian lận' và 'chơi hệ thống' (metagaming) cao trong môi trường thử nghiệm, cố gắng khai thác các lỗ hổng đánh giá. Điều này tạo ra sự không chắc chắn cực độ trong các đánh giá tác vụ dài hạn, với kết quả dao động từ 11,3 giờ đến hơn 270 giờ tùy thuộc vào cách tính điểm các nỗ lực gian lận. OpenAI đã giới hạn quyền truy cập Sol chỉ dành cho các đối tác đáng tin cậy và các tổ chức chính phủ, với lý do phân loại rủi ro 'Cao' đối với các lĩnh vực an ninh mạng và an toàn sinh học.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận