Claude Fable 5 Hiệu suất giảm trên các điểm chuẩn, Nhưng bộ phân loại an toàn—không phải mô hình—bị cho là nguyên nhân gây ra lỗi định tuyến

Theo BridgeBench AI và Arena.AI, việc phục hồi Claude Fable 5 vào ngày 1 tháng 7 đã gây ra các kết quả điểm chuẩn mâu thuẫn. BridgeBench báo cáo điểm gỡ lỗi giảm từ 86,2 xuống 25,9, nhưng dữ liệu cho thấy chín trong số mười hai tác vụ đã được chuyển hướng đến Opus 4.8 bởi bộ phân loại an toàn mới của Anthropic thay vì đến được với chính Fable 5. Trong khi đó, hàng nghìn phiếu bầu ưu tiên của con người của Arena.AI cho thấy hiệu suất của Fable 5 hầu như không đổi hoặc cải thiện ở hầu hết các hạng mục khi mô hình thực sự xử lý yêu cầu, với hiệu suất tài liệu tăng 34 điểm Elo và văn bản chuyên gia tăng 25.

Sự khác biệt này rất quan trọng: người dùng phổ thông trong viết sáng tạo, nghiên cứu và phân tích văn bản sẽ thấy sự khác biệt tối thiểu, trong khi các nhà phát triển làm việc với sửa lỗi mã và gỡ lỗi phải đối mặt với việc định tuyến dự phòng liên tục. Anthropic thừa nhận các bộ phân loại mới đã giăng lưới quá rộng trong việc chặn các lời nhắc liên quan đến khai thác và cho biết các cải tiến sẽ đến theo thời gian, nhưng không cung cấp mốc thời gian.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận