Zhipu GLM-5.2 vượt mốc DeepSWE benchmark mã nguồn mở với tỷ lệ thành công 44%, vượt trội các mô hình đóng nguồn phổ biến

Theo Beating (một tài khoản giám sát), mô hình mã nguồn mở GLM-5.2 của Zhipu AI đạt tỷ lệ thành công cao nhất trong số các mô hình mã nguồn mở trên bộ benchmark DeepSWE cho các tác vụ kỹ thuật phần mềm phức tạp, với tỷ lệ thành công one-shot 44% ở cường độ suy luận tối đa. Kết quả này vượt Kimi K2.7 Code với 31%, tương đương hơn 13 điểm phần trăm.

Với chi phí 3,92 USD mỗi tác vụ, GLM-5.2 vượt hiệu năng của một số mô hình đóng phổ biến trong các cấu hình suy luận cụ thể, bao gồm Claude Sonnet 4.6 [high] ở 30%, Gemini 3.5 Flash [medium] ở 37% và Claude Opus 4.8 [low] ở 41%.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận