Kết quả tìm kiếm cho "GPT"
2026-05-16
09:41

Vals AI Ra mắt điểm chuẩn Finance Agent v2; GPT-5.5 đạt 51,76%, mọi mô hình đều dưới 40% khi chấm điểm nghiêm ngặt

Theo Beating, công ty đánh giá AI Vals AI đã phát hành benchmark Finance Agent v2 thế hệ thứ hai vào ngày 14 tháng 5, thử nghiệm các quy trình phân tích tài chính thông qua 927 câu hỏi được chuyên gia rà soát. GPT-5.5 dẫn đầu bảng xếp hạng với tỷ lệ chính xác 51,76%, theo sát là Claude Opus 4.7 (51,51%) và Claude Sonnet 4.6 (51,03%). Bài kiểm tra yêu cầu các mô hình phải tự độc lập xác định các phần liên quan trong hàng trăm trang của báo cáo tài chính 10-K và 10-Q, đồng thời hoàn thành các phép
Xem thêm
ALL2,98%
04:53

GPT-5.6 đã truy cập thành công thông qua Codex OAuth, cửa sổ ngữ cảnh mở rộng lên 1,5 triệu token; dự kiến ra mắt vào tháng 6

Theo giám sát của Beating, mô hình GPT-5.6 chưa được phát hành của OpenAI đã được các nhà phát triển bên ngoài truy cập thành công thông qua xác thực OAuth của ChatGPT Pro trong môi trường Codex, chỉ ba tuần sau khi GPT-5.5 ra mắt. Thử nghiệm thăm dò xác nhận cửa sổ ngữ cảnh 1,5 triệu token, tăng 43% so với giới hạn 1,05 triệu token của GPT-5.5. Tuần trước, các yêu cầu truy cập trả về lỗi “model not supported”; tuần này, thông tin đăng nhập Pro OAuth đã cấp quyền truy cập trực tiếp. Nhà phát tri
Xem thêm
CODEX1,53%
OPENAI-0,76%
03:05

Khả năng hack của AI tăng gấp đôi sau mỗi 4,7 tháng; bản xem trước Claude Mythos và GPT-5.5 vượt quá giới hạn thử nghiệm

Theo Viện An toàn AI của Vương quốc Anh (AISI), năng lực an ninh mạng tự chủ của các mô hình AI đang tăng trưởng với mức độ chưa từng có. Từ cuối năm 2024, AI đang tăng gấp đôi khả năng tự mình hoàn thành các tác vụ mạng phức tạp sau mỗi 4,7 tháng; gần đây, Claude Mythos Preview và GPT-5.5 đã vượt qua đường tăng trưởng này. Mặc dù giới hạn các tác vụ đơn lẻ ở mức 2,5 triệu token, cả hai mô hình vẫn đạt tỷ lệ thành công gần 100% đối với các tác vụ có độ khó cao nhất trong 12 giờ. Claude Mythos Pr
Xem thêm
11:29

Độ chính xác của GPT-5.4 giảm từ 100% xuống 54% trên ARC-AGI sau nhiều lần tóm tắt bộ nhớ

Theo Beating, một nghiên cứu gần đây về bộ nhớ tác nhân của Dylan Zhang, nghiên cứu sinh tại Đại học Illinois, cho thấy việc tóm tắt lặp đi lặp lại các trải nghiệm của mô hình có thể làm suy giảm hiệu suất thay vì cải thiện nó. Ở các tác vụ ARC-AGI, GPT-5.4 đạt độ chính xác 100% trên 19 bài toán khi không dùng bộ nhớ, nhưng sau nhiều vòng nén bộ nhớ dựa trên các lộ trình lời giải đúng, độ chính xác giảm xuống còn 54%. Tương tự, trong các tác vụ mua sắm WebShop, phương pháp bộ nhớ AWM đạt 0,64 vớ
Xem thêm
09:41

Thinking Machines Model T liên kết GPT-Realtime-2 để giành vị trí đầu tiên trong bài kiểm tra âm thanh ngày hôm nay với điểm APR 43,4%

Theo benchmark Audio MC S2S mới nhất của Scale Labs được công bố hôm nay, mô hình TML-Interaction-Small của Thinking Machines đạt 43,36 điểm, đồng hạng với OpenAI GPT-Realtime-2 (xHigh) ở vị trí đầu bảng với số điểm APR 43,4%. Người dẫn đầu về điểm tuyệt đối, GPT-Realtime-2 (xHigh), ghi 48,45 điểm, trong khi TML-Interaction-Small theo sau với 43,36 điểm; khoảng chênh lệch nằm trong ngưỡng sai số thống kê, dẫn đến việc chính thức đồng hạng nhất.
00:45

Thinking Machines Ra mắt mô hình tương tác với thời gian phản hồi 200 ms, vượt trội GPT-Realtime-2.0

Theo Beating, Thinking Machines, phòng thí nghiệm được thành lập bởi cựu CTO OpenAI Mira Murati, đã phát hành bản xem trước nghiên cứu cho mô hình Interaction của mình, với khả năng xử lý âm thanh và video thời gian thực tích hợp, cùng các phản hồi micro-turn chỉ trong 200 mili giây. Mô hình cho phép nghe, xem và nói đồng thời, đồng thời hỗ trợ người dùng ngắt quãng theo thời gian thực. Mô hình TML-Interaction-Small sử dụng kiến trúc MoE gồm 276 tỷ tham số, với 12 tỷ tham số được kích hoạt cho m
Xem thêm
22:55

OpenAI mở GPT-5.5-Cyber cho các tổ chức tại EU vào ngày 11/5; Anthropic trì hoãn Mythos

Theo Glontech, vào ngày 11/5, OpenAI thông báo sẽ cấp cho các tổ chức EU quyền truy cập GPT-5.5-Cyber, biến thể mô hình an ninh mạng mới nhất của hãng. Việc truy cập sẽ được mở rộng cho các đối tác châu Âu, bao gồm doanh nghiệp, cơ quan chính phủ, quan chức phụ trách an ninh mạng và EU AI Office, với thời gian xem trước giới hạn dành cho các nhóm an ninh mạng đã được thẩm định. Trong khi đó, Anthropic vẫn tỏ ra thận trọng khi mở mô hình Mythos của mình cho khu vực này.
11:17

Google DeepMind AI Co-Toán học đạt 47,9% ở FrontierMath hạng 4, vượt GPT-5.5 Pro, giải quyết 3 bài toán trước đây chưa từng giải được

Google DeepMind đã ra mắt AI đồng toán học, một trợ lý nghiên cứu toán đa tác nhân, đạt 47,9% độ chính xác trên benchmark FrontierMath Tier 4, vượt kỷ lục trước đó của GPT-5.5 Pro là 39,6% vào ngày 9/5. Hệ thống đã giải được 23 trong số 48 bài toán, bao gồm 3 bài mà mọi mô hình trước đó đều không thể giải. Được xây dựng trên Gemini 3.1 Pro, kiến trúc sử dụng thiết kế phân cấp với một tác nhân điều phối dự án phân phối tác vụ cho các tác nhân con đảm nhiệm việc truy xuất tài liệu, viết mã và suy
Xem thêm
09:54

Hệ thống phần thưởng của OpenAI vô tình chấm điểm các chuỗi suy nghĩ trên 6 mô hình, bao gồm GPT-5.4

Theo nhóm liên kết an toàn của OpenAI, công ty gần đây đã phát hiện một lỗi huấn luyện nghiêm trọng ảnh hưởng đến 6 mô hình ngôn ngữ lớn, trong đó có GPT-5.4. Thinking: cơ chế phần thưởng vô tình chấm điểm các chuỗi “thinking” của mô hình—quá trình suy luận nội bộ trước khi tạo ra câu trả lời. GPT-5.5 không bị ảnh hưởng. Sự cố vi phạm một nguyên tắc an toàn cốt lõi của AI rằng các chuỗi thinking không bao giờ được đưa vào đánh giá, vì điều này có thể khiến mô hình được khuyến khích bịa ra suy lu
Xem thêm