NVIDIA mở nguồn mô hình trí tuệ nhân tạo 120B Nemotron 3 Super, tăng khả năng xử lý tối đa gấp 5 lần

Tin tức Gate News, ngày 12 tháng 3, Nvidia đã phát hành mô hình ngôn ngữ lớn mã nguồn mở Nemotron 3 Super, thiết kế cho các ứng dụng đa tác nhân. Tổng số tham số của mô hình là 120 tỷ, sử dụng kiến trúc Mamba-Transformer MoE hỗn hợp, mỗi token khi suy luận chỉ kích hoạt 120 triệu tham số. Công nghệ cốt lõi "Latent MoE" của nó sẽ nhúng token vào không gian tiềm ẩn có thứ hạng thấp rồi định tuyến đến mạng chuyên gia, cho phép kích hoạt đồng thời 4 chuyên gia với chi phí tính toán của một chuyên gia, giúp tăng gấp 5 lần khả năng xử lý so với thế hệ trước Nemotron Super. Mô hình nguyên bản hỗ trợ cửa sổ ngữ cảnh 1 triệu token, phù hợp cho các tác nhân tự động cần duy trì trạng thái luồng công việc trong thời gian dài. Trong bài kiểm tra chuẩn PinchBench đánh giá tải công việc của tác nhân, Nemotron 3 Super đạt điểm 85.6%, là điểm cao nhất trong các mô hình mã nguồn mở cùng loại. Nvidia cũng đã đồng thời mở nguồn hơn 10 nghìn tỷ token dữ liệu huấn luyện, 15 môi trường huấn luyện và đánh giá học tăng cường, theo giấy phép NVIDIA Nemotron Open Model License. Mô hình đã có mặt trên các nền tảng Hugging Face, build.nvidia.com, Perplexity, OpenRouter và hỗ trợ triển khai qua các dịch vụ đám mây như Google Cloud, Oracle, AWS Bedrock, Azure. Các công ty như Perplexity, CodeRabbit, Cadence, Dassault Systèmes, Siemens đã tiên phong sử dụng.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận