Kết quả tìm kiếm cho "MOE"
Hôm nay
09:38

Huawei, USTC và Đại học Bắc Kinh đạt mức tăng tốc 58% trên Ascend A3 để huấn luyện mô hình MoE

Theo Beating, các nhà nghiên cứu từ Huawei, Đại học Khoa học và Công nghệ Trung Quốc (USTC) và Đại học Bắc Kinh đã công bố HyperParallel-MoE, một khung lập lịch biên dịch được thiết kế cho chip Ascend A3. Khung này giúp giảm 36% độ trễ trong các mô-đun tính toán chuyên gia MoE, đồng thời đạt mức tăng tốc xử lý dữ liệu tổng thể 58% (nhanh hơn 1,49–1,58x) trên các cụm 256 nút chạy các mô hình kiểu DeepSeek tham số 671B, trong khi tốc độ huấn luyện theo từng bước được cải thiện 8–9%.
12:58

Yuntianliyifei Giới thiệu Kiến trúc Bộ nhớ xếp chồng 3D trong phát triển chip suy luận

Theo các công bố quan hệ nhà đầu tư vào ngày 12/5, chip suy luận đang phát triển của Yuntianliyifei áp dụng kiến trúc GPNPU làm công nghệ cốt lõi trong lộ trình. Các điểm nhấn kỹ thuật chính bao gồm khả năng lập trình vạn năng ở mức GPGPU, tương thích với hệ sinh thái CUDA phổ biến, các lõi NPU được tối ưu cho hiệu suất suy luận và kiến trúc bộ nhớ xếp chồng 3D nhằm tăng băng thông và giảm độ trễ truy cập, vượt qua nút thắt cổ chai “bức tường bộ nhớ”. Công ty cũng triển khai kiến trúc mô-đun tín
Xem thêm
11:13

NVIDIA và MIT phát hành khung Lightning OPD, nâng cao hiệu quả chưng cất mô lên 4 lần trong khi loại bỏ các vấn đề về bộ nhớ GPU

Theo các báo cáo, các nhà nghiên cứu NVIDIA và MIT đã phát hành Lightning OPD (Offline On-Policy Distillation), một khung hậu huấn luyện mới cho các mô hình ngôn ngữ lớn giúp loại bỏ nhu cầu phải giữ mô hình “teacher” chạy liên tục trong quá trình huấn luyện. Bằng cách tính trước log-probabilities của mô hình teacher ở chế độ offline, khung này cải thiện hiệu quả huấn luyện gấp 4 lần đồng thời giải phóng toàn bộ tài nguyên GPU cho việc huấn luyện mô hình “student”. Trong thử nghiệm trên 8 GPU NV
Xem thêm
00:45

Thinking Machines Ra mắt mô hình tương tác với thời gian phản hồi 200 ms, vượt trội GPT-Realtime-2.0

Theo Beating, Thinking Machines, phòng thí nghiệm được thành lập bởi cựu CTO OpenAI Mira Murati, đã phát hành bản xem trước nghiên cứu cho mô hình Interaction của mình, với khả năng xử lý âm thanh và video thời gian thực tích hợp, cùng các phản hồi micro-turn chỉ trong 200 mili giây. Mô hình cho phép nghe, xem và nói đồng thời, đồng thời hỗ trợ người dùng ngắt quãng theo thời gian thực. Mô hình TML-Interaction-Small sử dụng kiến trúc MoE gồm 276 tỷ tham số, với 12 tỷ tham số được kích hoạt cho m
Xem thêm
04:05

Ant Group mở mã nguồn mô hình Ling-2.6-flash: 104B tham số với 7,4B tham số hoạt động, đạt nhiều mốc SOTA

Tin tức từ Gate, ngày 29 tháng 4 — Trọng số mô hình Ling-2.6-flash của Ant Group hiện đã được mở mã nguồn công khai, trước đây chỉ có sẵn thông qua API. Mô hình có tổng cộng 104 tỷ tham số với 7,4 tỷ tham số được kích hoạt cho mỗi lần suy luận, cửa sổ ngữ cảnh 256K và giấy phép MIT. Các phiên bản độ chính xác BF16, FP8 và INT4
Xem thêm
16:30

NVIDIA Ra Mắt Mô Hình Đa Phương Thức Nemotron 3 Nano Omni Với Mức Tăng Thông Lượng Gấp 9 Lần

Tin tức Cổng, 28 tháng 4 — NVIDIA đã phát hành Nemotron 3 Nano Omni, một mô hình đa phương thức mã nguồn mở có kiến trúc (MoE) dạng chuyên gia hỗn hợp (mixture-of-experts) 30B-A3B, với hỗ trợ cửa sổ ngữ cảnh 256K. Mô hình hợp nhất việc xử lý các đầu vào video, âm thanh, hình ảnh và văn bản trong một khuôn khổ duy nhất. So với
Xem thêm
11:13

Meituan Quietly Launches LongCat-2.0-Preview AI Model With Trillion Parameters, No Official Announcement

Tin tức Gate, ngày 28 tháng 4 — Meituan đã âm thầm triển khai một mô hình AI mới, LongCat-2.0-Preview, trên nền tảng LongCat API của mình kèm theo nhật ký cập nhật ghi ngày 20 tháng 4, nhưng chưa đưa ra bất kỳ thông báo chính thức nào hay báo cáo kỹ thuật. Không giống như các mô hình trước đó trong series LongCat Flash-Chat, Flash-Thinking, Flash-Lite, Flash-Omni, Next, vốn được phát hành kèm các bài blog chính thức, báo cáo kỹ thuật và bản phát hành mã nguồn mở trên Hugging Face và GitHub, phiên bản 2.0-Preview không cung cấp bất kỳ liên kết mã nguồn mở nào và chỉ có sẵn thông qua API. Nhật ký cập nhật của mô hình nhấn mạnh ba năng lực cốt lõi: phát triển tác nhân với hỗ trợ bản địa cho việc gọi công cụ, suy luận nhiều bước, và các tác vụ xử lý ngữ cảnh dài; thành thạo tạo mã, tự động hóa quy trình, và thực thi các chỉ dẫn phức tạp; đồng thời tích hợp sâu với Claude Code, OpenClaw, OpenCode và Kilo Code. Theo các báo cáo từ nhiều kênh truyền thông dẫn nguồn ngày 24 tháng 4, tổng số tham số của mô hình vượt một nghìn tỷ, sử dụng kiến trúc MoE Mixture of Experts, và hỗ trợ cửa sổ ngữ cảnh 1 triệu token—có quy mô tương đương với DeepSeek V4, cũng được phát hành vào chính ngày hôm đó. Người trong cuộc tiết lộ rằng LongCat-2.0-Preview được huấn luyện hoàn toàn trên các cụm máy tính trong nước, sử dụng từ 50.000 đến 60.000 thẻ tăng tốc do Trung Quốc sản xuất, đánh dấu nhiệm vụ huấn luyện quy mô lớn nhất được hoàn thành trên hạ tầng AI trong nước cho đến nay. Trong giai đoạn thử nghiệm, mô hình cung cấp hạn mức dùng miễn phí hằng ngày là 10 triệu token.
Xem thêm
23:49

Dòng MiMo-V2.5 của Xiaomi ra mắt mã nguồn mở: 1T tham số, hiệu quả token vượt trội so với GPT-5.4

Tin cổng, ngày 27 tháng 4 — Nhóm MiMo của Xiaomi đã phát hành mã nguồn mở cho dòng mô hình ngôn ngữ lớn MiMo-V2.5 theo giấy phép MIT, hỗ trợ triển khai thương mại, huấn luyện tiếp tục và tinh chỉnh. Cả hai mô hình đều có cửa sổ ngữ cảnh 1 triệu token. MiMo-V2.5-Pro là mô hình mixture-of-experts văn bản thuần MoE với tổng cộng 1,02 nghìn tỷ tham số và 1T tham số hoạt động
Xem thêm
08:13

Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là "đáng ngạc nhiên là tầm thường và dễ gây lỗi" so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A
Xem thêm
09:45

DeepSeek phát hành mã nguồn mở TileKernels, thư viện kernel GPU cho đào tạo và suy luận mô hình lớn

Tin tức cổng, ngày 23 tháng 4 — DeepSeek đã phát hành mã nguồn mở TileKernels theo giấy phép MIT, một thư viện kernel GPU được viết bằng TileLang cho đào tạo và suy luận mô hình ngôn ngữ lớn. TileLang là ngôn ngữ chuyên biệt do nhóm tile-ai phát triển để diễn đạt các kernel GPU hiệu năng cao trong
Xem thêm