News | Gate News

2026-05-12

12:58

雲天一翼（Yuntianliyifei）は、推論チップ開発において3Dスタック型メモリアーキテクチャを導入することを発表しました。

5月12日の投資家向け広報開示によると、現在開発中の雲天亿飞の推論チップは、その中核となる技術ロードマップとしてGPNPUアーキテクチャを採用しています。主な技術的ポイントは、主流のCUDAエコシステムに対応したGPGPUレベルの汎用プログラミング能力、推論効率を高めるための最適化されたNPUコア、そして帯域幅を向上させアクセス遅延を低減するよう設計された3Dスタックメモリアーキテクチャであり、「メモリウォール」のボトルネックを突破しています。同社はまた、計算モジュール型アーキテクチャを採用しており、ラック規模でのスケールアップを前提に、trillionおよびhundred-trillion規模のMoEモデル推論のためのスーパーノード構築を支えます。技術ロードマップは、トークンコストを指数関数的に引き下げ、大規模モデルのアプリケーション展開を加速することを目標としています。

もっと

11:13

NVIDIAとMITがLightning OPDフレームワークを公開し、GPUメモリ問題を解消しながらモデル蒸留効率を4倍に向上

AI業界ニュース

報道によると、NVIDIAとMITの研究者はLightning OPD（Offline On-Policy Distillation）をリリースした。これは、大規模言語モデル向けの新しいポストトレーニングの枠組みであり、学習中に教師モデルを常に稼働させ続ける必要をなくす。教師モデルの対数確率を事前にオフラインで計算しておくことで、この枠組みは学習効率を4倍に向上させ、同時にGPUリソースをすべて学生モデルの学習に割り当てられるようにする。 8基のNVIDIA H100 GPUでのテストでは、Lightning OPDはQwen3-30B-A3B-Base（パラメータ300億のMoEモデル）を正常に蒸留し、AIME 2024ベンチマークで71.0を達成した。これに対し、標準のOPDは同じハードウェア上でメモリ不足になった。より小型のQwen3-8Bモデルでは、この枠組みに69.9ポイントに到達するためのGPU時間としてわずか30時間しか必要としなかった。

もっと

00:45

Thinking Machinesは200msの応答でインタラクションモデルを発表し、GPT-Realtime-2.0を上回ります

AI業界ニュース

Beatingによれば、元OpenAI CTOのミラ・ムラティが設立した研究所であるThinking Machinesは、相互作用モデルの研究プレビューを公開し、200ミリ秒のマイクロターン応答によるネイティブのリアルタイム音声・映像処理を特徴としている。このモデルは、ユーザーのリアルタイムな中断に対応しつつ、同時に聞く・見る・話すことを可能にする。 TML-Interaction-Smallモデルは、2760億パラメータのMoEアーキテクチャを用い、推論ごとに120億パラメータを活性化する。公式データでは、発話ターンの受け渡し遅延が0.40秒、FD-bench V1.5スコアが77.8であり、いずれもGPT-Realtime-2.0およびGemini 3.1 Flash Liveを上回っている。限定的なプレビューアクセスは今後数か月で予定されている。

もっと

16:30

NVIDIA、9倍のスループット向上を実現するマルチモーダルモデル「Nemotron 3 Nano Omni」を発表

AI業界ニュース

ゲートニュース（4月28日）— NVIDIAは、256Kのコンテキストウィンドウに対応した30B-A3Bのミクスチャ・オブ・エキスパーツ(MoE)アーキテクチャを備えるオープンソースのマルチモーダルモデル「Nemotron 3 Nano Omni」をリリースしました。このモデルは、ビデオ、オーディオ、画像、テキストの入力の処理を、単一のフレームワークで統合します。比較

もっと

03:21

DeepSeekの学習データが33Tまで倍増、リリースを遅らせた不安定性が発生

AI業界ニュース

Gate Newsメッセージ、4月24日 — DeepSeekのV4技術レポートによると、V4-FlashとV4-Proはそれぞれ32Tおよび33Tトークンで事前学習されており、V3で使用された約15Tトークンの約2倍です。レポートでは、学習中に「重大な不安定性の課題」に遭遇したことを認めており、損失スパイクがMixture-of-Experts MoE層の異常によって繰り返し発生していました。ルーティング機構そのものがこれらの異常を悪化させており、単純なロールバックでは問題を解決できないとしています。

もっと

03:04

MITライセンスと1.6Tパラメータを備えたDeepSeekのV4オープンソースモデルシリーズをリリース

AI業界ニュース

ゲートニュース速報、4月24日—DeepSeekは、MITライセンスのもとでオープンソースのV4シリーズモデルをリリースしました。重みは現在Hugging FaceおよびModelScopeで利用可能です。このシリーズには2つのモーダル・エキスパート (MoE)モデルが含まれています。V4-Proは総パラメータ1.6兆で、1トークンあたり490億が有効化される構成です。

もっと

13:41

AlibabaのQwen Labが、疎MoEアーキテクチャを備えたQwen3.6-35B-A3Bモデルを公開

AI業界ニュース

AlibabaのQwen Labは、疎なミクスチャ・オブ・エキスパーツ（Mixture-of-Experts）アーキテクチャを特徴とするオープンソースの大規模言語モデル「Qwen3.6-35B-A3B」をリリースしました。350億パラメータを備え、サードパーティのコーディングアシスタントとの統合向けのエージェンティック・プログラミング機能も搭載しています。

もっと

01:51

メイトゥアンがオープンソース化したLongCat-Next：3Bパラメータによる統一ビジョン理解・生成・音声

美团龙猫チームがオープンソース化したLongCat-Nextは、MoEアーキテクチャに基づくマルチモーダルモデルであり、テキスト、ビジュアル理解、画像生成、音声などの五つの能力を統合しています。その中核設計であるDiNAは、離散トークンを用いて統一的なタスク処理を実現し、ビジュアル面ではdNaViTを採用することで画像生成の性能を高めています。類似のモデルと比較して、LongCat-Nextは各種ベンチマークにおいて優れた成績を収めており、マルチモーダル理解と生成の分野で優位性を示しています。

もっと

06:36

Cursorが「Composer 2」技術レポートを公開：RL環境が実リユーザーシナリオを完全シミュレート、ベースモデルスコア70％向上

Cursorは「Composer 2」技術レポートを公開し、Kimi K2.5 MoE アーキテクチャの完全なトレーニングスキームを紹介しました。これには、2段階トレーニングと独自開発のベンチマーク「CursorBench」が含まれています。トレーニング後、Composer 2のパフォーマンスは大幅に向上し、推論コストの面でも他の最先端モデルより優れています。

もっと

06:27

Cursorが Composer 2 技術レポートを発表、基盤モデルのスコアが 70% 向上

プロジェクト進捗

Cursorは3月25日にComposer 2技術レポートを発表し、Kimi K2.5モデルのトレーニング方案を明かしました。MoEアーキテクチャを採用し、パラメータ数は1.04兆に達しています。トレーニングは2段階に分かれており、実際のシナリオシミュレーションを使用した強化学習を採用しています。最終的にCursorBenchベンチマークで61.3点を達成し、70%向上し、推論コストは他の大規模言語モデルAPIよりも低くなっています。

もっと