News | Gate News

Hoje

09:38

Huawei, USTC e a Universidade de Pequim alcançam aumento de velocidade de 58% no Ascend A3 para treinamento de modelos MoE

De acordo com Beating, pesquisadores da Huawei, da Universidade de Ciência e Tecnologia da China (USTC) e da Universidade de Pequim revelaram o HyperParallel-MoE, um framework de escalonamento de compiladores projetado para chips Ascend A3. O framework reduz em 36% a latência nos módulos de computação de especialistas em MoE, alcançando um aumento geral de 58% na velocidade de processamento de dados (1,49–1,58x mais rápido) em clusters de 256 nós rodando modelos no estilo DeepSeek com 671 bilhõe

Mais

12:58

Yuntianliyifei Introduz 3D Arquitetura de Memória Empilhada no Desenvolvimento de Chips de Inferência

Notícias do setor de IA

De acordo com divulgações de relações com investidores em 12 de maio, o chip de inferência em desenvolvimento de Yuntianliyifei adota uma arquitetura GPNPU como tecnologia-base do seu roteiro. Os principais destaques técnicos incluem capacidade de programação universal no nível GPGPU compatível com ecossistemas CUDA comuns, núcleos NPU otimizados para eficiência na inferência e uma arquitetura de memória empilhada em 3D projetada para aumentar a largura de banda e reduzir a latência de acesso, s

Mais

11:13

NVIDIA e MIT lançam o framework Lightning OPD, aumentando em 4x a eficiência da destilação de modelos enquanto eliminam problemas de memória da GPU

Notícias do setor de IA

De acordo com reportagens, pesquisadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo framework de pós-treinamento para grandes modelos de linguagem que elimina a necessidade de manter um modelo professor em execução durante o treinamento. Ao pré-computar, offline, os log-probabilities do modelo professor, o framework melhora a eficiência do treinamento em 4x, enquanto libera todos os recursos de GPU para o treinamento do modelo aluno. Em testes com 8 GPU

Mais

00:45

Thinking Machines lança um modelo de interação com resposta de 200 ms e supera o GPT-Realtime-2.0

Notícias do setor de IA

De acordo com a Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma prévia de pesquisa de seu modelo Interaction, com processamento nativo em tempo real de áudio e vídeo e micro-respostas de 200 milissegundos. O modelo permite ouvir, ver e falar simultaneamente, com suporte a interrupções em tempo real por parte do usuário. O modelo TML-Interaction-Small usa uma arquitetura MoE de 276 bilhões de parâmetros, com 12 bilhões de parâmetros ativados por inf

Mais

04:05

Modelo Ling-2.6-flash da Ant Group disponibilizado como código aberto: 104B de parâmetros com 7,4B ativos, alcança múltiplos benchmarks SOTA

Notícias do setor de IA

Mensagem do Gate News, 29 de abril — Os pesos do modelo flash Ling-2.6 da Ant Group agora foram disponibilizados como código aberto, após anteriormente estarem disponíveis apenas via API. O modelo tem 104 bilhões de parâmetros no total, com 7,4 bilhões ativados por inferência, uma janela de contexto de 256K e licenciamento MIT. Versões de precisão BF16, FP8 e INT4

Mais

16:30

NVIDIA Lança Modelo Multimodal Nemotron 3 Nano Omni com Aumento de Vazão de 9x

Notícias do setor de IA

Mensagem do Gate News, 28 de abril — A NVIDIA lançou o Nemotron 3 Nano Omni, um modelo multimodal de código aberto com uma arquitetura (MoE) de especialistas mistos (mixture-of-experts) com mistura 30B-A3B e suporte a janela de contexto de 256K. O modelo unifica o processamento de entradas de vídeo, áudio, imagem e texto em um único framework. Em comparação

Mais

11:13

Meituan Lança Silenciosamente o Modelo de IA LongCat-2.0-Preview Com Trilhão de Parâmetros, Sem Anúncio Oficial

Notícias do setor de IA

Mensagem da Gate News, 28 de abril — A Meituan lançou silenciosamente um novo modelo de IA, LongCat-2.0-Preview, na sua plataforma de API LongCat, com um registro de atualização datado de 20 de abril, mas não fez nenhum anúncio oficial nem publicou relatório técnico. Diferentemente dos modelos anteriores da série LongCat

Mais

23:49

A série MiMo-V2.5 da Xiaomi vai para o código aberto: 1T de parâmetros com eficiência de token superior vs GPT-5.4

Notícias do setor de IA

Mensagem do Gate News, 27 de abril — A equipe MiMo da Xiaomi disponibilizou em código aberto a série de modelos de linguagem de grande porte MiMo-V2.5 sob licença MIT, com suporte a implantação comercial, treinamento contínuo e ajuste fino. Ambos os modelos apresentam uma janela de contexto de 1 milhão de tokens. O MiMo-V2.5-Pro é um modelo de especialistas mistos de texto puro MoE

Mais

08:13

Engenheiro da OpenAI Clive Chan questiona recomendações de hardware da V4, citando erros e falta de clareza em relação à V3

Notícias do setor de IA

Mensagem do Gate News, 24 de abril — o engenheiro da OpenAI, Clive Chan, levantou objeções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-o de "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A

Mais

09:45

DeepSeek disponibiliza código-fonte aberto do TileKernels, biblioteca de kernels de GPU para treinamento e inferência de modelos em larga escala

Progresso do projeto

Notícias do setor de IA

Mensagem do Gate News, 23 de abril — A DeepSeek disponibilizou o código-fonte aberto do TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para treinamento e inferência de modelos de linguagem em larga escala. O TileLang é uma linguagem de domínio desenvolvida pela equipe tile-ai para expressar kernels de GPU de alto desempenho em

Mais