Resultados da pesquisa por "MOE"
Hoje
09:38

Huawei, USTC e a Universidade de Pequim alcançam aumento de velocidade de 58% no Ascend A3 para treinamento de modelos MoE

De acordo com Beating, pesquisadores da Huawei, da Universidade de Ciência e Tecnologia da China (USTC) e da Universidade de Pequim revelaram o HyperParallel-MoE, um framework de escalonamento de compiladores projetado para chips Ascend A3. O framework reduz em 36% a latência nos módulos de computação de especialistas em MoE, alcançando um aumento geral de 58% na velocidade de processamento de dados (1,49–1,58x mais rápido) em clusters de 256 nós rodando modelos no estilo DeepSeek com 671 bilhõe
Mais
12:58

Yuntianliyifei Introduz 3D Arquitetura de Memória Empilhada no Desenvolvimento de Chips de Inferência

De acordo com divulgações de relações com investidores em 12 de maio, o chip de inferência em desenvolvimento de Yuntianliyifei adota uma arquitetura GPNPU como tecnologia-base do seu roteiro. Os principais destaques técnicos incluem capacidade de programação universal no nível GPGPU compatível com ecossistemas CUDA comuns, núcleos NPU otimizados para eficiência na inferência e uma arquitetura de memória empilhada em 3D projetada para aumentar a largura de banda e reduzir a latência de acesso, s
Mais
11:13

NVIDIA e MIT lançam o framework Lightning OPD, aumentando em 4x a eficiência da destilação de modelos enquanto eliminam problemas de memória da GPU

De acordo com reportagens, pesquisadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo framework de pós-treinamento para grandes modelos de linguagem que elimina a necessidade de manter um modelo professor em execução durante o treinamento. Ao pré-computar, offline, os log-probabilities do modelo professor, o framework melhora a eficiência do treinamento em 4x, enquanto libera todos os recursos de GPU para o treinamento do modelo aluno. Em testes com 8 GPU
Mais
00:45

Thinking Machines lança um modelo de interação com resposta de 200 ms e supera o GPT-Realtime-2.0

De acordo com a Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma prévia de pesquisa de seu modelo Interaction, com processamento nativo em tempo real de áudio e vídeo e micro-respostas de 200 milissegundos. O modelo permite ouvir, ver e falar simultaneamente, com suporte a interrupções em tempo real por parte do usuário. O modelo TML-Interaction-Small usa uma arquitetura MoE de 276 bilhões de parâmetros, com 12 bilhões de parâmetros ativados por inf
Mais
04:05

Modelo Ling-2.6-flash da Ant Group disponibilizado como código aberto: 104B de parâmetros com 7,4B ativos, alcança múltiplos benchmarks SOTA

Mensagem do Gate News, 29 de abril — Os pesos do modelo flash Ling-2.6 da Ant Group agora foram disponibilizados como código aberto, após anteriormente estarem disponíveis apenas via API. O modelo tem 104 bilhões de parâmetros no total, com 7,4 bilhões ativados por inferência, uma janela de contexto de 256K e licenciamento MIT. Versões de precisão BF16, FP8 e INT4
Mais
23:49

A série MiMo-V2.5 da Xiaomi vai para o código aberto: 1T de parâmetros com eficiência de token superior vs GPT-5.4

Mensagem do Gate News, 27 de abril — A equipe MiMo da Xiaomi disponibilizou em código aberto a série de modelos de linguagem de grande porte MiMo-V2.5 sob licença MIT, com suporte a implantação comercial, treinamento contínuo e ajuste fino. Ambos os modelos apresentam uma janela de contexto de 1 milhão de tokens. O MiMo-V2.5-Pro é um modelo de especialistas mistos de texto puro MoE
Mais
08:13

Engenheiro da OpenAI Clive Chan questiona recomendações de hardware da V4, citando erros e falta de clareza em relação à V3

Mensagem do Gate News, 24 de abril — o engenheiro da OpenAI, Clive Chan, levantou objeções detalhadas ao capítulo de recomendações de hardware no relatório técnico V4, chamando-o de "surpreendentemente medíocre e propenso a erros" em comparação com a aclamada versão V3. A orientação de hardware da V3, que incluía sessões de Q&A
Mais
09:45

DeepSeek disponibiliza código-fonte aberto do TileKernels, biblioteca de kernels de GPU para treinamento e inferência de modelos em larga escala

Mensagem do Gate News, 23 de abril — A DeepSeek disponibilizou o código-fonte aberto do TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para treinamento e inferência de modelos de linguagem em larga escala. O TileLang é uma linguagem de domínio desenvolvida pela equipe tile-ai para expressar kernels de GPU de alto desempenho em
Mais