Mercury 2, da Inception Labs, alcança 90 na AIME 2026, superando o DiffusionGemma, do Google

A Inception Labs apresentou a Mercury 2 na quinta-feira, posicionando-a como o modelo de linguagem de raciocínio mais rápido do mundo, com cerca de 1.000 tokens por segundo. O modelo obteve 90 no benchmark AIME 2026, superando a DiffusionGemma, recentemente lançada pela Google, que marcou 69,1% no mesmo teste, enquanto atingia velocidades de geração semelhantes. Ambos os modelos usam geração paralela baseada em difusão em vez de processamento sequencial de tokens, refletindo uma mudança arquitetural na indústria em direção a métodos de inferência mais rápidos.

Mercury 2 supera DiffusionGemma em benchmark de matemática

A Mercury 2 gera cerca de 1.000 tokens por segundo—os blocos de texto que um modelo de IA lê e escreve—contra aproximadamente 89 tokens por segundo para o Claude Haiku 4.5 Reasoning, da Anthropic, e 71 para o GPT-5 Mini, da OpenAI, de acordo com o anúncio da Inception Labs. No AIME 2026, construído a partir de problemas reais do American Invitational Mathematics Examination e pontuado como a porcentagem de acertos, a Mercury 2 atingiu 90%. A Google testou a DiffusionGemma no mesmo conjunto, onde ela obteve 69,1%, enquanto a Gemma 4 padrão, sem difusão, marcou 88,3% no mesmo teste.

No GPQA, um benchmark de ciência no nível de PhD, ocorreu o mesmo padrão: as duas modelos quase empatam, com Mercury 2 em 77% contra 73,2% da DiffusionGemma. O guia do desenvolvedor da Google recomenda a Gemma 4 padrão para aplicações que exigem máxima qualidade, admitindo que a DiffusionGemma fica para trás em todo o espectro. A DiffusionGemma é gratuita e open-weight no Hugging Face. A Mercury 2 é um modelo de API pago e fechado.

Modelos de difusão substituem a geração sequencial de tokens

Ambos os modelos abandonam a abordagem de máquina de escrever na escrita. Um chatbot padrão escreve uma palavra, verifica o que acabou de escrever e então escreve a próxima, repetindo até a resposta ser concluída. Em vez disso, modelos de difusão preenchem um bloco de texto com tokens substitutos aleatórios e apagam o ruído em algumas passagens paralelas—o mesmo truque que transforma imagens estáticas em fotos em geradores de imagem como Stable Diffusion—até que todo o bloco se fixe em uma resposta final, de uma vez.

Augment Code relata redução de 82% na latência em produção

A Augment Code, uma empresa de agentes de codificação por IA, trocou a Mercury 2 no lugar da Claude Opus 4.7, da Anthropic, no subagente de context-compaction, e viu uma queda de 82% na latência e uma redução de 90% no custo, mantendo a mesma qualidade de saída, segundo um estudo de caso conjunto.

Inception Labs garante rodada de financiamento de US$ 50 milhões

A Inception Labs levantou US$ 50 milhões em financiamento com apoio do braço de venture da Nvidia e de investidores individuais Andrew Ng e Andrej Karpathy. A startup foi construída com base em pesquisas do fundador Stefano Ermon, professor da Stanford que coassina algumas das técnicas de difusão baseadas em pontuação que impulsionam os geradores de imagens atuais.

Geração paralela habilita arquitetura de sistema multiagente

Sistemas de IA complexos são orquestras de ajudantes especializados: um para raciocínio profundo, vários para sumarização rápida, roteamento, busca de ferramentas e verificação de saída. Modelos sequenciais tornam essas chamadas de utilidade caras e lentas. Modelos paralelos de difusão tornam isso barato e rápido o suficiente para usar de forma ampla. A Mercury 2 é API/nuvem por enquanto, e todo o ecossistema—runtime local, frameworks de agentes—is ainda está alcançando.

Fluxos de trabalho sensíveis a velocidade se beneficiam da abordagem de difusão

Os casos de uso incluem programação em tempo real, em que o modelo acompanha edições, codificação ou sistemas de suporte com múltiplas subchamadas rápidas, interfaces de voz que não parecem com atraso e qualquer autocompletar ou predição do próximo passo sensível a latência. Em escala, a economia de custo e energia derivada de maior throughput em hardware padrão se soma rapidamente, segundo a Inception Labs.

FAQ

O que a Inception Labs anunciou na quinta-feira? A Inception Labs apresentou a Mercury 2 na quinta-feira, chamando-a de o modelo de linguagem de raciocínio mais rápido do mundo. Ela gera cerca de 1.000 tokens por segundo e marcou 90 no benchmark AIME 2026.

Como a Mercury 2 se compara à DiffusionGemma da Google em benchmarks? A Mercury 2 marcou 90 no AIME 2026, enquanto a DiffusionGemma da Google marcou 69,1% no mesmo teste. No GPQA, um benchmark de ciência no nível de PhD, a Mercury 2 alcançou 77% contra 73,2% da DiffusionGemma.

Quais melhorias de custo e latência a Augment Code reportou? A Augment Code trocou a Mercury 2 no lugar da Claude Opus 4.7, da Anthropic, no subagente de context-compaction e viu uma queda de 82% na latência e uma redução de 90% no custo, mantendo a mesma qualidade de saída, segundo um estudo de caso conjunto.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários