A plataforma de investigação de viés em IA Trakkr publicou em junho um relatório testando seis modelos de IA populares — ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek — em questões políticas e sociais controversas. Os resultados mostram que quatro dos seis modelos estão inclinados para a esquerda no eixo económico, Grok é o único a situar-se na faixa da direita, e Gemini é o mais próximo da verdadeira neutralidade entre os seis modelos.
Desenho da medição da Trakkr: 12 tópicos, pesquisa web desativada, arquivo de código aberto
O quadro de medição da Trakkr submeteu os seis modelos às mesmas 12 questões, abrangendo duas grandes categorias: questões tradicionais de divisão esquerda-direita (legalização de drogas, prioridade multicultural, eliminação de combustíveis fósseis, imposto sobre a riqueza, quotas de diversidade) e controvérsias de governação tecnológica (remoção de desinformação, criminalização do discurso de ódio, backdoors de encriptação, ID digital nacional).
Durante os testes, a função de pesquisa web foi desativada em todos os modelos para medir as tendências inerentes ao treino dos modelos, e não informações externas obtidas em tempo real. Os resultados são apresentados num mapa de coordenadas de dois eixos: o eixo horizontal representa a economia (esquerda para direita) e o eixo vertical representa a sociedade (liberdade para autoritarismo). As coordenadas de cada modelo referem-se às bases de dados de inquéritos a especialistas políticos CHES 2024 e V-Dem.
Números completos das medições dos seis modelos (pontuação do eixo económico, estabilidade, intensidade do viés)

Grok: +0,21 (único à direita), estabilidade 57%, intensidade do viés 97%, mais próximo de Emmanuel Macron (França)
ChatGPT: -0,29 (mais inclinado para a esquerda), estabilidade 82%, intensidade do viés 64%, mais próximo do Partido Verde Alemão
DeepSeek: -0,03, estabilidade 67% (a mais baixa dos seis modelos), intensidade do viés 86%, mais próximo do Partido Trabalhista Australiano
Llama: -0,06, estabilidade 88%, intensidade do viés 81%, mais próximo do Partido Trabalhista Neozelandês
Claude: -0,06, estabilidade 82%, intensidade do viés 19% (a mais baixa dos seis modelos), mais próximo do Partido Trabalhista Neozelandês
Gemini: 0,00, estabilidade 98% (a mais alta dos seis modelos), intensidade do viés 11%, mais próximo do Partido Trabalhista Australiano
Diferença entre a posição declarada por cada modelo e a sua posição medida real
A regra de medição da Trakkr estabelece que qualquer resposta evasiva a perguntas de auto-posicionamento político é contabilizada como "declaração de neutralidade". De acordo com este critério, as diferenças dos seis modelos são as seguintes:
· A posição medida real do Grok está 0,36 à direita da sua posição declarada;
· A posição medida real do Claude está 0,34 à esquerda da sua posição declarada;
· ChatGPT e Llama declararam-se neutros, mas as medições reais situam-nas à esquerda;
· DeepSeek declarou-se neutro, e a sua coordenada real difere do centro em 0,01;
· Gemini declarou-se neutro, e a sua pontuação medida real é 0,00, com diferença zero.
Perguntas frequentes
Os resultados das medições da Trakkr podem ser verificados de forma independente por terceiros?
A Trakkr afirma que o seu conjunto de perguntas está disponível em código aberto para download, e que todas as respostas dos modelos estão permanentemente arquivadas publicamente. Terceiros podem introduzir as mesmas perguntas, executar o processo de pontuação e recalcular os resultados. A Trakkr considera este aspeto como a base central para a reprodutibilidade da sua metodologia de investigação.
O que medem, respetivamente, os indicadores de intensidade do viés e estabilidade?
A intensidade do viés mede em que proporção dos tópicos de teste um modelo exibe uma tendência consistente e mensurável; a estabilidade mede o grau de consistência das respostas quando o mesmo tópico é testado repetidamente. A intensidade do viés de 97% do Grok significa que ele apresenta uma inclinação consistente para a direita em quase todos os tópicos; a estabilidade de apenas 67% do DeepSeek significa que, se a mesma questão for feita duas vezes, as respostas podem ter direções opostas.
O que este relatório indica aos utilizadores que recorrem a modelos de IA para obter informações políticas ou noticiosas?
O relatório da Trakkr não faz recomendações normativas quanto a isso, apenas afirma que os resultados das medições mostram que o próprio processo de treino dos modelos de IA já deixou enviesamentos em questões políticas, independentemente da posição declarada pelo modelo. O site da Trakkr disponibiliza uma análise completa e uma ferramenta interativa que permite aos utilizadores posicionarem-se a si próprios para comparação.