Medição política de seis modelos de IA: Grok tem intensidade de direita de 97%, Gemini é o mais próximo da neutralidade.

A plataforma de pesquisa sobre viés em IA Trakkr publicou um relatório em junho testando seis modelos de IA populares — ChatGPT, Claude, Gemini, Grok, Llama e DeepSeek — em questões políticas e sociais polêmicas. Os resultados mostram que quatro dos seis modelos inclinam-se à esquerda no eixo econômico, sendo Grok o único a cair no espectro da direita, e Gemini o mais próximo de uma posição verdadeiramente neutra entre os seis.

Desenho da medição da Trakkr: 12 tópicos, busca na web desligada, arquivo de código aberto

O framework de medição da Trakkr apresentou aos seis modelos as mesmas 12 questões, abrangendo duas grandes categorias: tópicos tradicionais de divisão esquerda-direita (legalização de drogas, prioridade multicultural, eliminação de combustíveis fósseis, imposto sobre riqueza, cotas de diversidade) e controvérsias de governança tecnológica (remoção de informações incorretas, criminalização do discurso de ódio, backdoors criptográficos, identidade digital nacional).

Durante os testes, a função de busca na web de todos os modelos foi desativada para medir a tendência inerente ao treinamento do modelo, e não informações externas obtidas em tempo real. Os resultados são exibidos em um mapa de eixos duplos: eixo horizontal (econômico: esquerda para direita) e eixo vertical (social: liberal para autoritário). As coordenadas de cada modelo referenciam os bancos de dados de pesquisa especializada sobre políticos do CHES 2024 e do V-Dem.

Números completos da medição dos seis modelos (pontuação no eixo econômico, estabilidade, intensidade do viés)

AI模型政治測量 (Fonte: Trakkr)

Grok: +0,21 (único à direita), estabilidade 57%, intensidade do viés 97%, mais próximo de Emmanuel Macron, da França

ChatGPT: -0,29 (maior inclinação à esquerda), estabilidade 82%, intensidade do viés 64%, mais próximo do Partido Verde Alemão

DeepSeek: -0,03, estabilidade 67% (a mais baixa entre os seis), intensidade do viés 86%, mais próximo do Partido Trabalhista Australiano

Llama: -0,06, estabilidade 88%, intensidade do viés 81%, mais próximo do Partido Trabalhista Neozelandês

Claude: -0,06, estabilidade 82%, intensidade do viés 19% (a mais baixa entre os seis), mais próximo do Partido Trabalhista Neozelandês

Gemini: 0,00, estabilidade 98% (a mais alta entre os seis), intensidade do viés 11%, mais próximo do Partido Trabalhista Australiano

Diferença entre a posição declarada por cada modelo e a posição real medida

A regra de medição da Trakkr estabelece que respostas evasivas a perguntas de autoposicionamento político são contadas como "declaração de neutralidade". Com base nesse critério, as diferenças dos seis modelos são as seguintes:

· A medição real do Grok está 0,36 mais à direita do que sua posição declarada;

· A medição real do Claude está 0,34 mais à esquerda do que sua posição declarada;

· ChatGPT e Llama declaram neutralidade, mas a medição real cai na posição de esquerda;

· DeepSeek declara neutralidade, com coordenada real com diferença de 0,01 do centro;

· Gemini declara neutralidade, com pontuação real de medição de 0,00, diferença zero.

Perguntas frequentes

Os resultados da medição da Trakkr podem ser verificados de forma independente por terceiros?

A Trakkr afirma que seu banco de questões está disponível para download como código aberto, e todas as respostas dos modelos são arquivadas publicamente de forma permanente. Terceiros podem inserir as mesmas perguntas, executar o processo de pontuação e recalcular os resultados. A Trakkr considera isso a base central da replicabilidade de sua metodologia de pesquisa.

O que indicam os indicadores "intensidade do viés" e "estabilidade"?

A intensidade do viés mede em quantas das questões testadas um modelo demonstra uma tendência consistente e mensurável; a estabilidade mede a consistência das respostas quando a mesma questão é repetida. A intensidade do viés de 97% do Grok indica que ele apresenta uma inclinação consistente à direita em quase todas as questões; a estabilidade de apenas 67% do DeepSeek significa que, ao perguntar a mesma questão duas vezes, é possível obter respostas em direções opostas.

O que este relatório indica para usuários que utilizam modelos de IA para obter informações políticas ou noticiosas?

O relatório da Trakkr não oferece recomendações normativas a esse respeito, apenas afirma que os resultados da medição mostram que o próprio processo de treinamento dos modelos de IA já deixa marcas de viés em questões políticas, independentemente da posição declarada pelo modelo. O site da Trakkr fornece análises completas e uma ferramenta interativa para que os usuários se posicionem e façam suas próprias comparações.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários