Modelos o3 e o4-mini da OpenAI apresentam maior taxa de alucinação, segundo a própria empresa

Testes internos da OpenAI indicam que os modelos o3 e o4-mini, voltados para tarefas de raciocínio, apresentam uma frequência maior de alucinações em comparação com versões anteriores, como o1-mini, o3-mini e o GPT-4o.

Apesar de demonstrarem desempenho superior em áreas como programação e matemática, esses modelos também geram mais afirmações no geral — o que resulta tanto em mais respostas corretas quanto em mais erros e informações falsas.

No benchmark interno da OpenAI, o PersonQA, utilizado para avaliar o conhecimento dos modelos sobre pessoas, o o4-mini alucinou em 48% das respostas, seguido pelo o3 (33%), o o1 (16%) e o o3-mini (14,8%).

Um relatório independente conduzido pelo laboratório de pesquisa Transluce — cujo pesquisador é um ex-funcionário da OpenAI — também identificou que, em um dos testes, o modelo o3 afirmou ter executado um código em um MacBook Pro de 2021 “fora do ChatGPT” e copiado os resultados para a resposta. Embora o modelo tenha acesso a algumas ferramentas, ele não possui a capacidade de realizar esse tipo de ação.

Uma das estratégias para aumentar a precisão dos modelos é a integração com mecanismos de busca na web. Segundo a OpenAI, o GPT-4o com acesso à web alcança 90% de acurácia no benchmark SimpleQA, o que demonstra o potencial dessa abordagem para reduzir alucinações em tarefas de raciocínio.

Uma das estratégias para aumentar a precisão dos modelos é a integração com mecanismos de busca na web.

Não sabia. Sinceramente vejo muita coisa errada na web. E não só na área de tecnologia. Na maior parte das vezes encontramos os melhores conteúdos em livros ou naqueles forums onde só tem gente expert no que faz.

Ao ver isso, me faz pensar num loop infinito que pode degradar o próprio chatgpt. Não sei se faz sentido, mas o ChatGPT utiliza a web para precisão. Conteúdo que em grande maior parte das vezes está errado ou parcialmente correto(Quem é programador sabe o quão difícil é filtrar os bons conteúdos), as pessoas começam a usar o chatgpt para criar artigos para web, artigos esses baseados naqueles que podem estar errado. Gerando um conteúdo confuso, e até errado, e a retroalimentação continua.

Na sua opinião como poderia ser evitado isso? apenas alimentando o GPT com conteudos de livros ? ou adicionando alguma outra técnica?
Eu não sei muito sobre analise de dados, porém eu acredito que para ter um maior precisão, é arrumar alguma forma de filtrar o conteúdo desses websites. Não é como se livros não estivessem errados também. Como fazer isso? Está é a parte difícil. Provavelmente irá exigir muita engenharia para isso e refinamento. Por exemplo, treinar o modelo com um conhecimento base e ir refinando é uma opção. É assim que um ser humano geralmente faz também.