OpenAI teria utilizado livros protegidos por paywall da O’Reilly Media para treinar modelos
Pesquisadores do AI Disclosures Project, organização cujo CEO é Tim O’Reilly, afirmam que a OpenAI treinou o GPT-4o com livros da O’Reilly Media sem um acordo de licenciamento. De acordo com o estudo, o modelo demonstra um “forte conhecimento” de conteúdos protegidos por paywall, superando o GPT-3.5 Turbo, que reconhece mais frequentemente trechos de livros acessíveis ao público.
A pesquisa utilizou o método DE-COP, desenvolvido para identificar conteúdos protegidos por direitos autorais em dados de treinamento. O experimento testou a capacidade do modelo de distinguir textos escritos por humanos de versões parafraseadas geradas por IA. Os pesquisadores analisaram 13.962 trechos de 34 livros da O’Reilly Media, comparando a resposta do GPT-4o com a de versões anteriores da OpenAI. Os resultados sugerem que o GPT-4o reconhece significativamente mais conteúdos protegidos por paywall.
Apesar disso, os pesquisadores reconhecem que o método não é infalível e que a OpenAI pode ter obtido trechos dos livros por meio de usuários que copiaram e colaram o conteúdo no ChatGPT. Modelos mais recentes, como o GPT-4.5 e os modelos de raciocínio o3-mini e o1, não foram avaliados.
A OpenAI não se pronunciou sobre o caso.