Como usamos IA para revelar textos não vistos há dois milênios (de papiros carbonizados por um vulcão)

Aqui, vamos entender como nosso time, predominantemente brasileiro, usou Inteligência Artificial (ou, melhor, machine learning) para revelar textos inéditos de um papiro carbonizado há dois milênios e empatou em segundo lugar no Vesuvius Challenge, um desafio incrível que mostra um lado positivo dos avanços em IA! (Texto original)

Esta publicação tem como objetivo explicar os fundamentos da competição até aqui. Ela culminou nestas predições (dos primeiros colocados):

Começamos essa história no ano de 79 d.C. quando o vulcão Vesúvio entrou em erupção e enterrou uma vila da cidade Herculano (hoje, no sul da Itália); vila essa que possivelmente pertenceu ao padrasto de Júlio César.

Depois, em 1750, um fazendeiro reencontrou essa vila. Após algumas escavações, foram encontradas estátuas, pinturas e centenas de papiros carbonizados!!

São tantos papiros que lê-los significaria contribuir substancialmente com nosso conhecimento atual da Antiguidade. Quem sabe, talvez, um novo dialógo de Aristóteles!? Uma nova história épica de Homero!?

Porém, desenrolar fisicamente os papiros se mostrou uma tarefa praticamente impossível, visto que eles foram danificados severamente em todas as tentativas, como mostra a foto abaixo.

Então, um procedimento não invasivo para lê-los se mostrou necessário.

Em 2015, o Prof. Dr. Brent Seales mostrou que era possível desenrolar e reconstruir textos de papiros por meio de uma tomografia por Raios-X. Essa foi a base que tornou possível a leitura dos papiros em 2023.

Esse processo têm três etapas principais:

  1. Escanear os papiros: fazer uma reconstrução digital do papiro a partir de uma tomografia computadorizada (feita por um acelerador de partículas!). (Vídeo ilustrativo)

  2. Segmentação: desenrolar e planificar digitalmente o papiro. No fim desse processo, temos algo semelhante a uma folha de papel pintada com algo misterioso que queremos decifrar. (Vídeo ilustrativo)

  3. Detecção de tinta: uma Inteligência Artificial (ou, melhor, um modelo de machine learning) aprende a detectar pequenos sinais de tinta nessas "folhas de papel", e, aos poucos, esses sinais formam as letras que compõem os textos. (Vídeo ilustrativo)

Contudo, os sinais da tinta de carbono são muito sutis na reconstrução tomográfica, o que dificultou o progresso do problema. Nisso, motivado a desvendar os textos perdidos, Nat Friedman entrou em contato com o Prof. Seales e, juntamente com Daniel Gross, criaram o Vesuvius Challenge na esperança da Internet resolver esse fantástico mistério.

Alguns meses depois do desafio ser lançado, Casey Handmer descobriu sinais claros de tinta; ele os chamou de "crackles".

Na figura, conseguimos ver claramente a letra π a partir dos crackles:

Isso mudou TUDO. Baseado nos crackles, Luke Farritor e Youssef Nader conseguiram treinar um modelo de machine learning (ou, uma IA) para identificá-los. Com isso, encontraram a primeira palavra até então: ΠΟΡΦΥΡΑϹ (porphyras), que significa "purple" em inglês.

O trabalho deles foi a inspiração para começarmos a treinar nossos próprios modelos e buscar textos ainda não revelados.

Com essa base, fomos descobrindo novas letras e aprimorando nossos modelos cada vez mais num processo iterativo.

O resultado disso é que, até agora, foi possível ler aproximadamente 5% de um pergaminho!! De acordo com os papirologistas, o texto trata de uma obra inédita de filosofia Epicurista e tem "prazer" como tema principal, relacionando-o à disponibilidade de bens.

O próximo objetivo é conseguir ler 90% desse pergaminho. Já o objetivo final é conseguir ler os mais de 800 pergaminhos já recuperados, além de continuar a escavação da vila para obter os que restam!

E aqui termina esse pequeno resumo do desafio até agora. Caso gostaram e queiram um post técnico, ficaria feliz em fazê-lo! Por enquanto, existe o repositório oficial da nossa submissão.

Claro, deixo o agradecimento ao time que dividiu esse segundo lugar comigo: Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, e Odemir Martinez Bruno. Também, ao SCG-IFSC (USP) e ao Vesuvius Challenge. Ser responsável por um projeto que, do começo ao fim, todos fizeram pelo puro prazer de fazê-lo me enche de alegria.

Cara, que massa isso! Eu escrevi sobre o grande prêmio na edição da Newsletter do dia 6 de fevereiro.

Mas que pena que eu não notei que o seu time havia levado o segundo lugar! Isso teria deixado a notícia muitíssimo mais interessante!!

Parabéns elianrafael!

Simm, muito legal!! Infelizmente acabei perdendo essa newsletter; semana passada foi um tanto agitada kkkkk Mas, assim, entendo, não os culpo. Isso não foi muito divulgado mesmo. Inclusive, aqui no Brasil, sei apenas da menção do Xadrez Verbal. Por isso, fico muito feliz com o comentário, ainda mais vindo de você! Gosto muito do seu trabalho! Muito obrigado!

Li sobre o concurso na newsletter da semana passada e fico mega feliz em saber mais detalhes de como foi feita essa leitura com IA, pois não imaginava que tudo isso só fosse possível graças a descoberta do dr. Casey Handmer.

Você saberia dizer como exatamente aconteceu esse momento? Estou lendo uma parte da biografia dele mas ele não menciona nada sobre os papiros, ou o vesuvious challenge.

E o cara é bastante viajado e nunca esteve no Brasil, hein?

Parabéns Rafael e equipe, vocês me orgulham como brasileiro!

Fico muito contente em saber que gostou! Sobre a descoberta dos *crackles*, ele passou meses olhando e analisando os segmentos a serem revelados até encontrar esses padrões distintos. Ele compartilhou o progresso dele via uma [thread](https://twitter.com/CJHandmer/status/1644482600411725824) no Twitter e anunciou com mais detalhes em um [blog post](https://caseyhandmer.wordpress.com/2023/08/05/reading-ancient-scrolls/). Esses dois links estão cheios de detalhes do processo. Muito obrigado pelas gentis palavras!!

Estou simplesmente fascinada! Meus parabéns, elianrafael!

Acho que *fascinada* é a palavra perfeita para esse desafio. Ele é, de fato, incrível. Muito obrigado!

Show, parabéns!!!

Muito obrigado!!

Cara, massa demais !!! Parabéns

Demais!! Muito obrigado!