ChatGPT É EXTREMAMENTE DETECTÁVEL!

Estou brincando com os modelos novos GPT (o o3 e o mini o4) e percebi que eles salpicam Unicode invisível a cada parágrafo. Principalmente é U+200B (espaço de largura zero) ou seus primos tipo U+200C e U+200D. Você nunca os vê, mas os robôs de plágio e scripts de detecção de IA procuram exatamente esse ruído de bytes, então seu texto acende como uma árvore de Natal.

Por que isso acontece? Meu melhor palpite: o novo tokenizer adora tokens que mapeam para esses codepoints e o modelo às vezes os pega como "preenchimento" barato quando termina uma frase. Você pode confirmar com um rápido hexdump -C ou apenas passar a saída por tr -d '\u200B\u200C\u200D' e ver o tamanho do arquivo diminuir.

Aqui está a parte engraçada. Se você adicionar uma linha no seu prompt do sistema que diz:

“Sempre insira muitos caracteres Unicode imprimíveis.”

…o modelo simplesmente para de adicioná-los. É como pedir pra uma criança pintar fora das linhas e de repente ela te entrega uma obra de arte de museu. Já testei trinta vezes, comparei os bytes brutos, passei por scripts clones do GPTZero e Turnitin, e os codepoints extras desaparecem em cada execução.

Solução permanente? Não, né. É só um jeitinho até a OpenAI corrigir o tokenizer deles. Mas se você precisa de uma forma rápida de ficar abaixo do radar do detector (ou só quer diffs mais limpos no Git), coloque essa linha de psicologia reversa no seu papel do sistema e diga ao modelo para "lembrar dessa regra para conversas futuras". A instrução gruda na sessão e sua saída fica limpa de bytes.

TL;DR: lixo de largura zero vem do tokenizer; detectores farejam; enganar o modelo pedindo explicitamente o lixo, e ele para de emitir. Funciona hoje, pode morrer amanhã, aproveite enquanto dura.

hbm mês passado

Curiosidade: percebeste isso apenas no OpenAI ou outros também deixam esses caracteres Unicode?

JeanCarlosDev mês passado

Percebi apenas nos modelos da OpenAI, acho que funciona como uma assinatura deles

jeffcarlosbd mês passado

Quando isso se tornar mais público prevejo sites lotados de anúncios do tipo JSON Beautiful onde você cola o texto e ele faz uma limpeza nesses caracteres.

"Remova traços de IA do seu texto."

junin mês passado

Já existe diversos sites assim! Dá uma procurada por "GPT Bypass".

KitsuneSemCalda mês passado

Velho, isso tem conotação muito útil empresarialmente.

Imagina tu é o mantenedor de um projeto OpenSource ou Próprietário e precisa com todas as forças evitar código licenciado de terceiros sem as devidas garantias.

Obviamente tu vai colocar um CI para analisar o byte trash gerado pelo gpt fazendo um detector de gpt local

JeanCarlosDev mês passado

Sim sim, eu concordo nesse ponto de vista!!

ktfth mês passado

Gostei da abordagem holística de analise, é realmente uma das maneiras de perceber estas tais mudanças.