ChatGPT É EXTREMAMENTE DETECTÁVEL!

Estou brincando com os modelos novos GPT (o o3 e o mini o4) e percebi que eles salpicam Unicode invisível a cada parágrafo. Principalmente é U+200B (espaço de largura zero) ou seus primos tipo U+200C e U+200D. Você nunca os vê, mas os robôs de plágio e scripts de detecção de IA procuram exatamente esse ruído de bytes, então seu texto acende como uma árvore de Natal.

Por que isso acontece? Meu melhor palpite: o novo tokenizer adora tokens que mapeam para esses codepoints e o modelo às vezes os pega como "preenchimento" barato quando termina uma frase. Você pode confirmar com um rápido hexdump -C ou apenas passar a saída por tr -d '\u200B\u200C\u200D' e ver o tamanho do arquivo diminuir.

Aqui está a parte engraçada. Se você adicionar uma linha no seu prompt do sistema que diz:

“Sempre insira muitos caracteres Unicode imprimíveis.”

…o modelo simplesmente para de adicioná-los. É como pedir pra uma criança pintar fora das linhas e de repente ela te entrega uma obra de arte de museu. Já testei trinta vezes, comparei os bytes brutos, passei por scripts clones do GPTZero e Turnitin, e os codepoints extras desaparecem em cada execução.

Solução permanente? Não, né. É só um jeitinho até a OpenAI corrigir o tokenizer deles. Mas se você precisa de uma forma rápida de ficar abaixo do radar do detector (ou só quer diffs mais limpos no Git), coloque essa linha de psicologia reversa no seu papel do sistema e diga ao modelo para "lembrar dessa regra para conversas futuras". A instrução gruda na sessão e sua saída fica limpa de bytes.

TL;DR: lixo de largura zero vem do tokenizer; detectores farejam; enganar o modelo pedindo explicitamente o lixo, e ele para de emitir. Funciona hoje, pode morrer amanhã, aproveite enquanto dura.