OpenAI GPT-4o | Primeiras Impressões e Alguns Teste com API

Fala, Cria! 👊🏽

Hoje quem lançou a braba foi a galera da OpenAI. Os malucos são brabos demais, mano! A jogada da vez foi o seu novo modelo GPT-4o, projetado para revolucionar a geração de texto, imagem, áudio e vídeo.

Esse "o" aí vem de "onisciente", ou seja, os caras vão está em tudo agora. Eles querem que o GPT-4o consiga criar qualquer tipo de conteúdo, em qualquer formato, em qualquer idioma.

AGI se aproximando? 🤔

Mudança

Atualmente muitos devs utilizam os seguintes modelos para atingir os seus objetivos:

Modelo Entrada Saída Tokens
gpt-3.5-turbo Texto Texto 16k
gpt-4-turbo Texto Texto 128k
gpt-4-turbo Imagem Texto 16k

Até a data de hoje, temos a seguinte possibilidade com o GPT-4o:

Modelo Entrada Saída Tokens
gpt-4o Texto Texto 128k
gpt-4o Imagem Texto 128k
gpt-4o Vídeo Texto 128k

Ele apenas está gerando a saída de texto, mas a OpenAI promete que em breve teremos a saída de imagem, áudio e vídeo, então o que veremos em um futuro próximo é:

Modelo Entrada Saída Tokens
gpt-4o Texto Texto 128k
gpt-4o Texto Imagem 128k
gpt-4o Texto Áudio 128k
gpt-4o Imagem Texto 128k
gpt-4o Imagem Áudio 128k
gpt-4o Imagem Vídeo 128k
gpt-4o Vídeo Texto 128k
gpt-4o Vídeo Áudio 128k
gpt-4o Vídeo Vídeo 128k
gpt-4o Audio Texto 128k
gpt-4o Audio Imagem 128k
gpt-4o Audio Vídeo 128k

Incrível, não? 🤯

E o melhor de tudo, uma janela de contexto de 128k tokens, ou seja, o modelo consegue entender e gerar textos muito mais longos e complexos, e tudo isso com um CUSTO 50% MAIS BAIXO!

A CTO Mira Murati apontou que a utilização de três modelos diferentes pode causar latência no GPT. A solução é ter um único modelo capaz de processar áudio, texto e visão, eliminando esse problema e proporcionando uma interação mais fluída e imediata, semelhante à comunicação humana.

Novamente, AGI se aproximando? 🤔

Exemplos de uso

Os gringos lançaram uma pancada de exemplos de aplicações usando esse novo modelo:

E você, já pensou no que vai criar com esse novo modelo? Conta aí nos comentários.

API

Vamos brincar um pouco com a API que já está disponível para todos os desenvolvedores.

Texto para Texto

# main.py

from openai import OpenAI 
import os

SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)

completion = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {"role": "system", "content": "Você é um assistente prestativo. Me ajude com a minha lição de matemática!"},
    {"role": "user", "content": "Olá! Você poderia resolver 2+2?"}  
  ]
)

print("Assistente: " + completion.choices[0].message.content)

"""
Saida:
( 2 + 2 = 4 ). Se precisar de mais ajuda com sua lição de matemática, estou à disposição!
"""

Exemplo bem simples, certo?

Mas veja que não precisamos mais usar o gpt-4-turbo para resolver problemas matemáticos, o gpt-4 já resolve isso para nós. Eu ainda vou continuar usando o gpt-3.5-turbo para algumas situações, pois ele ainda é mais rápido e mais barato para textos menores.

Processamento de Imagem

Para esse teste peguei um screenshot do meu linkedin e vou pedir para o modelo descrever o que posso melhorar no meu perfil.

# main.py

from openai import OpenAI 
import base64

SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)

def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

base64_image = encode_image("linkedin.png")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Você é um assistente que analisa imagens."},
        {"role": "user", "content": [
            {"type": "text", "text": "O que eu poderia melhorar no meu perfil do LinkedIn?"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/png;base64,{base64_image}"}
            }
        ]}
    ],
    temperature=0.0,
)

print(response.choices[0].message.content)

"""
Saida:
1. **Foto de Perfil e Capa**:
   - A foto de perfil é profissional e amigável, o que é ótimo. Certifique-se de que a foto de capa também seja relevante para sua área de atuação ou que reflita sua personalidade profissional.

2. **Título Profissional**:
   - Seu título atual é "CTO na VIK". Considere adicionar palavras-chave que descrevam suas habilidades e especializações, como "CTO | Engenheiro de Software | Especialista em Ruby on Rails".

3. **Resumo (Sobre)**:
   - O resumo é uma ótima oportunidade para destacar suas principais realizações e habilidades. Considere adicionar mais detalhes sobre projetos específicos, resultados alcançados e como você pode agregar valor a potenciais empregadores ou parceiros.

...
"""

Bem mais interessante, certo? O modelo conseguiu analisar a minha foto e sugerir melhorias no meu perfil.

Conclusão

Esses são os exemplos mais próximos, em breve a OpenAI disponibiliza as entradas/saídas de áudio e vídeo (Sora, será?). Eles não lançaram ainda, com a seguinte ressalva abaixo.

"Reconhecemos que as modalidades de áudio do GPT-4 apresentam uma variedade de riscos novos. Hoje estamos lançando publicamente entradas de texto e imagem e saídas de texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, usabilidade pós-treinamento e segurança necessária para liberar as outras modalidades. Por exemplo, no lançamento, as saídas de áudio serão limitadas a uma seleção de vozes pré-definidas e seguirão nossas políticas de segurança existentes."

E aí, curtiu o flow?

Se você chegou até aqui, muito obrigado! Seria incrível se você pudesse compartilhar este material em suas redes sociais e dar um like! Para mais rolês como esse, cola comigo no Meu SiteLinkedInTwitterGitHub


Observação: Este conteúdo pode incluir imagens geradas por inteligência artificial em algumas partes ou textos revisados pelo mesmo sistema, mas toda a estruturação, ideias e experiências criativas são fornecidas por um ser humano. Gostaria de lembrar a todos que essas são minhas observações e pensamentos pessoais.

Não vejo isso sendo um passo mais perta de uma "AGI" (claro que vai variar muito da definição de cada um sobre, um Akinator da vida poderia ser considerado por abordar diversos temas?).

No que vejo, continua possuindo o mesmo problema de apenas interpretar coisas e entregar "resumos" dos treinamentos. Ou seja, seria como se estivessemos sempre olhando para o retrovisor.

Interpretar imagem e áudio não aproxima de um cenário onde algum GPT consiga tomar decisões efetivamente (ao invés de olhar para o retrovisor, olhar para frente mesmo). Se eu estiver utilizando no meu celular e pedir para ligar para alguém, ele não vai identificar o ambiente que está rodando, pesquisar para descobrir como se faz uma ligação nesse ambiente e então executar o comando. Se pedir para criar qualquer coisa nova de fato, não vai ter essa capacidade, apenas será uma interpretação dos conteúdos usados no treinamento.

Acho que esse tipo de evolução é mais um grande passo para uma nova grande mudança na interface humano-computador, ou como lidamos com a tecnologia em geral. Assim como mouse/teclado foi na época, os smartphones, telas touch, assim por diante. Ainda estão tentando emplacar realidade aumentada com os óculos, mas aproveitar o smartphone que a maioria já possui para mudar a forma de interagir com as coisas já bem mais simples mesmo. Sem citar o quão incrível seria para a acessibilidade em geral, um cego apontar o celular, perguntar onde está e receber uma resposta completa e detalhada. Quando isso caminhar para vestíveis, olhar para as mãos e perguntar quanto dinheiro está segurando (conferir um troco por exemplo).

@guiliznas Blz? Gostei muito da sua opinião, realmente o que define uma AGI? O que define qualquer coisa? Depende muito do ponto de vista do indivíduo. Acredito que no fim desse hype, será gerada uma nova era, assim como foi em 1990 com a chegada dos PCs, Depois da Internet, Celuar, Aplicativos, SaaS, Blockchain e agora IA. Talvez tudo isso vá se convergir em algo muito surpreendente nos próximos anos e ninguém ao certo sabe, tudo é mera futurologia. Obrigado pela interação.
Isso mesmo! Imagino que nossa sensação hoje seria algo semelhante ao pessoal que acompanhou o surgimento da internet ou computadores mesmo, sem imaginar (na época) o potencial que atingiria.

achei irado o Aprendendo espanhol imagem para texto!

@samukarb, blz? Vou usar muito para melhorar o meu inglês.