OpenAI GPT-4o | Primeiras Impressões e Alguns Teste com API
Fala, Cria! 👊🏽
Hoje quem lançou a braba foi a galera da OpenAI. Os malucos são brabos demais, mano! A jogada da vez foi o seu novo modelo GPT-4o, projetado para revolucionar a geração de texto, imagem, áudio e vídeo.
Esse "o" aí vem de "onisciente", ou seja, os caras vão está em tudo agora. Eles querem que o GPT-4o consiga criar qualquer tipo de conteúdo, em qualquer formato, em qualquer idioma.
AGI se aproximando? 🤔
Mudança
Atualmente muitos devs utilizam os seguintes modelos para atingir os seus objetivos:
Modelo | Entrada | Saída | Tokens |
---|---|---|---|
gpt-3.5-turbo | Texto | Texto | 16k |
gpt-4-turbo | Texto | Texto | 128k |
gpt-4-turbo | Imagem | Texto | 16k |
Até a data de hoje, temos a seguinte possibilidade com o GPT-4o:
Modelo | Entrada | Saída | Tokens |
---|---|---|---|
gpt-4o | Texto | Texto | 128k |
gpt-4o | Imagem | Texto | 128k |
gpt-4o | Vídeo | Texto | 128k |
Ele apenas está gerando a saída de texto, mas a OpenAI promete que em breve teremos a saída de imagem, áudio e vídeo, então o que veremos em um futuro próximo é:
Modelo | Entrada | Saída | Tokens |
---|---|---|---|
gpt-4o | Texto | Texto | 128k |
gpt-4o | Texto | Imagem | 128k |
gpt-4o | Texto | Áudio | 128k |
gpt-4o | Imagem | Texto | 128k |
gpt-4o | Imagem | Áudio | 128k |
gpt-4o | Imagem | Vídeo | 128k |
gpt-4o | Vídeo | Texto | 128k |
gpt-4o | Vídeo | Áudio | 128k |
gpt-4o | Vídeo | Vídeo | 128k |
gpt-4o | Audio | Texto | 128k |
gpt-4o | Audio | Imagem | 128k |
gpt-4o | Audio | Vídeo | 128k |
Incrível, não? 🤯
E o melhor de tudo, uma janela de contexto de 128k tokens, ou seja, o modelo consegue entender e gerar textos muito mais longos e complexos, e tudo isso com um CUSTO 50% MAIS BAIXO!
A CTO Mira Murati apontou que a utilização de três modelos diferentes pode causar latência no GPT. A solução é ter um único modelo capaz de processar áudio, texto e visão, eliminando esse problema e proporcionando uma interação mais fluída e imediata, semelhante à comunicação humana.
Novamente, AGI se aproximando? 🤔
Exemplos de uso
Os gringos lançaram uma pancada de exemplos de aplicações usando esse novo modelo:
- Fazendo sarcasmo
- Resolvendo problemas matemáticos
- Aprendendo espanhol
- Goolet Meet com IA
- Tradução em tempo real
- Canção de ninar
- Falando mais rápido
- Feliz Aniversário
- GPT-4o com Andy, da BeMyEyes em Londres
- Dois GPT-4s interagindo e cantando
E você, já pensou no que vai criar com esse novo modelo? Conta aí nos comentários.
API
Vamos brincar um pouco com a API que já está disponível para todos os desenvolvedores.
Texto para Texto
# main.py
from openai import OpenAI
import os
SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)
completion = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Você é um assistente prestativo. Me ajude com a minha lição de matemática!"},
{"role": "user", "content": "Olá! Você poderia resolver 2+2?"}
]
)
print("Assistente: " + completion.choices[0].message.content)
"""
Saida:
( 2 + 2 = 4 ). Se precisar de mais ajuda com sua lição de matemática, estou à disposição!
"""
Exemplo bem simples, certo?
Mas veja que não precisamos mais usar o gpt-4-turbo para resolver problemas matemáticos, o gpt-4 já resolve isso para nós. Eu ainda vou continuar usando o gpt-3.5-turbo para algumas situações, pois ele ainda é mais rápido e mais barato para textos menores.
Processamento de Imagem
Para esse teste peguei um screenshot do meu linkedin e vou pedir para o modelo descrever o que posso melhorar no meu perfil.
# main.py
from openai import OpenAI
import base64
SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode("utf-8")
base64_image = encode_image("linkedin.png")
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Você é um assistente que analisa imagens."},
{"role": "user", "content": [
{"type": "text", "text": "O que eu poderia melhorar no meu perfil do LinkedIn?"},
{"type": "image_url", "image_url": {
"url": f"data:image/png;base64,{base64_image}"}
}
]}
],
temperature=0.0,
)
print(response.choices[0].message.content)
"""
Saida:
1. **Foto de Perfil e Capa**:
- A foto de perfil é profissional e amigável, o que é ótimo. Certifique-se de que a foto de capa também seja relevante para sua área de atuação ou que reflita sua personalidade profissional.
2. **Título Profissional**:
- Seu título atual é "CTO na VIK". Considere adicionar palavras-chave que descrevam suas habilidades e especializações, como "CTO | Engenheiro de Software | Especialista em Ruby on Rails".
3. **Resumo (Sobre)**:
- O resumo é uma ótima oportunidade para destacar suas principais realizações e habilidades. Considere adicionar mais detalhes sobre projetos específicos, resultados alcançados e como você pode agregar valor a potenciais empregadores ou parceiros.
...
"""
Bem mais interessante, certo? O modelo conseguiu analisar a minha foto e sugerir melhorias no meu perfil.
Conclusão
Esses são os exemplos mais próximos, em breve a OpenAI disponibiliza as entradas/saídas de áudio e vídeo (Sora, será?). Eles não lançaram ainda, com a seguinte ressalva abaixo.
"Reconhecemos que as modalidades de áudio do GPT-4 apresentam uma variedade de riscos novos. Hoje estamos lançando publicamente entradas de texto e imagem e saídas de texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, usabilidade pós-treinamento e segurança necessária para liberar as outras modalidades. Por exemplo, no lançamento, as saídas de áudio serão limitadas a uma seleção de vozes pré-definidas e seguirão nossas políticas de segurança existentes."
E aí, curtiu o flow?
Se você chegou até aqui, muito obrigado! Seria incrível se você pudesse compartilhar este material em suas redes sociais e dar um like! Para mais rolês como esse, cola comigo no Meu Site • LinkedIn • Twitter • GitHub
Observação: Este conteúdo pode incluir imagens geradas por inteligência artificial em algumas partes ou textos revisados pelo mesmo sistema, mas toda a estruturação, ideias e experiências criativas são fornecidas por um ser humano. Gostaria de lembrar a todos que essas são minhas observações e pensamentos pessoais.
Não vejo isso sendo um passo mais perta de uma "AGI" (claro que vai variar muito da definição de cada um sobre, um Akinator da vida poderia ser considerado por abordar diversos temas?).
No que vejo, continua possuindo o mesmo problema de apenas interpretar coisas e entregar "resumos" dos treinamentos. Ou seja, seria como se estivessemos sempre olhando para o retrovisor.
Interpretar imagem e áudio não aproxima de um cenário onde algum GPT consiga tomar decisões efetivamente (ao invés de olhar para o retrovisor, olhar para frente mesmo). Se eu estiver utilizando no meu celular e pedir para ligar para alguém, ele não vai identificar o ambiente que está rodando, pesquisar para descobrir como se faz uma ligação nesse ambiente e então executar o comando. Se pedir para criar qualquer coisa nova de fato, não vai ter essa capacidade, apenas será uma interpretação dos conteúdos usados no treinamento.
Acho que esse tipo de evolução é mais um grande passo para uma nova grande mudança na interface humano-computador, ou como lidamos com a tecnologia em geral. Assim como mouse/teclado foi na época, os smartphones, telas touch, assim por diante. Ainda estão tentando emplacar realidade aumentada com os óculos, mas aproveitar o smartphone que a maioria já possui para mudar a forma de interagir com as coisas já bem mais simples mesmo. Sem citar o quão incrível seria para a acessibilidade em geral, um cego apontar o celular, perguntar onde está e receber uma resposta completa e detalhada. Quando isso caminhar para vestíveis, olhar para as mãos e perguntar quanto dinheiro está segurando (conferir um troco por exemplo).
achei irado o Aprendendo espanhol imagem para texto!