OpenAI lança benchmark para avaliar desenvolvimento de software em modelos de IA

O SWE-Lancer inclui mais de 1.400 tarefas extraídas da plataforma de freelancers Upwork, totalizando 1 milhão de dólares em pagamentos reais.

Ele contém tanto tarefas independentes de engenharia de software — variando de correções de bugs de 50 dólares a implementações de recursos avaliadas em 32 mil dólares — quanto desafios gerenciais, nos quais os modelos de IA precisam escolher entre diferentes propostas técnicas.

As tarefas de engenharia são avaliadas por meio de testes de ponta a ponta, que foram verificados por engenheiros experientes, enquanto as decisões gerenciais são comparadas com as escolhas feitas por gerentes humanos.

De acordo com a OpenAI, os modelos de ponta ainda não conseguem resolver a maioria das tarefas, mas a empresa não forneceu mais detalhes ou métricas específicas sobre essa limitação.