ChatGPT pode escrever código. Agora os pesquisadores dizem que ele também é bom em corrigir bugs

O chatbot ChatGPT da OpenAI pode corrigir muito bem bugs de software, mas a sua principal vantagem em relação a outros métodos e modelos de AI é a sua capacidade única de diálogo com seres humanos, o que lhe permite melhorar a correção de uma resposta.

Pesquisadores da Universidade Johannes Gutenberg Mainz e do University College London confrontaram o ChatGPT da OpenAI com "técnicas padrão de reparo automatizado de programas" e duas abordagens de aprendizado profundo para reparos de programas: CoCoNut, desenvolvido por pesquisadores da Universidade de Waterloo, no Canadá; e Codex, modelo baseado no GPT-3 da OpenAI que serve de base para o serviço de código autocompletado de programação em pares do GitHub, o Copilot.

Também: Como começar a usar o ChatGPT

"Descobrimos que o desempenho do ChatGPT na correção de bugs é competitivo em relação às abordagens comuns de aprendizado profundo CoCoNut e Codex e notavelmente melhor do que os resultados relatados para as abordagens padrão de reparo de programa", escrevem os pesquisadores em um novo artigo arXiv, primeiramente identificado pela New Scientist.

Os melhores chatbots de IA: ChatGPT e outras alternativas interessantes para experimentar

Chatbots e escritores de IA podem ajudar a aliviar sua carga de trabalho ao escrever e-mails, ensaios e até mesmo fazer matemática. Eles usam inteligência artificial para gerar texto ou responder perguntas com base na entrada do usuário. ChatGPT é um exemplo popular, mas existem outros chatbots interessantes.

Ler agora

Que o ChatGPT pode ser usado para resolver problemas de programação não é novo, mas os pesquisadores destacam que sua capacidade única de diálogo com os humanos lhe confere uma vantagem potencial sobre outras abordagens e modelos.

Os investigadores testaram o desempenho do ChatGPT utilizando o conjunto de testes QuixBugs de correção de bugs. Os sistemas de reparo automático de programas (APR) parecem estar em desvantagem, uma vez que foram desenvolvidos antes de 2018.

ChatGPT é baseado na arquitetura transformer, que o chefe de AI da Meta, Yann LeCunn, destacou esta semana que foi desenvolvida pelo Google. Codex, CodeBERT da Microsoft Research e seu predecessor BERT do Google são todos baseados no método transformer do Google.

O OpenAI destaca a capacidade de diálogo do ChatGPT em exemplos para depuração de código, onde ele pode fazer perguntas para esclarecer e receber dicas de uma pessoa para chegar a uma resposta melhor. Foi treinado usando Aprendizado por Reforço a partir do Feedback Humano (RLHF) nos grandes modelos de linguagem por trás do ChatGPT (GPT-3 e GPT 3.5).

Embora a capacidade de discussão do ChatGPT possa ajudá-lo a chegar a uma resposta mais correta, a qualidade de suas sugestões continua incerta, observam os pesquisadores. É por isso que eles queriam avaliar o desempenho do ChatGPT na correção de bugs.

Os investigadores testaram o ChatGPT em 40 problemas apenas em Python do QuixBugs, e depois verificaram manualmente se a solução sugerida estava correta ou não. Repetiram a consulta quatro vezes porque existe alguma aleatoriedade na confiabilidade das respostas do ChatGPT, como descobriu um professor de Wharton depois de submeter o chatbot a um exame semelhante a um MBA.

ChatGPT resolveu 19 dos 40 bugs em Python, colocando-o em pé de igualdade com CoCoNut (19) e Codex (21). Mas os métodos APR padrão apenas resolveram sete dos problemas.

Os investigadores descobriram que a taxa de sucesso do ChatGPT com interações de acompanhamento atingiu 77,5%.

As implicações para os desenvolvedores em termos de esforço e produtividade são ambíguas, no entanto. Recentemente, o Stack Overflow proibiu respostas geradas pelo ChatGPT porque eram de baixa qualidade, embora parecessem plausíveis. O professor de Wharton descobriu que o ChatGPT poderia ser um ótimo companheiro para os estudantes de MBA, pois pode atuar como um "consultor inteligente" - alguém que produz respostas elegantes, mas muitas vezes erradas - e estimular o pensamento crítico.

"Isto mostra que a contribuição humana pode ser muito útil para um sistema automatizado de APR, com o ChatGPT fornecendo os meios para fazê-lo", escrevem os pesquisadores.

"Apesar do seu excelente desempenho, surge a questão de se o custo mental necessário para verificar as respostas do ChatGPT supera as vantagens que o ChatGPT traz."

ChatGPT pode escrever código. Agora os pesquisadores dizem que ele também é bom em corrigir bugs.

Os melhores chatbots de IA: ChatGPT e outras alternativas interessantes para experimentar

Artigos Relacionados