GPT-3, o gigantesco modelo de linguagem da OpenAI, revela os limites dos modelos de linguagem para IA

Há pouco mais de um ano, OpenAI, uma empresa de inteligência artificial sediada em San Francisco, chocou o mundo ao mostrar um grande avanço no que parecia ser o poder dos computadores para formar frases em linguagem natural e até mesmo responder perguntas, como completar uma frase e formular longos trechos de texto que as pessoas achavam bastante humanos.

O trabalho mais recente dessa equipa mostra como o pensamento da OpenAI amadureceu em alguns aspectos. GPT-3, como a nova criação é chamada, surgiu na semana passada, com mais recursos e funcionalidades, criado por alguns dos mesmos autores da última versão, incluindo Alec Radford e Ilya Sutskever, juntamente com vários colaboradores adicionais, incluindo cientistas da Universidade Johns Hopkins.

Agora é um modelo de linguagem verdadeiramente monstruoso, como é chamado, devorando duas ordens de grandeza mais texto do que seu predecessor.

Mas, dentro dessa façanha de maior é melhor, a equipe da OpenAI parece estar abordando algumas verdades mais profundas, da mesma forma que o Dr. David Bowman abordou os limites do conhecido no final do filme 2001.

No final da secção de conclusão do artigo de 72 páginas, Language Models are Few-Shot Learners, publicado na semana passada no servidor de pré-publicação arXiv, há um reconhecimento bastante impressionante.

"Uma limitação mais fundamental da abordagem geral descrita neste artigo - a dimensionação de qualquer modelo semelhante a LM (Linguagem do Modelo), seja autoregressivo ou bidirecional - é que pode eventualmente encontrar (ou já pode estar encontrando) os limites do objetivo de pré-treinamento", escrevem os autores.

O que os autores estão dizendo é que construir uma rede neural que apenas prevê probabilidades da próxima palavra em uma frase ou frase pode ter seus limites. Apenas torná-la cada vez mais poderosa e enchê-la com cada vez mais texto pode não gerar melhores resultados. Isso é um reconhecimento significativo dentro de um artigo que celebra principalmente a conquista de lançar mais poder de computação em um problema.

Para entender por que a conclusão dos autores é tão significativa, considere como chegamos até aqui. A história do trabalho da OpenAI em linguagem tem sido parte da história de uma progressão constante de um tipo de abordagem, com sucesso cada vez maior à medida que a tecnologia foi ficando maior e maior e maior.

A GPT original e o GPT-2 são ambas adaptações do que é conhecido como Transformer, uma inovação pioneira na Google em 2017. O Transformer utiliza uma função chamada atenção para calcular a probabilidade de uma palavra aparecer, dadas as palavras circundantes. A OpenAI causou controvérsia há um ano, quando afirmou que não iria disponibilizar o código-fonte da versão maior do GPT-2, porque, segundo a mesma, esse código poderia cair nas mãos erradas e ser utilizado de forma abusiva para enganar as pessoas com coisas como notícias falsas.

O novo artigo leva o GPT ao próximo nível ao torná-lo ainda maior. A maior versão do GPT-2, aquela que não foi publicada em formato de código-fonte, tinha 1,5 bilhão de parâmetros. O GPT-3 tem 175 bilhões de parâmetros. Um parâmetro é um cálculo em uma rede neural que aplica um peso maior ou menor a algum aspecto dos dados, para dar a esse aspecto maior ou menor destaque no cálculo geral dos dados. São esses pesos que dão forma aos dados e dão à rede neural uma perspectiva aprendida sobre os dados.

Aumentar os pesos ao longo do tempo tem levado a resultados surpreendentes nos testes de referência da família de programas GPT, e por outros derivados do Transformer, como o BERT do Google, resultados que têm sido consistentemente impressionantes.

Não faz mal que muitas pessoas tenham apontado que nenhum desses modelos de linguagem realmente parece estar entendendo a linguagem de forma significativa. Eles estão sendo bem-sucedidos nos testes, e isso conta para algo.

A versão mais recente mais uma vez mostra progresso quantitativo. Como o GPT-2 e outros programas baseados em Transformer, o GPT-3 é treinado no conjunto de dados do Common Crawl, um corpus de quase um trilhão de palavras de textos extraídos da web. "O conjunto de dados e o tamanho do modelo são cerca de duas ordens de magnitude maiores do que os usados para o GPT-2", escrevem os autores.

O GPT-3 com 175 mil milhões de parâmetros é capaz de alcançar o que os autores descrevem como "meta-aprendizagem". Meta-aprendizagem significa que a rede neural do GPT não é novamente treinada para realizar uma tarefa, como completar uma frase. Dado um exemplo de uma tarefa, como uma frase incompleta, e em seguida a frase completa, o GPT-3 irá completar qualquer frase incompleta que lhe seja fornecida.

O GPT-3 é capaz de aprender como fazer uma tarefa com uma única indicação, melhor, em alguns casos, do que versões do Transformer que foram ajustadas, por assim dizer, para executar especificamente apenas aquela tarefa. Portanto, o GPT-3 é o triunfo de uma generalidade abrangente. Basta alimentá-lo com uma enorme quantidade de texto até que seus pesos estejam ideais e ele poderá se sair muito bem em várias tarefas específicas sem nenhum desenvolvimento adicional.

Aqui é onde a história chega a um desfecho impressionante no novo artigo. Após listar os impressionantes resultados do GPT-3 em tarefas linguísticas que vão desde completar frases até inferir a implicação lógica de afirmações e traduzir entre idiomas, os autores observam as limitações.

"Apesar das melhorias quantitativas e qualitativas significativas do GPT-3, principalmente em comparação com seu antecessor direto GPT-2, ainda existem fraquezas notáveis."

Essas fraquezas incluem uma incapacidade de alcançar uma precisão significativa no que é chamado de Adversarial NLI. NLI, ou inferência de linguagem natural, é um teste onde o programa deve determinar a relação entre duas frases. Pesquisadores do Facebook e da Universidade da Carolina do Norte introduziram uma versão adversária, onde os humanos criam pares de frases que são difíceis para o computador resolver.

GPT-3 faz "pouco melhor que o acaso" em coisas como Adversarial NLI, escrevem os autores. Pior ainda, tendo aumentado a potência de processamento do seu sistema para 175 biliões de pesos, os autores não têm exatamente a certeza do motivo de terem ficado aquém em algumas tarefas.

É então que eles chegam à conclusão, citada acima, de que talvez simplesmente alimentar um enorme corpus de texto em uma máquina gigante não seja a resposta final.

Ainda mais surpreendente é a próxima observação. Toda a prática de tentar prever o que vai acontecer com a linguagem pode ser a abordagem errada, escrevem os autores. Eles podem estar mirando no lugar errado.

"Com objetivos de auto-supervisão, a especificação da tarefa depende de forçar a tarefa desejada em um problema de previsão", escrevem, "enquanto, no final, sistemas de linguagem úteis (por exemplo, assistentes virtuais) podem ser considerados como tomando ações direcionadas a metas ao invés de apenas fazer previsões."

Os autores deixam para outro momento especificar como enfrentarão essa direção potencialmente fascinante.

Apesar da compreensão de que maior pode não ser necessariamente melhor, os resultados aprimorados do GPT-3 em muitas tarefas provavelmente vão incentivar, e não diminuir, o desejo por redes neurais cada vez maiores. Com 175 bilhões de parâmetros, o GPT-3 é o rei das grandes redes neurais, por enquanto. Uma apresentação em abril da empresa de chips de IA Tenstorrent descreveu futuras redes neurais com mais de um trilhão de parâmetros.

Para uma boa parte da comunidade de aprendizado de máquina, modelos de linguagem cada vez maiores vão continuar sendo o estado da arte.

A gigantesca GPT-3 da OpenAI sugere os limites dos modelos de linguagem para a AI

Artigos Relacionados