Esta nova tecnologia pode superar o GPT-4 e tudo o que seja semelhante

Para todo o fervor em torno do programa de Inteligência Artificial de chatbot conhecido como ChatGPT, da OpenAI, e sua tecnologia sucessora, GPT-4, os programas são, no final do dia, apenas aplicações de software. E como todas as aplicações, eles têm limitações técnicas que podem tornar seu desempenho subótimo.

Num artigo publicado em março, cientistas de inteligência artificial (IA) da Universidade de Stanford e do instituto MILA para IA do Canadá propuseram uma tecnologia que pode ser muito mais eficiente do que o GPT-4 - ou algo parecido - para devorar grandes quantidades de dados e transformá-los em uma resposta.

Também: Estes ex-empregados da Apple querem substituir os smartphones por este dispositivo

Conhecida como Hiena, a tecnologia é capaz de alcançar uma precisão equivalente em testes de referência, como perguntas e respostas, enquanto utiliza apenas uma fração da potência de computação. Em alguns casos, o código da Hiena é capaz de lidar com quantidades de texto que fazem com que a tecnologia do tipo GPT simplesmente fique sem memória e falhe.

"Os nossos promissores resultados à escala de sub-bilionária de parâmetros sugerem que a atenção pode não ser tudo o que precisamos", afirmam os autores. Essa observação refere-se ao título de um relatório AI marcante de 2017, 'A atenção é tudo o que você precisa'. Nesse artigo, o cientista da Google Ashish Vaswani e colegas apresentaram ao mundo o programa de AI Transformer da Google. O Transformer tornou-se a base para cada um dos modelos de linguagem grandes recentes.

Mas o Transformer tem uma grande falha. Ele usa algo chamado "atenção", onde o programa de computador leva a informação de um grupo de símbolos, como palavras, e move essa informação para um novo grupo de símbolos, como a resposta que você vê do ChatGPT, que é a saída.

Também:O que é o GPT-4? Aqui está tudo o que precisas de saber

Essa operação de atenção - a ferramenta essencial de todos os grandes programas de linguagem, incluindo o ChatGPT e o GPT-4 - tem uma complexidade computacional "quadrática" (Wiki "complexidade de tempo" de computação). Essa complexidade significa que o tempo necessário para o ChatGPT produzir uma resposta aumenta ao quadrado da quantidade de dados que são fornecidos como entrada.

Num determinado momento, se houver muitos dados - palavras demais na sugestão ou falas em sequência ao longo de horas e horas de conversa com o programa - então, ou o programa fica sobrecarregado para fornecer uma resposta, ou deve-se fornecer cada vez mais chips de GPU para executar mais rápido, resultando em um aumento nos requisitos de computação.

Num novo artigo, 'Hierarquia de Hienas: Rumo a Modelos de Linguagem Convolucional Maiores', publicado no servidor de pré-publicação arXiv, o autor principal Michael Poli, de Stanford, e seus colegas propõem substituir a função de atenção do Transformer por algo subquadrático, chamado Hyena.

Também: O que é o Auto-GPT? Tudo o que precisa saber sobre a próxima poderosa ferramenta de IA

Os autores não explicam o nome, mas é possível imaginar várias razões para um programa "Hiena". Hienas são animais que vivem na África e podem caçar por muitas e muitas milhas. Em certo sentido, um modelo de linguagem muito poderoso poderia ser como uma hiena, caçando por muitas e muitas milhas para encontrar alimento.

Mas os autores estão realmente preocupados com a "hierarquia", como o título sugere, e as famílias de hienas têm uma hierarquia estrita, na qual os membros de um clã local de hienas têm diferentes níveis de posição que estabelecem a dominância. De alguma forma análoga, o programa Hyena aplica uma série de operações muito simples, como você verá, repetidamente, de forma que elas se combinem para formar uma espécie de hierarquia de processamento de dados. É esse elemento combinatório que dá ao programa o seu nome de Hyena.

Também:Ben Goertzel diz que futuras versões do ChatGPT poderiam substituir a maioria do trabalho que as pessoas fazem hoje

Os autores que contribuíram para o artigo incluem luminárias do mundo da IA, como Yoshua Bengio, diretor científico do MILA, que recebeu o Prêmio Turing de 2019, equivalente ao Prêmio Nobel da computação. Bengio é amplamente reconhecido por desenvolver o mecanismo de atenção muito antes de Vaswani e sua equipe adaptá-lo para o Transformer.

Também entre os autores está o professor associado de ciência da computação da Universidade de Stanford, Christopher Ré, que tem ajudado nos últimos anos a avançar na ideia de IA como "software 2.0".

Para encontrar uma alternativa sub-quadrática à atenção, Poli e sua equipe começaram a estudar como o mecanismo de atenção está fazendo o que faz, para ver se esse trabalho poderia ser feito de forma mais eficiente.

Uma prática recente na ciência da IA, conhecida como interpretabilidade mecanicista, está fornecendo insights sobre o que está acontecendo no interior de uma rede neural, nos "circuitos" computacionais de atenção. Você pode pensar nisso como desmontar um software da mesma forma que você desmontaria um relógio ou um PC para ver suas peças e descobrir como ele opera.

Também: Utilizei o ChatGPT para escrever a mesma rotina em 12 das principais linguagens de programação. Aqui está o resultado

Um trabalho citado por Poli e equipe é um conjunto de experimentos realizados pelo pesquisador Nelson Elhage da startup de IA, Anthropic. Esses experimentos desmontam os programas Transformer para entender o que a atenção está fazendo.

Em essência, o que Elhage e sua equipe descobriram é que a atenção funciona em seu nível mais básico através de operações de computador muito simples, como copiar uma palavra de entrada recente e colá-la na saída.

Por exemplo, se alguém começar a digitar em um programa de modelo de linguagem extenso como o ChatGPT uma frase de Harry Potter e a Pedra Filosofal, como "Sr. Dursley era o diretor de uma empresa chamada Grunnings...", apenas digitando "D-u-r-s", o início do nome, pode ser suficiente para que o programa complete o nome "Dursley" porque ele já viu o nome em uma frase anterior de Pedra Filosofal. O sistema é capaz de copiar da memória o registro dos caracteres "l-e-y" para autocompletar a frase.

Também:O ChatGPT é mais como uma 'inteligência alienígena' do que um cérebro humano, diz futurista

No entanto, a operação de atenção encontra o problema de complexidade quadrática à medida que a quantidade de palavras aumenta. Mais palavras exigem mais do que são conhecidos como "pesos" ou parâmetros, para executar a operação de atenção.

Conforme os autores escrevem: "O bloco Transformer é uma ferramenta poderosa para modelagem sequencial, mas não está isento de limitações. Uma das mais notáveis é o custo computacional, que cresce rapidamente à medida que o comprimento da sequência de entrada aumenta."

Embora os detalhes técnicos do ChatGPT e do GPT-4 ainda não tenham sido divulgados pela OpenAI, acredita-se que possam ter um trilhão ou mais desses parâmetros. A execução desses parâmetros requer mais chips GPU da Nvidia, o que aumenta o custo computacional.

Para reduzir esse custo computacional quadrático, Poli e sua equipe substituem a operação de atenção por algo chamado "convolução", que é uma das operações mais antigas em programas de IA, refinadas na década de 1980. Uma convolução é apenas um filtro que pode extrair elementos de um conjunto de dados, seja os pixels em uma foto digital ou as palavras em uma frase.

Também: O sucesso do ChatGPT pode levar a um perigoso movimento em direção ao segredo na IA, afirma o pioneiro da IA, Bengio.

Poli e sua equipe fazem uma espécie de mistura: eles pegam o trabalho feito pelo pesquisador da Universidade de Stanford, Daniel Y. Fu, e sua equipe para aplicar filtros convolucionais a sequências de palavras e combinam isso com o trabalho do estudioso David Romero e seus colegas na Universidade Livre de Amsterdã que permite ao programa alterar o tamanho do filtro instantaneamente. Essa habilidade de se adaptar flexivelmente reduz a quantidade de parâmetros custosos, ou pesos, que o programa precisa ter.

O resultado da mash-up é que uma convolução pode ser aplicada a uma quantidade ilimitada de texto sem necessidade de mais e mais parâmetros para copiar cada vez mais dados. É uma abordagem "livre de atenção", como os autores descrevem.

"Os operadores hiena são capazes de reduzir significativamente a diferença de qualidade com atenção em grande escala", escrevem Poli e equipe, "alcançando uma perplexidade e desempenho semelhantes com um orçamento computacional menor". Perplexidade é um termo técnico que se refere a quão sofisticada é a resposta gerada por um programa como o ChatGPT.

Para demonstrar a capacidade do Hyena, os autores testam o programa em uma série de benchmarks que determinam o quão bom um programa de linguagem é em uma variedade de tarefas de IA.

Também: 'Novas coisas estranhas estão acontecendo no software', diz o professor de IA da Stanford, Chris Ré

Um teste é O Pile, uma coleção de textos de 825 gigabytes compilada em 2020 pela Eleuther.ai, uma organização de pesquisa em IA sem fins lucrativos. Os textos são coletados de fontes "de alta qualidade", como PubMed, arXiv, GitHub, o Escritório de Patentes dos Estados Unidos e outros, para que as fontes tenham uma forma mais rigorosa do que apenas discussões no Reddit, por exemplo.

O desafio-chave para o programa era produzir a próxima palavra quando dado um monte de novas frases como entrada. O programa Hyena foi capaz de alcançar uma pontuação equivalente ao programa GPT original da OpenAI de 2018, com 20% menos operações de computação -- "a primeira arquitetura de convolução sem atenção a combinar qualidade GPT" com menos operações, escrevem os pesquisadores.

Em seguida, os autores testaram o programa em tarefas de raciocínio conhecidas como SuperGLUE, introduzidas em 2019 por estudiosos da Universidade de Nova Iorque, Facebook AI Research, unidade DeepMind do Google e Universidade de Washington.

Por exemplo, quando é dada a frase "O meu corpo lançou uma sombra sobre a relva", e duas alternativas para a causa, "o sol estava a nascer" ou "a relva foi cortada", e é pedido para escolher uma das opções, o programa deve gerar "o sol estava a nascer" como o resultado apropriado.

Em várias tarefas, o programa Hyena alcançou pontuações próximas ou iguais às de uma versão do GPT enquanto sendo treinado com menos da metade da quantidade de dados de treinamento.

Também: Como usar o novo Bing (e como ele é diferente do ChatGPT)

Mais interessante ainda é o que aconteceu quando os autores aumentaram o tamanho das frases utilizadas como entrada: mais palavras significaram uma melhor melhoria de desempenho. Em 2.048 "tokens", que podem ser considerados como palavras, a Hiena precisa de menos tempo para completar uma tarefa de linguagem do que a abordagem de atenção.

Aos 64.000 tokens, os autores afirmam: "Os speed-ups da Hiena atingem 100x" - um aumento de desempenho de cem vezes.

Poli e a equipa argumentam que não apenas tentaram uma abordagem diferente com a Hyena, eles "quebraram a barreira quadrática", causando uma mudança qualitativa em quão difícil é para um programa calcular resultados.

Indicam também que existem potenciais mudanças significativas na qualidade mais adiante no caminho: "Ultrapassar a barreira quadrática é um passo importante para novas possibilidades de aprendizagem profunda, como usar livros inteiros como contexto, gerar música de longa duração ou processar imagens em escala gigapixel", eles escrevem.

A capacidade do Hyena de usar um filtro que se estende de forma mais eficiente por milhares e milhares de palavras, escrevem os autores, significa que praticamente não pode haver limites para o "contexto" de uma consulta a um programa de linguagem. Pode, de fato, lembrar elementos de textos ou de conversas anteriores distantes do fio atual da conversa - assim como as hienas que caçam por milhas.

Também: Os melhores chatbots de IA: ChatGPT e outras alternativas divertidas para experimentar

"Os operadores Hiena têm um contexto ilimitado", escrevem eles. "Nomeadamente, não estão artificialmente restritos, por exemplo, pela localidade, e podem aprender dependências de longo alcance entre quaisquer elementos da [input]."

Além disso, além das palavras, o programa pode ser aplicado a dados de diferentes modalidades, como imagens e talvez vídeo e sons.

É importante notar que o programa Hyena mostrado no artigo é pequeno em tamanho se comparado ao GPT-4 ou até mesmo ao GPT-3. Enquanto o GPT-3 possui 175 bilhões de parâmetros, ou pesos, a maior versão do Hyena possui apenas 1.3 bilhões de parâmetros. Portanto, ainda resta ver como o Hyena se sairá em uma comparação direta com o GPT-3 ou 4.

Mas, se a eficiência alcançada se mantiver nas versões maiores do programa Hyena, poderá ser um novo paradigma tão prevalente quanto a atenção tem sido durante a última década.

Conforme concluem Poli e equipe: "Projetos simples e sub-quadráticos como Hyena, informados por um conjunto de princípios orientadores simples e avaliação em referências de interpretabilidade mecanística, podem formar a base para modelos grandes eficientes."

Esta nova tecnologia pode superar GPT-4 e tudo semelhante a ele

Artigos Relacionados