O que é o GPT-3? Tudo o que a sua empresa precisa saber sobre o revolucionário programa de linguagem de IA da OpenAI

O GPT-3 é um programa de computador desenvolvido pela startup de São Francisco, OpenAI, de capital privado. Trata-se de uma gigantesca rede neural, que faz parte do segmento de aprendizagem profunda de aprendizado de máquinas, por sua vez, um ramo da ciência da computação conhecido como inteligência artificial, ou IA. O programa é melhor do que qualquer outro anterior na produção de trechos de texto que se assemelham ao estilo de escrita humana.

A razão pela qual essa descoberta pode ser útil para as empresas é porque ela tem grande potencial para automatizar tarefas. O GPT-3 pode responder a qualquer texto que uma pessoa digitar no computador com um novo pedaço de texto apropriado ao contexto. Digite uma frase completa em inglês em uma caixa de busca, por exemplo, e é mais provável que você receba de volta uma resposta em frases completas que seja relevante. Isso significa que o GPT-3 pode, concebivelmente, amplificar o esforço humano em uma ampla variedade de situações, desde perguntas e respostas para atendimento ao cliente até busca de documentos de due diligence e geração de relatórios.

Observe o seguinte breve exemplo do que uma pessoa digita no computador e como GPT-3 envia uma resposta:

Entrada fornecida pelo usuário: P: Quem interpretou Tess em Touched by an Angel?

GPT-3-generated completion : A: Delloreese Patricia Early (6 de julho de 1931 a 19 de novembro de 2017), conhecida profissionalmente como Della Reese

O programa está atualmente em beta privado, para o qual as pessoas podem se inscrever em uma lista de espera. Está sendo oferecido pela OpenAI como uma API acessível através da nuvem, e as empresas que receberam acesso desenvolveram algumas aplicações intrigantes que utilizam a geração de texto para aprimorar todo tipo de programa, desde simples perguntas e respostas até a produção de código de programação.

Juntamente com o potencial de automação, surgem grandes desvantagens. O GPT-3 requer muitos recursos de computação, o que o torna inadequado para a maioria das empresas, em qualquer forma nas instalações. O texto gerado por ele pode ser impressionante à primeira vista, mas composições longas tendem a se tornar um tanto sem sentido. Além disso, ele tem um grande potencial para amplificar preconceitos, incluindo racismo e sexismo.

COMO FUNCIONA O GPT-3?

GPT-3 é um exemplo do que é conhecido como um modelo de linguagem, que é um tipo particular de programa estatístico. Neste caso, ele foi criado como uma rede neural.

O nome GPT-3 é um acrónimo que significa "generative pre-training" ("pré-treino generativo"), sendo esta a terceira versão até agora. É generativo porque, ao contrário de outras redes neurais que apresentam uma pontuação numérica ou uma resposta de sim ou não, o GPT-3 consegue gerar longas sequências de texto original como saída. É pré-treinado no sentido em que não foi construído com nenhum conhecimento específico de domínio, apesar de conseguir realizar tarefas específicas de um determinado domínio, como tradução em línguas estrangeiras.

Um modelo de linguagem, no caso do GPT-3, é um programa que calcula quão provável é a ocorrência de uma palavra em um texto dado as outras palavras no texto. Isso é o que é conhecido como a probabilidade condicional de palavras.

Por exemplo, na frase, Eu queria fazer uma omelete, então fui à geladeira e peguei alguns ____, o espaço em branco pode ser preenchido com qualquer palavra, até mesmo sem sentido, dada a infinita composição da linguagem. Mas a palavra "ovos" provavelmente tem uma boa chance de preencher esse espaço em branco na maioria dos textos normais, maior do que, digamos, "elefantes". Dizemos que a probabilidade de ovos, dado o texto fornecido, é maior do que a probabilidade de elefantes.

ilustração-do-transformador-do-google-2017.jpg

Ao desenvolver a rede neural, chamada de fase de treinamento, o GPT-3 é alimentado com milhões e milhões de exemplos de texto e converte palavras em vetores, representações numéricas. Isso é uma forma de compressão de dados. Em seguida, o programa tenta descomprimir esse texto comprimido em uma frase válida. A tarefa de comprimir e descomprimir desenvolve a precisão do programa em calcular a probabilidade condicional das palavras.

Uma vez que o modelo tenha sido treinado, ou seja, as suas cálculos de probabilidade condicional entre bilhões de palavras tenham sido feitos o mais precisos possível, então ele pode prever quais palavras virão a seguir quando for solicitado por uma pessoa digitando uma palavra ou palavras iniciais. Essa ação de previsão é conhecida em aprendizado de máquina como inferência.

Isso leva a um efeito espelho impressionante. Não apenas palavras prováveis surgem, mas também a textura e o ritmo de um gênero ou a forma de uma tarefa escrita, como conjuntos de perguntas e respostas, são reproduzidos. Portanto, por exemplo, o GPT-3 pode receber alguns nomes de poetas famosos e amostras de seus trabalhos, depois o nome de outro poeta e apenas o título de um poema imaginário, e o GPT-3 produzirá um novo poema de uma maneira consistente com o ritmo e a sintaxe do poeta cujo nome foi sugerido.

Considere a seguinte instância de GPT-3 criando um poema do zero, parecido com a obra de Wallace Stevens, depois de serem fornecidos títulos, nomes e exemplos de outros poetas e suas obras:

<pre>Human-supplied input: A Cidade  POR C. P. CAVAFY   TRADUZIDO POR EDMUND KEELEY [Poema omitido]</pre>

Entrada fornecida pelo ser humano: ALGUMAS ÁRVORES John Ashbery [texto do poema omitido]

Entrada fornecida pelo usuário: Sombras no Caminho Wallace Stevens

GPT-3-generated completion : -------- Poema Gerado 1 -------- Eu devo ter sombras no caminho  Se eu quiser caminhar Eu devo ter  Cada passo dado lentamente e sozinho  Para tê-lo pronto e feito    E eu devo pensar em tons de cinza  Para ter pensamentos obscuros como meu guia  Devo olhar o azul e o verde  E nunca deixar meu olho esquecer  Que a cor é minha amiga  E o roxo também deve me rodear  O amarelo do sol não é mais  Intrusivo do que a neve azulada  Que cai sobre todos nós. Eu devo ter  Pensamentos cinzentos e pensamentos azuis caminhando comigo  Se eu quiser ir embora afinal.

Gerar uma resposta significa que o GPT-3 pode ir além de simplesmente produzir textos. Ele pode se sair bem em todos os tipos de testes, incluindo testes de raciocínio que envolvem uma resposta em linguagem natural. Por exemplo, se o GPT-3 receber um ensaio sobre as taxas de aluguel de propriedades em Manhattan, e uma afirmação resumindo o texto, como "Manhattan é barato", e a pergunta "verdadeiro ou falso?", o GPT-3 irá responder a todo o prompt retornando a palavra "falso", pois a afirmação não concorda com o argumento do ensaio.

Human-supplied input : A tendência para rendas mais baixas pode parecer surpreendente, dado que algumas comunidades de Nova Iorque estão lamentando a perda de negócios locais favoritos para rendas elevadas. Mas, apesar da recente suavização, para muitos destes retalhistas ainda houve um aumento demasiado grande em relação às taxas de aluguer do final dos anos 70, quando os seus contratos de arrendamento foram assinados. Certamente, a recente queda nos preços não significa que Manhattan seja barato.

Input fornecido pelo usuário: pergunta: Manhattan é barato. verdadeiro, falso ou nenhum dos dois?

Entrada fornecida pelo humano: resposta:

Completamento gerado por GPT-3: falso

A capacidade do GPT-3 de responder de forma consistente com uma tarefa exemplo, incluindo formulários aos quais nunca foi exposto antes, faz dele o que é chamado de modelo de linguagem "few-shot". Em vez de ser extensivamente ajustado, ou "treinado", como é chamado, em uma determinada tarefa, o GPT-3 já possui tanta informação sobre as muitas maneiras como as palavras se combinam que ele pode receber apenas um punhado de exemplos de uma tarefa, o que é chamado de etapa de ajuste fino, e ganha a capacidade de também executar essa nova tarefa.

explicação-de-poucas-rodadas-do-openai-gpt-3.jpg

A capacidade de espelhar estilos de linguagem natural e de obter pontuações relativamente altas em testes baseados em linguagem pode dar a impressão de que o GPT-3 está se aproximando de uma espécie de facilidade semelhante à humana com a linguagem. Como veremos, isso não é o caso.

Mais detalhes técnicos podem ser encontrados no documento formal do GPT-3 divulgado pelos cientistas da OpenAI.

O QUE PODE GPT-3 FAZER?

OpenAI tornou-se agora tão famoso - ou infame - pelas práticas de lançamento do seu código como pelo próprio código. Quando a empresa revelou o GPT-2, o antecessor, no Dia dos Namorados de 2019, inicialmente não disponibilizou ao público a versão mais capaz, afirmando que era muito perigoso lançá-la ao público devido ao risco de produção em massa de textos falsos e enganosos. A OpenAI posteriormente disponibilizou o download.

Destá vez, a OpenAI não está disponibilizando nenhum download. Em vez disso, eles ativaram um ponto de extremidade de API baseado em nuvem, tornando o GPT-3 uma oferta como serviço. (Pense nisso como LMaaS, modelo de linguagem como serviço.) A justificativa da OpenAI é limitar o uso do GPT-3 por pessoas mal-intencionadas e também para obter lucro.

"Não há um 'botão desfazer' com open source", disse a OpenAI ao ZDNet, através de um porta-voz.

"Disponibilizar o GPT-3 através de uma API permite-nos controlar o seu uso de forma segura e restringir o acesso, se necessário."

Atualmente, o serviço da API do OpenAI está limitado a partes aprovadas; existe uma lista de espera à qual se pode juntar para obter acesso.

"Neste momento, a API está numa versão beta controlada com um número reduzido de programadores que submetem uma ideia para algo que gostariam de produzir utilizando a API," disse a OpenAI ao ZDNet.

Também: O gerador de texto de IA 'perigoso' da OpenAI está disponível: As pessoas acham as palavras 'convincentes'

Existem exemplos intrigantes do que pode ser feito a partir de empresas no programa beta. Sapling, uma empresa apoiada pelo fundo de investimento Y Combinator, oferece um programa que se integra ao software de CRM. Quando um representante do cliente está lidando com uma solicitação de ajuda recebida, por exemplo, via e-mail, o programa usa o GPT-3 para sugerir uma frase completa como resposta entre as respostas mais prováveis.

O criador de jogos Latitude está a utilizar o GPT-3 para melhorar o seu jogo de aventura baseado em texto, AI Dungeon. Normalmente, um jogo de aventura requer uma árvore de decisões complexa para escrever muitos caminhos possíveis através do jogo. Em vez disso, o GPT-3 pode gerar dinamicamente um estado de jogabilidade em constante mudança em resposta às ações digitadas pelos utilizadores.

Já hoje, a automatização de tarefas está a ir além da linguagem natural para a geração de código de computador. O código é uma linguagem, e o GPT-3 pode inferir a sintaxe mais provável dos operadores e operandos em diferentes linguagens de programação, e pode produzir sequências que podem ser compiladas e executadas com sucesso.

Um exemplo precoce iluminou o universo do Twitter, da startup de desenvolvimento de aplicativos Debuild. O chefe da empresa, Sharif Shameem, conseguiu construir um programa onde você digita a descrição da interface de um software em inglês simples e o GPT-3 responde com código de computador usando a extensão de sintaxe JSX para JavaScript. Esse código produz uma interface de usuário que corresponde ao que você descreveu.

Isto é incrível. Com o GPT-3, criei um gerador de layouts onde você só precisa descrever o layout que deseja e ele gera o código JSX para você. I-N-C-R-Í-V-E-L

— Sharif Shameem (@sharifshameem) 13 de julho de 2020

Shameem demonstrou que, ao descrever uma interface de usuário com vários botões, com uma única frase ele poderia descrever todo um programa, ainda que simples, como realizar cálculos aritméticos básicos e exibir o resultado, e o GPT-3 criaria todo o código necessário e exibiria o aplicativo em execução.

Acabei de criar um aplicativo React *funcional* descrevendo o que eu queria para o GPT-3. Ainda estou maravilhado. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 de julho de 2020

OpenAI recebeu "dezenas de milhares de solicitações de acesso à API até agora e está sendo criterioso quanto ao acesso, à medida que aprendemos o que esses modelos podem fazer no mundo real", disse a empresa à ZDNet. "Assim, a lista de espera pode ser longa."

O preço para um eventual serviço comercial ainda está por determinar. Quando questionado sobre quando o programa sairá do período de testes beta, a OpenAI disse à ZDNet: "não será em breve."

"Lançar um modelo tão poderoso significa que precisamos avançar devagar e ponderar sobre o seu impacto em negócios, indústrias e pessoas", disse a empresa. "O formato de uma API nos permite estudar e moderar seu uso de maneira adequada, mas não estamos com pressa de deixá-la amplamente disponível, dada suas limitações."

Se você está impaciente com a lista de espera beta, pode, enquanto isso, baixar a versão anterior, GPT-2, que pode ser executada em um laptop usando uma instalação Docker. O código fonte está disponível no mesmo repositório do Github, no formato Python para o framework TensorFlow. Claro que você não obterá os mesmos resultados do GPT-3, mas é uma maneira de começar a se familiarizar.

Lembre-se também que novos modelos de linguagem com capacidades semelhantes aparecem o tempo todo e alguns deles podem ser suficientes para os seus propósitos. Por exemplo, o Google lançou recentemente uma versão do seu modelo de linguagem BERT, chamada LaBSE, que demonstra uma melhoria significativa na tradução de linguagem. Está disponível para download no TensorFlow Hub.

Também: O gigantesco GPT-3 da OpenAI aponta para os limites dos modelos de linguagem para a IA

QUAL É A HISTÓRIA DO GPT-3?

GPT-3, revelado em maio, é a terceira versão de um programa primeiro introduzido em 2018 pela OpenAI e seguido no ano passado pelo GPT-2. Os três programas são um exemplo de inovação rápida no campo dos modelos de linguagem, graças a dois grandes avanços, ambos ocorridos em 2015.

O primeiro avanço foi o uso do que é conhecido como atenção. O cientista de IA Yoshua Bengio e seus colegas do instituto de IA Mila em Montreal observaram que os modelos de linguagem quando comprimiam uma frase em inglês e depois a descomprimiam, todos usavam um vetor de comprimento fixo. Cada frase era encaixada em um vetor do mesmo tamanho, não importando o quão longa fosse a frase.

Bengio e a sua equipa concluíram que esta abordagem rígida era um obstáculo. Um modelo de linguagem deve ser capaz de pesquisar por muitos vetores de diferentes comprimentos para encontrar as palavras que otimizam a probabilidade condicional. E assim eles conceberam uma forma de permitir que a rede neural comprima flexivelmente as palavras em vetores de tamanhos diferentes, bem como permitir ao programa pesquisar flexivelmente esses vetores em busca do contexto relevante. Chamaram a isso atenção.

A atenção tornou-se um elemento crucial nos modelos de linguagem. Foi utilizada pelos cientistas da Google dois anos depois para criar um programa de modelo de linguagem chamado Transformer. O Transformer alcançou pontuações incríveis em testes de manipulação de linguagem. Tornou-se o modelo de linguagem de facto e foi utilizado pela Google para criar o que é conhecido como BERT, outro modelo de linguagem muito bem-sucedido. O Transformer também serviu de base para o GPT-1.

Libertado da necessidade de manipular rigidamente um vetor de tamanho fixo, o Transformer e seus descendentes podem percorrer diferentes partes de um texto fornecido e encontrar dependências condicionais que abrangeriam um contexto muito maior.

Essa liberdade preparou o terreno para outra inovação que surgiu em 2015 e que foi ainda mais central para o trabalho da OpenAI, conhecida como aprendizado não supervisionado.

O foco até então para a maioria dos modelos de linguagem tinha sido o aprendizado supervisionado com o que é conhecido como dados rotulados. Dado uma entrada, uma rede neural também recebe uma saída de exemplo como a versão objetiva da resposta. Assim, se a tarefa é tradução, uma frase em inglês pode ser a entrada, e uma tradução em francês criada por um humano seria fornecida como o objetivo desejado, e o par de frases constitui um exemplo rotulado.

A tentativa da rede neural de gerar uma tradução em francês seria comparada à frase oficial em francês, e a diferença entre as duas é a quantidade de erro da rede neural ao fazer suas previsões, o que é conhecido como função de perda ou função objetivo.

A fase de treino tem como objetivo reduzir essa diferença de erro entre a saída sugerida pela rede neural e a saída desejada. Quando a diferença é a menor possível, a função objetivo foi otimizada e a rede neural do modelo de linguagem é considerada treinada.

Mas ter a saída desejada cuidadosamente rotulada pode ser um problema porque requer muita curadoria de dados, como a montagem de pares de frases de exemplo por meio de julgamento humano, o que é demorado e requer muitos recursos. Andrew Dai e Quoc Le, do Google, levantaram a hipótese de que seria possível reduzir a quantidade de dados rotulados necessários se o modelo de linguagem fosse primeiro treinado de forma não supervisionada.

Em vez de ser-lhe dado um par de frases, à rede foi dado apenas frases individuais e teve que comprimir cada uma para um vetor e descomprimir cada uma de volta para a frase original. A função de perda passou a ser a espelho (mirroring) para otimizar. Eles descobriram que quanto mais exemplos não rotulados eram comprimidos e descomprimidos dessa forma, mais eles poderiam substituir muitos dados rotulados em tarefas como tradução.

Em 2018, a equipa OpenAI combinou esses dois elementos: o mecanismo de atenção desenvolvido por Bengio e colegas, que percorreria vários vetores de palavras, e a abordagem de pré-treinamento não supervisionado de Dai e Le, que consumiria grandes quantidades de texto, o comprimiria e descomprimiria para reproduzir o texto original.

Usaram um Transformer padrão e alimentaram-no com o conteúdo do BookCorpus, uma base de dados compilada pela Universidade de Toronto e MIT, composta por mais de 7.000 textos de livros publicados, totalizando quase um milhão de palavras, um total de 5GB. O GPT-1 foi treinado para comprimir e descomprimir esses livros.

Assim começou uma história de três anos de conjuntos de dados cada vez maiores. Os pesquisadores da OpenAI, hipotetizando que mais dados tornam o modelo mais preciso, ampliaram os limites do que o programa poderia absorver. Com o GPT-2, eles deixaram de lado o BookCorpus em favor de um conjunto de dados desenvolvido internamente, consistindo de oito milhões de páginas da web extraídas de links externos do Reddit, totalizando 40GB de dados.

O treinamento do GPT-3 continua sendo enorme, consistindo no popular conjunto de dados CommonCrawl de páginas da web de 2016 a 2019. São nominalmente 45TB de dados de texto comprimido, embora a OpenAI o tenha selecionado para remover duplicatas e melhorar a qualidade. A versão final possui 570GB de dados. A OpenAI complementou-o com vários conjuntos de dados adicionais de diversos tipos, incluindo dados de livros.

COMO DEPENDE O GPT-3 DO PODER DE COMPUTAÇÃO?

Com a chegada do GPT-1, 2 e 3, a escala de computação tornou-se um ingrediente essencial para o progresso. Os modelos usam cada vez mais poder de computação quando estão sendo treinados para obter melhores resultados.

O que otimiza uma rede neural durante o treinamento é o ajuste de seus pesos. Os pesos, que também são chamados de parâmetros, são matrizes, arrays de linhas e colunas pelos quais cada vetor é multiplicado. Através da multiplicação, os muitos vetores de palavras, ou fragmentos de palavras, recebem maior ou menor peso na saída final à medida que a rede neural é ajustada para reduzir a margem de erro.

OpenAI descobriu que, para obter bons resultados em seus conjuntos de dados cada vez maiores, eles tiveram que adicionar cada vez mais pesos.

O Transformer original do Google tinha 110 milhões de parâmetros. GPT-1 seguiu esse design. Com GPT-2, o número foi aumentado para 1,5 bilhão de parâmetros. Com GPT-3, o número de parâmetros aumentou para 175 bilhões, tornando GPT-3 a maior rede neural que o mundo já viu.

Multiplicação é algo simples, mas quando 175 bilhões de pesos têm que ser multiplicados por cada bit de dados de entrada, através de bilhões de bytes de dados, isso se torna um exercício incrível em processamento paralelo de computadores.

aberto-computacao-utilizada-no-treinamento-gpt-3-em-relacao-aos-outros.jpg

Já com o GPT-1, em 2018, a OpenAI estava a ultrapassar os limites da computação prática. Aumentar a quantidade de dados significava aumentar a quantidade de GPUs. Os modelos de linguagem anteriores cabiam em uma única GPU porque os próprios modelos eram pequenos. O GPT-1 levou um mês para treinar em oito GPUs a operar em paralelo.

Com o GPT-3, a OpenAI tem sido um pouco cautelosa. Ela não descreveu a configuração exata do computador utilizada para o treinamento, além de dizer que foi em um cluster de chips Nvidia V100 executando na Microsoft Azure. A empresa descreveu o total de ciclos de computação necessários, afirmando que é equivalente a executar um trilhão de operações de ponto flutuante por segundo por dia durante 3.640 dias.

O fabricante de computadores e operador de nuvem Lambda Computing estimou que levaria uma única GPU 355 anos para executar esse cálculo, o que, a um preço padrão de instância de GPU na nuvem, custaria US$ 4,6 milhões. E há também a memória. Para armazenar todos os valores de peso é necessário cada vez mais memória à medida que os parâmetros aumentam em número. Os 175 bilhões de parâmetros do GPT-3 requerem 700GB, 10 vezes mais do que a memória de uma única GPU.

É esse tipo de demanda enorme de energia que impulsiona o campo dos chips de computador. Isso aumentou o preço das ações da Nvidia, o principal fornecedor de GPUs para treinamento de IA, em quase 5.000% nos últimos dez anos. Isso deu origem a uma série de startups apoiadas por centenas de milhões de dólares em financiamento de capital de risco, incluindo Cerebras Systems, Graphcore e Tachyum. A competição continuará a florescer desde que construir modelos cada vez maiores continue sendo a trajetória do campo.

OpenAI produziu a sua própria pesquisa sobre a crescente necessidade de potência computacional. A empresa observou, em 2018, que os ciclos de computação consumidos pelos maiores modelos de treinamento de IA dobraram a cada 3,4 meses desde 2012, uma taxa de expansão mais rápida do que no caso da famosa Lei de Moore para o crescimento dos transistores de chip. (Vale ressaltar que a empresa também produziu pesquisas mostrando que, em termos de unidade, os modelos cada vez maiores acabam sendo mais eficientes do que as redes neurais anteriores que realizavam o mesmo trabalho.)

Já existem modelos em desenvolvimento que usam mais de um trilhão de parâmetros, de acordo com empresas informadas sobre projetos de IA altamente secretos. Provavelmente, isso não é o limite, desde que empresas de hiperescala como o Google estejam dispostas a dedicar seus vastos centros de dados a modelos cada vez maiores. A maioria dos estudiosos de IA concorda que modelos cada vez maiores serão a norma para o aprendizado de máquina por um bom tempo.

"Em termos de impacto na área de IA, a parte mais emocionante sobre o GPT-3 é que mostra que ainda não chegamos perto dos limites de escalabilidade da AI", disse Kenny Daniel, CTO do fornecedor de ferramentas de gerenciamento de IA, Algorithmia, ao ZDNet.

Além de aumentar o uso do computador, o outro grande impacto do GPT-3 será, sem dúvida, na forma como acelera a programação e o desenvolvimento de aplicações em geral. A demonstração de Shameem de um programa JSX construído simplesmente digitando uma frase é apenas a ponta do iceberg.

QUAIS SÃO AS LIMITAÇÕES DO GPT-3?

Apesar de grandes melhorias em relação à versão anterior, o GPT-3 ainda tem algumas limitações, como apontam os próprios autores. "Embora, em geral, a qualidade seja alta, as amostras do GPT-3 ainda às vezes se repetem semanticamente a nível de documento e começam a perder coerência em passagens suficientemente longas", observam no artigo publicado.

O programa também não consegue ter um bom desempenho em uma série de testes individuais. "Mais especificamente, o GPT-3 tem dificuldade em lidar com perguntas do tipo 'Se eu colocar queijo na geladeira, ele derreterá?' escrevem os autores, descrevendo o tipo de coisas do senso comum que escapam ao GPT-3.

Houve tanta excitação logo após o lançamento do GPT-3 que o CEO da empresa, Sam Altman, publicamente pediu às pessoas para conterem o seu entusiasmo.

"O hype em torno do GPT-3 é demais", twittou Altman em 19 de julho. "É impressionante (obrigado pelos elogios!), mas ainda tem sérias fraquezas e às vezes comete erros muito bobos", escreveu ele. "A inteligência artificial vai mudar o mundo, mas o GPT-3 é apenas uma visão muito inicial. Ainda temos muito a descobrir."

O hype do GPT-3 é demasiado. É impressionante (obrigado pelos belos elogios!), mas ainda tem sérias fraquezas e às vezes comete erros muito tolos. A IA vai mudar o mundo, mas o GPT-3 é apenas um vislumbre muito inicial. Ainda temos muito para descobrir.

— Sam Altman (@sama) 19 de julho de 2020

Outros fora da OpenAI deram sua própria avaliação da realidade. Um usuário experiente de várias gerações do GPT, Max Woolf, escreveu em seu blog pessoal que o GPT-3 é melhor do que o que veio antes, mas apenas em média. Há um espectro de qualidade no texto gerado, então alguns exemplos que você encontrará parecem notáveis, enquanto outros não são muito bons. Woolf compara o GPT-3 ao Siri da Apple, que tem o hábito perturbador de produzir lixo em muitas ocasiões. (O ensaio de Woolf vale a pena ler na íntegra para uma análise ponderada do GPT-3.)

De facto, à medida que se lê cada vez mais exemplos de GPT-3, especialmente longos trechos de texto, alguma entusiasmo inicial está destinado a desvanecer. GPT-3 em trechos longos tende a perder o fio à meada, como dizem. Independentemente do género ou tarefa, a sua produção textual começa a tornar-se excessivamente longa e maçadora, com inconsistências internas na narrativa a aparecerem.

Alguns programadores, apesar do seu entusiasmo, catalogaram as numerosas falhas, coisas como as tentativas falhadas do GPT-3 de fazer piadas de pai. Dado o setup da piada de pai como entrada, "O que é que um prato disse para o outro?", a resposta apropriada da piada de pai é "O jantar está por minha conta!". Mas o GPT-3 poderia responder, em vez disso, com algo não engraçado como "Mergulha-me!"

Entrada fornecida pelo humano: Q. O que um prato disse ao outro prato?

GPT-3-generated completion : A. Mergulha em mim!

Embora o GPT-3 possa responder a supostas questões de senso comum, como quantos olhos uma girafa tem, ele não consegue desviar uma pergunta sem sentido e acaba oferecendo uma resposta sem sentido. Perguntado, "Quantos olhos meu pé tem?", ele responderá diligentemente, "Meu pé tem dois olhos."

Uma maneira de pensar sobre toda essa mediocridade é que obter resultados satisfatórios do GPT-3 requer, até certo ponto, um investimento na criação de prompts eficazes. Alguns prompts criados por humanos irão incentivar o programa a obter melhores resultados do que outros prompts. É uma nova versão do provérbio "lixo entra, lixo sai". Os prompts parecem estar se tornando um novo domínio de programação por si mesmos, exigindo sagacidade e habilidade artística.

Não só com o GPT-3, mas com todos os programas que dependem de distribuição condicional, o viés é uma grande consideração. A abordagem subjacente do programa é devolver exatamente o que é inserido, como um espelho. Isso tem o potencial de replicar os vieses nos dados. Já houve uma discussão acadêmica sobre o extenso viés no GPT-2.

Com o GPT-3, a cientista de IA da Nvidia, Anima Anandkumar, soou o alarme de que a tendência de produzir resultados enviesados, incluindo resultados racistas e sexistas, continua.

Fico perturbado ao ver isso divulgado sem responsabilização por parcialidade. Treinado com base no corpus do @reddit com enorme #racismo e #sexismo. Já trabalhei com esses modelos e o texto que eles produzem é chocantemente parcial. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 de junho de 2020

Questionado sobre a crítica de Anandkumar, a OpenAI disse ao ZDNet: "Como acontece com todos os modelos generativos cada vez mais poderosos, a justiça e o uso indevido são preocupações nossas."

"Esta é uma das razões pelas quais estamos compartilhando essa tecnologia através de API e lançando em versão beta privada no início", afirmou a OpenAI ao ZDNet. A empresa observa que "não apoiará casos de uso que considerarmos causar danos físicos ou mentais às pessoas, incluindo, mas não se limitando a assédio, engano intencional, radicalização, disseminação de informações falsas ou spam".

OpenAI disse à ZDNet que está usando uma espécie familiar de testes com chapéu branco, chapéu preto para detectar perigos no programa:

Implantámos o que chamamos de 'equipa vermelha', cuja função é constantemente testar e quebrar o sistema de filtragem de conteúdo para podermos aprender mais sobre como e por que o modelo retorna resultados inadequados. A sua contraparte é a "equipa azul", cuja função é medir e reduzir os preconceitos.

Outra grande questão é a natureza muito abrangente e de menor comum denominador do GPT-3, o fato de que ele reforça apenas a parte mais gorda de uma curva de probabilidade condicional. Existe o que é conhecido como a cauda longa, e às vezes uma cauda gorda, de uma distribuição de probabilidade. Essas são instâncias menos comuns que podem constituir os exemplos mais inovadores de uso da linguagem. Focar em espelhar o texto mais prevalente em uma sociedade corre o risco de sufocar a criatividade e a exploração.

Neste momento, a resposta da OpenAI para esse problema é uma configuração que se pode ajustar no GPT-3 chamada de valor de temperatura. Ao mexer neste parâmetro, irá ajustar o GPT-3 para escolher combinações de palavras menos prováveis e, assim, produzir um texto talvez mais incomum.

Uma preocupação mais urgente para um negócio é que não é possível ajustar o GPT-3 com dados específicos da empresa. Sem poder ajustar nada, é difícil especializar o GPT-3 para um domínio industrial, por exemplo. Pode ser que qualquer empresa que use o serviço da API acabe com um texto que precisa ser ainda mais trabalhado para torná-lo aplicável a um domínio. Talvez startups como a Sapling venham a formar um ecossistema, equivalente a VARS, que resolverão esse problema. Talvez, mas ainda resta ver.

Se isso não fosse preocupante o suficiente, há outro problema que é que, como um serviço em nuvem, o GPT-3 é uma caixa preta. O que isso significa é que as empresas que utilizam o serviço não têm ideia de como ele chega à sua saída - uma perspectiva especialmente perigosa quando se consideram questões de viés. Um ecossistema de partes, como a Sapling, que aprimora o GPT-3, pode adicionar camadas adicionais de obscuridade ao mesmo tempo em que aprimora o serviço.

Como subseção da questão da caixa-preta, o GPT-3 pode, em alguns casos, simplesmente memorizar o que absorveu da web. Isso levanta questões de direitos autorais. Se uma empresa utilizar a saída do serviço de API que contém material protegido por direitos autorais, essa empresa pode estar infringindo os direitos autorais de outra entidade. Ao ser questionado sobre direitos autorais, a OpenAI informou ao ZDNet que os direitos autorais do texto gerado pelo GPT-3 "pertencem ao usuário, não à OpenAI". O que isso significa na prática ainda está por ser visto.

Neste momento, a maior limitação prática é a escala necessária para treinar e executar o GPT-3. A OpenAI reconhece esse aspecto no artigo formal. Os autores escrevem que é necessário fazer um trabalho para calcular como o custo de modelos grandes é amortizado ao longo do tempo com base no valor da produção de resultados.

Também: Não, este IA não consegue completar a sua frase

O GPT-3 ESTÁ REALMENTE APRENDENDO?

Usando o significado restrito da palavra, o GPT-3 está aprendendo no sentido de que seus pesos de parâmetros estão sendo ajustados automaticamente através da ingestão dos dados de treinamento, de modo que o modelo de linguagem acabe sendo melhor do que apenas a programação explícita permitiria. Nesse sentido, o GPT-3 representa um avanço na busca de décadas por um computador capaz de aprender uma função para transformar dados sem que um humano codifique explicitamente essa função.

Nisso dito, alguém vai questionar se a máquina é verdadeiramente inteligente ou está verdadeiramente aprendendo. Existem muitas maneiras de debater essa questão, mas a reflexão casual sugere que grande parte do que poderíamos chamar de pensamento humano não ocorre aqui.

Imagine se você pudesse ter em seu cérebro uma pontuação numérica para quantas palavras são propensas a aparecer juntas. Você diria que sua habilidade de formar frases, sentenças, parágrafos e textos inteiros era feita de forma cuidadosa? Provavelmente você diria que é apenas estatística, e que algo mais estava faltando.

Foram feitas comparações entre a aprendizagem profunda e o famoso Clever Hans, um cavalo alemão cujo dono o exibia em público como um animal capaz de fazer cálculos matemáticos com suas patas. Mais tarde descobriu-se que Hans respondia a sinais corporais do dono para bater o casco, e que sem esses sinais ele era incapaz de realizar as tarefas.

Da mesma forma, a qualidade humana do GPT-3 se desvanece quando examinada de perto. Quando o GPT-3 responde corretamente a uma pergunta verdadeira-falsa sobre um ensaio sobre o mercado imobiliário de Nova York, não é porque o programa tem conhecimento sobre imóveis ou Nova York. Ele armazenou a distribuição de probabilidade que captura afirmações em textos e o formato de um par de pergunta-afirmação, e pode espelhá-los na saída.

Hans não sabia nada de aritmética, embora, em defesa de Hans, ele tivesse inteligência mesmo assim. No caso das redes neurais, os críticos dirão que só os truques estão lá, sem qualquer bom senso.

Ainda assim, inteligência e aprendizagem podem significar muitas coisas, e ao longo dos anos os critérios têm sido alterados quanto ao que se supõe ser inteligência artificial, como destacou Pamela McCorduck, uma historiadora desta área. Pode-se argumentar que um programa capaz de calcular probabilidades em grandes conjuntos de texto pode ser uma forma diferente de inteligência, talvez uma inteligência alienígena que não é própria nossa. Descartá-la parece ser prematuro.

Além disso, as redes neurais que resultam nessas probabilidades condicionais são mais do que meros programas estatísticos. Seus cálculos são a propriedade emergente de múltiplas operações matemáticas simultâneas que ocorrem em paralelo, a afinação dos pesos dos parâmetros. Se for possível considerar outras formas de inteligência, então uma propriedade emergente, como as representações distribuídas que se formam dentro das redes neurais, pode ser um lugar para procurar por ela.

QUAL É O FUTURO DO GPT-3?

Uma coisa parece certa: o GPT-3 abriu um novo capítulo na aprendizagem de máquina. Sua característica mais marcante é a sua generalidade. Apenas alguns anos atrás, as redes neurais eram construídas com funções ajustadas para uma tarefa específica, como tradução ou resposta a perguntas. Os conjuntos de dados eram selecionados para refletir essa tarefa. Em vez disso, o GPT-3 não possui funções específicas para tarefas e não precisa de um conjunto de dados especial. Ele simplesmente absorve o máximo de texto possível de qualquer lugar e o reflete em sua saída.

De alguma forma, no cálculo da distribuição de probabilidade condicional em todos esses gigabytes de texto, surge uma função que pode produzir respostas competitivas em várias tarefas. É um triunfo impressionante de simplicidade que provavelmente terá muitos anos de conquistas pela frente.

Mesmo essa generalidade, no entanto, pode atingir seu limite. Já os autores do GPT-3 observam no final de seu artigo que a direção pré-treinada pode eventualmente ficar limitada. "Uma limitação mais fundamental da abordagem geral descrita neste artigo [...] é que ela pode eventualmente esbarrar (ou já estaria esbarrando) nos limites do objetivo de pré-treinamento".

Os autores sugerem que novas direções promissoras podem incluir "aprender a função objetivo a partir de humanos" e misturar outros tipos de aprendizado profundo, como a abordagem de "aprendizado por reforço" usada no AlphaZero da DeepMind para vencer xadrez e go. (Eles já começaram a implementar tais abordagens. No início de setembro, os autores da OpenAI mostraram que poderiam usar aprendizado por reforço para treinar o GPT-3 a produzir resumos melhores de artigos, dando feedback humano ao modelo de linguagem sobre quais resumos soam melhor.)

Outra coisa que sugerem é adicionar outros tipos de dados, como imagens, para preencher o "modelo do mundo" do programa.

De fato, nos próximos anos é provável que esta abordagem geral se expanda para outras modalidades além do texto, como imagens e vídeos. Imagine um programa como o GPT-3 que possa traduzir imagens para palavras e vice-versa sem nenhum algoritmo específico para modelar a relação entre os dois. Ele poderia, por exemplo, "aprender" descrições textuais de cenas a partir de fotos ou prever sequências físicas de eventos a partir de descrições em texto.

Diretor de IA do Facebook, Yann LeCun defende que o treinamento não supervisionado em várias formas é o futuro do aprendizado profundo. Se isso for verdade, a abordagem de pré-treinamento aplicada a múltiplas modalidades de dados, desde voz até texto, imagens e vídeos, pode ser considerada como uma direção futura muito promissora da onda não supervisionada.

O que é GPT-3? Tudo o que a sua empresa precisa saber sobre o revolucionário programa de linguagem de inteligência artificial da OpenAI