![captura-de-ecra-2023-03-14-às-1-13-41-da-tarde.jpg](https://static-lib.s3.amazonaws.com/cms/screenshot_2023_03_14_at_1_13_41_pm_da5958b43b.jpg)
As avançadas habilidades do ChatGPT, como depurar código, escrever um ensaio ou contar uma piada, têm levado à sua enorme popularidade. Apesar de suas habilidades, sua assistência tem sido limitada ao texto -- mas isso vai mudar.
Na terça-feira, a OpenAI revelou o GPT-4, um modelo multimodal grande que aceita tanto texto como imagens como entrada e produz texto como saída.
Também: Como fazer o ChatGPT fornecer fontes e citações
A distinção entre o GPT-3.5 e o GPT-4 será "subtil" numa conversa casual. No entanto, o novo modelo será muito mais capaz em termos de fiabilidade, criatividade e até inteligência.
De acordo com a OpenAI, o GPT-4 obteve pontuação nos 10% superiores de um exame de barra simulado, enquanto o GPT-3.5 obteve pontuação nos 10% inferiores. O GPT-4 também teve melhor desempenho que o GPT-3.5 em uma série de testes de referência, conforme mostrado no gráfico abaixo.
![captura-de-ecra-2023-03-14-as-1-40-32-pm.jpg](https://static-lib.s3.amazonaws.com/cms/screenshot_2023_03_14_at_1_40_32_pm_c7577ae6e4.jpg)
Para contexto, ChatGPT funciona com um modelo de linguagem ajustado a partir de um modelo da série 3.5, o que limita o chatbot a produzir apenas texto.
O anúncio do GPT-4 da OpenAI seguiu-se a um discurso de Andreas Braun, CTO da Microsoft Alemanha, na semana passada, em que ele disse que o GPT-4 estaria chegando em breve e permitiria a possibilidade de geração de texto para vídeo.
Também: Como funciona o ChatGPT?
"Vamos apresentar o GPT-4 na próxima semana; lá teremos modelos multimodais que oferecerão possibilidades completamente diferentes -- por exemplo, videos," disse Braun de acordo com Heise, um portal de notícias alemão no evento.
Apesar de o GPT-4 ser multimodal, as afirmações de um gerador de texto para vídeo estavam um pouco erradas. O modelo ainda não consegue produzir vídeos, mas pode aceitar entradas visuais, o que representa uma mudança significativa em relação ao modelo anterior.
Um dos exemplos que a OpenAI forneceu para mostrar esse recurso mostra o ChatGPT escaneando uma imagem na tentativa de descobrir o que havia de engraçado na foto, de acordo com a entrada do usuário.
![captura-de-ecra-2023-03-14-as-1-36-02-da-tarde.jpg](https://static-lib.s3.amazonaws.com/cms/screenshot_2023_03_14_at_1_36_02_pm_af3a113b01.jpg)
Outros exemplos incluíam a upload de uma imagem de um gráfico e pedir ao GPT-4 para fazer cálculos a partir dela ou fazer upload de uma folha de exercícios e pedir para resolver as questões.
Também: 5 maneiras como o ChatGPT pode ajudá-lo a escrever um ensaio
A OpenAI diz que irá disponibilizar a capacidade de entrada de texto do GPT-4 através do ChatGPT e sua API por meio de uma lista de espera. Você terá que esperar um pouco mais pela funcionalidade de entrada de imagem, pois a OpenAI está colaborando com um parceiro único para iniciar isso.
Se está desapontado por não ter um gerador de texto para vídeo, não se preocupe, não é um conceito completamente novo. Gigantes da tecnologia como a Meta e o Google já têm modelos em desenvolvimento. A Meta tem o Make-A-Video e o Google tem o Imagen Video, ambos utilizam inteligência artificial para produzir vídeos a partir da entrada do utilizador.