OpenAI GPT-4 a Chegar a Meados de Março de 2023

O CTO da Microsoft Alemanha, Andreas Braun, confirmou que o GPT-4 será lançado na semana de 9 de março de 2023 e será multimodal. AI multimodal significa que ele será capaz de operar com vários tipos de entrada, como vídeo, imagens e som.

Atualização: GPT-4 lançado em 14 de março de 2023

A OpenAI lançou o GPT-4 a 14 de março de 2023. É um modelo multimodal que aceita imagens e texto como instruções.

Modal é uma frase usada em aprendizado de máquina para denotar formas de entrada como texto, mas também sentidos como som, visual, cheiro, etc.

O anúncio da OpenAI descreveu a magnitude dos avanços do GPT-4:

“...embora menos capaz do que os humanos em muitos cenários do mundo real, apresenta desempenho ao nível humano em vários benchmarks profissionais e académicos.

Por exemplo, passa um exame de barra simulado com uma pontuação próxima dos 10% melhores classificados; por contraste, a pontuação do GPT-3.5 estava próxima dos 10% inferiores.

Passámos 6 meses alinhando iterativamente o GPT-4 usando lições do nosso programa de testes adversariais, bem como do ChatGPT, resultando nos nossos melhores resultados de sempre (embora longe de serem perfeitos) em termos de facticidade, controlabilidade e recusa em ultrapassar os limites estabelecidos”.

Modelos Linguísticos Multimodais em Grande Escala

A grande novidade do anúncio é que o GPT-4 é multimodal (o SEJ previu que o GPT-4 é multimodal em janeiro de 2023).

A modalidade é uma referência ao tipo de entrada com o qual um grande modelo de linguagem lida (neste caso).

Multimodal pode englobar texto, fala, imagens e vídeo.

O GPT-3 e o GPT-3.5 só operavam numa modalidade, texto.

De acordo com o relatório de notícias alemão, o GPT-4 poderá operar em pelo menos quatro modalidades: imagens, som (auditivo), texto e vídeo.

O Dr. Andreas Braun, CTO da Microsoft Alemanha, é citado:

"Vamos apresentar o GPT-4 na próxima semana, lá teremos modelos multimodais que oferecerão possibilidades completamente diferentes - por exemplo vídeos..."

Ao relatório faltavam especificidades para o GPT-4, por isso não está claro se o que foi compartilhado sobre multimodalidade era específico para o GPT-4 ou apenas de forma geral.

O Diretor de Estratégia de Negócios da Microsoft, Holger Kenn, explicou as multimodalidades, mas o relatório não deixou claro se ele estava se referindo à multimodalidade do GPT-4 ou à multimodalidade em geral.

Acredito que as referências a multimodalidade são específicas para o GPT-4.

A notícia divulgada:

“Kenn explicou do que se trata a IA multimodal, que pode traduzir texto não apenas em imagens, mas também em música e vídeo.”

Outro facto interessante é que a Microsoft está a trabalhar em "métricas de confiança" para fundamentar a sua IA com factos, tornando-a mais fiável.

Microsoft Kosmos-1

Algo que aparentemente não foi muito divulgado nos Estados Unidos é que a Microsoft lançou um modelo de linguagem multimodal chamado Kosmos-1 no início de março de 2023.

De acordo com a reportagem do site de notícias alemão, Heise.de:

“...a equipa submeteu o modelo pré-treinado a vários testes, com bons resultados na classificação de imagens, resposta a perguntas sobre o conteúdo da imagem, etiquetagem automatizada de imagens, reconhecimento ótico de texto e tarefas de geração de fala.

...Raciocínio visual, ou seja, tirar conclusões sobre imagens sem utilizar a linguagem como um passo intermediário, parece ser chave neste caso..."

Kosmos-1 é um modal multimodal que integra as modalidades de texto e imagens.

GPT-4 vai além do Kosmos-1 porque adiciona uma terceira modalidade, vídeo, e parece também incluir a modalidade de som.

Funciona em Vários Idiomas

O GPT-4 aparenta funcionar em todas as línguas. É descrito como sendo capaz de receber uma pergunta em alemão e responder em italiano.

É um exemplo um pouco estranho, pois quem faria uma pergunta em alemão e esperaria receber uma resposta em italiano?

Isto é o que foi confirmado:

"...a tecnologia chegou tão longe que basicamente funciona em todas as línguas: Você pode fazer uma pergunta em alemão e obter uma resposta em italiano.

Com a multimodalidade, a Microsoft (-OpenAI) tornará os modelos abrangentes."

Acredito que o ponto de avanço é que o modelo transcende a linguagem com sua habilidade de obter conhecimento em diferentes idiomas. Portanto, se a resposta estiver em italiano, ele saberá e poderá fornecer a resposta no idioma em que a pergunta foi feita.

Isso tornaria semelhante ao objetivo da inteligência artificial multimodal do Google, chamada MUM. Diz-se que MUM consegue fornecer respostas em inglês para as quais os dados só existem em outro idioma, como o japonês.

Aplicações do GPT-4

Não há atualmente nenhum anúncio sobre onde o GPT-4 irá aparecer. Mas o Azure-OpenAI foi especificamente mencionado.

O Google está a lutar para alcançar a Microsoft, integrando uma tecnologia concorrente no seu próprio motor de busca. Este desenvolvimento agrava ainda mais a percepção de que o Google está a ficar para trás e carece de liderança em IA voltada para o consumidor.

O Google já integra IA em múltiplos produtos, como o Google Lens, Google Maps e outras áreas com as quais os consumidores interagem no Google. Essa abordagem é utilizar a IA como uma tecnologia assistiva, para ajudar as pessoas em pequenas tarefas.

A forma como a Microsoft está implementando isso é mais visível e, consequentemente, está capturando toda a atenção e reforçando a imagem do Google como alquebrado e lutando para acompanhar.

Leia aqui o anúncio oficial de lançamento do OpenAI GPT-4.

Leia a reportagem original em alemão aqui:

O GPT-4 está chegando na próxima semana - e será multimodal, afirma a Microsoft Alemanha

OpenAI GPT-4 A chegar a meio de março de 2023

Atualização: GPT-4 lançado em 14 de março de 2023

Modelos Linguísticos Multimodais em Grande Escala

Microsoft Kosmos-1

Funciona em Vários Idiomas

Aplicações do GPT-4

Artigos Relacionados