O CTO da Microsoft Alemanha, Andreas Braun, confirmou que o GPT-4 será lançado na semana de 9 de março de 2023 e será multimodal. AI multimodal significa que ele será capaz de operar com vários tipos de entrada, como vídeo, imagens e som.
Atualização: GPT-4 lançado em 14 de março de 2023
A OpenAI lançou o GPT-4 a 14 de março de 2023. É um modelo multimodal que aceita imagens e texto como instruções.
Modal é uma frase usada em aprendizado de máquina para denotar formas de entrada como texto, mas também sentidos como som, visual, cheiro, etc.
O anúncio da OpenAI descreveu a magnitude dos avanços do GPT-4:
“...embora menos capaz do que os humanos em muitos cenários do mundo real, apresenta desempenho ao nível humano em vários benchmarks profissionais e académicos.
Por exemplo, passa um exame de barra simulado com uma pontuação próxima dos 10% melhores classificados; por contraste, a pontuação do GPT-3.5 estava próxima dos 10% inferiores.
Passámos 6 meses alinhando iterativamente o GPT-4 usando lições do nosso programa de testes adversariais, bem como do ChatGPT, resultando nos nossos melhores resultados de sempre (embora longe de serem perfeitos) em termos de facticidade, controlabilidade e recusa em ultrapassar os limites estabelecidos”.
Modelos Linguísticos Multimodais em Grande Escala
A grande novidade do anúncio é que o GPT-4 é multimodal (o SEJ previu que o GPT-4 é multimodal em janeiro de 2023).
A modalidade é uma referência ao tipo de entrada com o qual um grande modelo de linguagem lida (neste caso).
Multimodal pode englobar texto, fala, imagens e vídeo.
O GPT-3 e o GPT-3.5 só operavam numa modalidade, texto.
De acordo com o relatório de notícias alemão, o GPT-4 poderá operar em pelo menos quatro modalidades: imagens, som (auditivo), texto e vídeo.
O Dr. Andreas Braun, CTO da Microsoft Alemanha, é citado:
"Vamos apresentar o GPT-4 na próxima semana, lá teremos modelos multimodais que oferecerão possibilidades completamente diferentes - por exemplo vídeos..."
Ao relatório faltavam especificidades para o GPT-4, por isso não está claro se o que foi compartilhado sobre multimodalidade era específico para o GPT-4 ou apenas de forma geral.
O Diretor de Estratégia de Negócios da Microsoft, Holger Kenn, explicou as multimodalidades, mas o relatório não deixou claro se ele estava se referindo à multimodalidade do GPT-4 ou à multimodalidade em geral.
Acredito que as referências a multimodalidade são específicas para o GPT-4.
A notícia divulgada:
“Kenn explicou do que se trata a IA multimodal, que pode traduzir texto não apenas em imagens, mas também em música e vídeo.”
Outro facto interessante é que a Microsoft está a trabalhar em "métricas de confiança" para fundamentar a sua IA com factos, tornando-a mais fiável.
Microsoft Kosmos-1
Algo que aparentemente não foi muito divulgado nos Estados Unidos é que a Microsoft lançou um modelo de linguagem multimodal chamado Kosmos-1 no início de março de 2023.
De acordo com a reportagem do site de notícias alemão, Heise.de:
“...a equipa submeteu o modelo pré-treinado a vários testes, com bons resultados na classificação de imagens, resposta a perguntas sobre o conteúdo da imagem, etiquetagem automatizada de imagens, reconhecimento ótico de texto e tarefas de geração de fala.
...Raciocínio visual, ou seja, tirar conclusões sobre imagens sem utilizar a linguagem como um passo intermediário, parece ser chave neste caso..."
Kosmos-1 é um modal multimodal que integra as modalidades de texto e imagens.
GPT-4 vai além do Kosmos-1 porque adiciona uma terceira modalidade, vídeo, e parece também incluir a modalidade de som.
Funciona em Vários Idiomas
O GPT-4 aparenta funcionar em todas as línguas. É descrito como sendo capaz de receber uma pergunta em alemão e responder em italiano.
É um exemplo um pouco estranho, pois quem faria uma pergunta em alemão e esperaria receber uma resposta em italiano?
Isto é o que foi confirmado:
"...a tecnologia chegou tão longe que basicamente funciona em todas as línguas: Você pode fazer uma pergunta em alemão e obter uma resposta em italiano.
Com a multimodalidade, a Microsoft (-OpenAI) tornará os modelos abrangentes."
Acredito que o ponto de avanço é que o modelo transcende a linguagem com sua habilidade de obter conhecimento em diferentes idiomas. Portanto, se a resposta estiver em italiano, ele saberá e poderá fornecer a resposta no idioma em que a pergunta foi feita.
Isso tornaria semelhante ao objetivo da inteligência artificial multimodal do Google, chamada MUM. Diz-se que MUM consegue fornecer respostas em inglês para as quais os dados só existem em outro idioma, como o japonês.
Aplicações do GPT-4
Não há atualmente nenhum anúncio sobre onde o GPT-4 irá aparecer. Mas o Azure-OpenAI foi especificamente mencionado.
O Google está a lutar para alcançar a Microsoft, integrando uma tecnologia concorrente no seu próprio motor de busca. Este desenvolvimento agrava ainda mais a percepção de que o Google está a ficar para trás e carece de liderança em IA voltada para o consumidor.
O Google já integra IA em múltiplos produtos, como o Google Lens, Google Maps e outras áreas com as quais os consumidores interagem no Google. Essa abordagem é utilizar a IA como uma tecnologia assistiva, para ajudar as pessoas em pequenas tarefas.
A forma como a Microsoft está implementando isso é mais visível e, consequentemente, está capturando toda a atenção e reforçando a imagem do Google como alquebrado e lutando para acompanhar.
Leia aqui o anúncio oficial de lançamento do OpenAI GPT-4.
Leia a reportagem original em alemão aqui:
O GPT-4 está chegando na próxima semana - e será multimodal, afirma a Microsoft Alemanha