Sete Modelos GPT de Código Aberto Gratuitos Lançados

A empresa de IA do Vale do Silício, Cerebras, lançou sete modelos GPT de código aberto para disponibilizar uma alternativa aos sistemas restritos e proprietários disponíveis atualmente.

Os modelos GPT de código aberto e isentos de royalties, incluindo os pesos e a receita de treinamento, foram lançados sob a licença Apache 2.0 altamente permissiva pela Cerebras, uma empresa de infraestrutura de IA baseada no Vale do Silício para aplicações de IA.

Em certa medida, os sete modelos GPT são uma prova de conceito para o supercomputador de IA Cerebras Andromeda.

A infraestrutura da Cerebras permite aos seus clientes, como a Jasper AI Copywriter, treinar rapidamente os seus próprios modelos linguísticos personalizados.

Um artigo do blog da Cerebras sobre a tecnologia de hardware mencionou:

"Temos treinado todos os modelos Cerebras-GPT em um cluster Cerebras Wafer-Scale CS-2 de 16x chamado Andromeda.

O cluster permitiu que todos os experimentos fossem concluídos rapidamente, sem a necessidade de engenharia de sistemas distribuídos e ajuste paralelo de modelo necessários em clusters de GPU.

Mais importante ainda, permitiu que nossos pesquisadores se concentrassem no design do ML em vez do sistema distribuído. Acreditamos que a capacidade de treinar facilmente modelos grandes é um fator-chave para a comunidade em geral, por isso disponibilizamos o Cerebras Wafer-Scale Cluster na nuvem por meio do Cerebras AI Model Studio."

Modelos Cerebras GPT e Transparência

Cerebras cita a concentração da propriedade da tecnologia de IA em apenas algumas empresas como motivo para criar sete modelos GPT de código aberto.

OpenAI, Meta e DeepMind mantêm uma grande quantidade de informações sobre seus sistemas privadas e estritamente controladas, o que limita a inovação ao que as três corporações decidem que outros podem fazer com seus dados.

É um sistema de código fechado o melhor para a inovação em IA? Ou será o código aberto o futuro?

Cerebras escreve:

“Para que os LLMs sejam uma tecnologia aberta e acessível, acreditamos ser importante ter acesso a modelos de ponta que sejam abertos, reproduzíveis e livres de royalties tanto para pesquisa quanto para aplicações comerciais.

Nesse sentido, treinamos uma família de modelos de transformação usando as últimas técnicas e conjuntos de dados abertos que chamamos de Cerebras-GPT.

Esses modelos são a primeira família de modelos GPT treinados usando a fórmula Chinchilla e lançados através da licença Apache 2.0.”

Assim, estes sete modelos são disponibilizados no Hugging Face e no GitHub para incentivar mais pesquisas através do acesso aberto à tecnologia de IA.

Estes modelos foram treinados com o supercomputador de IA Andromeda da Cerebras, um processo que só levou semanas para ser concluído.

Cerebras-GPT é totalmente aberto e transparente, ao contrário dos últimos modelos GPT da OpenAI (GPT-4), Deepmind e Meta OPT.

OpenAI e Deepmind Chinchilla não oferecem licenças para usar os modelos. Meta OPT oferece apenas uma licença não comercial.

O GPT-4 da OpenAI não possui absolutamente nenhuma transparência sobre seus dados de treinamento. Eles usaram dados do Common Crawl? Eles raspam a Internet e criaram seu próprio conjunto de dados?

OpenAI está mantendo esta informação (e mais) em segredo, o que contrasta com a abordagem da Cerebras-GPT, que é totalmente transparente.

O seguinte é tudo aberto e transparente:

Arquitetura do modelo
Dados de treinamento
Pesos do modelo
Pontos de verificação
Status de treinamento otimizado para computação (sim)
Licença de uso: Licença Apache 2.0

As sete versões vêm nos modelos de 111M, 256M, 590M, 1.3B, 2.7B, 6.7B e 13B.

FOI anunciado:

"Numa estreia entre as empresas de hardware de IA, os investigadores da Cerebras treinaram, no supercomputador de IA Andromeda, uma série de sete modelos GPT com 111M, 256M, 590M, 1.3B, 2.7B, 6.7B e 13B de parâmetros.

Normalmente, este trabalho levaria vários meses para ser concluído, mas foi terminado em poucas semanas graças à incrível velocidade dos sistemas Cerebras CS-2 que compõem a Andromeda e à capacidade da arquitetura de transmissão de pesos da Cerebras de eliminar a complexidade do cálculo distribuído.

Estes resultados demonstram que os sistemas da Cerebras podem treinar as cargas de trabalho de IA mais complexas e mais extensas atualmente.

Esta é a primeira vez que uma gama de modelos GPT, treinados com técnicas de eficiência de treino de última geração, é tornada pública.

Estes modelos são treinados com a maior precisão possível, dado o orçamento de cálculo (ou seja, usando a receita Chinchilla), o que resulta em menor tempo de treino, menor custo de treino e menor consumo de energia do que qualquer modelo público existente."

Inteligência Artificial de Código Aberto

A fundação Mozilla, criadora do software de código aberto Firefox, criou uma empresa chamada Mozilla.ai para construir sistemas GPT e recomendadores de código aberto que sejam confiáveis e respeitem a privacidade.

A Databricks também lançou recentemente uma réplica do GPT chamada Dolly de código aberto, que tem como objetivo democratizar "a magia do ChatGPT".

Além desses sete modelos Cerebras GPT, outra empresa, chamada Nomic AI, lançou o GPT4All, um GPT de código aberto que pode ser executado em um laptop.

O movimento de IA de código aberto está em estágio inicial, mas está ganhando impulso.

A tecnologia GPT está a provocar mudanças em larga escala em várias indústrias e é possível, talvez inevitável, que as contribuições de código aberto possam alterar o panorama das indústrias impulsionando essa mudança.

Se o movimento de código aberto continuar avançando neste ritmo, podemos estar à beira de testemunhar uma mudança na inovação de IA que a mantém longe de se concentrar nas mãos de algumas corporações.

Leia o anúncio oficial:

Cerebras Systems lança sete novos modelos GPT treinados em sistemas em escala de wafer CS-2

Sete Modelos GPT Open Source Gratuitos Lançados

Modelos Cerebras GPT e Transparência

Inteligência Artificial de Código Aberto

Artigos Relacionados