Dentro da ChatGPT: Entendimento OpenAIModelos de base do Transformer

Generative Pretrained Transformers

ChatGPT conquistou o mundo com suas eloquentes respostas semelhantes às humanas, alimentadas nos bastidores por IA avançada. Especificamente, deve as suas capacidades de linguagem natural a uma família de modelos chamada Generative Pretrained Transformers (GPT) desenvolvido por empresa de pesquisa OpenAI.

Neste post, vamos desmistificar como funcionam esses modelos de transformadores e como eles permitem ChatGPTdesempenho impressionante.

GPTs – Modelos Fundamentais para PNL

Generative Pretrained Transformers

Em alto nível, os modelos GPT são “modelos básicos” poderosos voltados para tarefas de linguagem natural, como geração de texto.

Eles são os primeiros pré-treinado em corpora de texto massivo – ingerindo até centenas de bilhões de palavras de fontes como sites, livros e Wikipédia. Isso permite que os GPTs analisem profundamente os padrões da linguagem humana.

Após o pré-treinamento, os modelos podem ser ajustado em conjuntos de dados mais específicos para personalizar seus recursos. Por exemplo, um objetivo fundamental de ajuste fino para ChatGPT era a capacidade de conversação – permitindo um diálogo de ida e volta baseado em fatos.

Em versões sucessivas, OpenAIOs modelos GPT da empresa tornaram-se dramaticamente mais avançados à medida que conjuntos de dados maiores e poder computacional expandiram o que era possível.

Por dentro do GPT: a arquitetura do transformador

Nos bastidores, os modelos GPT aproveitam uma arquitetura de aprendizagem profunda baseada na atenção, conhecida como transformador.

Os transformadores foram um avanço no processamento de linguagem natural, superando os métodos mais antigos em tarefas como tradução que exigem a compreensão do contexto das palavras. Suas principais inovações:

  • Camadas de autoatenção analisar como cada palavra se relaciona com todas as outras em uma frase
  • Isso permite que modelos de transformadores como o GPT compreendam profundamente relacionamentos intrincados no texto, em vez de processar sequencialmente

Durante o pré-treinamento, a arquitetura do transformador do GPT permite descobrir os padrões contextuais altamente complexos presentes na linguagem humana a partir de seus enormes conjuntos de dados.

Então, durante o ajuste fino para aplicações como ChatGPT, o modelo básico pode gerar novas sentenças coerentes e significativas que se ajustem a essas estruturas aprendidas.

GPT-3.5: O Inicial ChatGPT Fundação

A primeira versão usada para alimentar ChatGPT foi GPT-3.5, uma variante aumentada do GPT-3.

O próprio GPT-3 surpreendeu o mundo quando foi lançado em 2020 devido à qualidade, coerência e criatividade dos seus resultados.

Ao desenvolver os recursos do GPT-3 e o ajuste fino personalizado para habilidades de conversação, o GPT-3.5 permitiu ChatGPTfuncionalidade de diálogo impressionantemente fluente.

GPT-4: 2 a 5x mais capaz, 98% menos computação

No entanto, no verdadeiro estilo de IA de ponta, as iterações GPT avançam rapidamente. Recentemente, OpenAI revelou o mais recente GPT-4 que é supostamente 2 a 5 vezes mais capaz na maioria das tarefas linguísticas, ao mesmo tempo que requer 98% menos poder de computação.

Aproveitar o GPT-4 poderia permitir ChatGPT para alcançar novos patamares em métricas como qualidade de saída, precisão factual, profundidade de diálogo e muito mais.

E o trem modelo da fundação do transformador provavelmente continuará acelerando a partir daqui. Com a contínua expansão dos dados e da computação esperada nas futuras versões do GPT, há grande entusiasmo pelo que poderá ser possível em breve.

No entanto, à parte as novas capacidades, a interpretação destes modelos com cautela continua a ser importante – eles têm limitações notáveis, apesar do entusiasmo em torno dos seus resultados. Mas o desenvolvimento responsável poderia permitir aplicações extremamente benéficas.

Então fique de olho nesse espaço! Provavelmente ainda apenas arranhamos a superfície do que a IA poderosa, porém segura, pode alcançar.

Dentro da ChatGPT: Entendimento OpenAIModelos de base do Transformer

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *

Scroll to top