Escolhendo o modelo de base certo para incorporar GenAI na sua startup

Quando startups incorporam inteligência artificial generativa (GenAI) em seus produtos, selecionar um modelo de base (FM) é uma das primeiras e mais críticas etapas.

Um FM (Foundation Model) é um grande modelo de machine learning (ML) pré-treinado em uma grande quantidade de dados em grande escala. Isso resulta em um modelo que possa ser adaptado a uma ampla variedade de tarefas posteriores.

A seleção de modelos tem implicações estratégicas na forma como uma startup é criada. Tudo, desde a experiência do usuário e a entrada no mercado até a contratação e a lucratividade, pode ser afetado pelo modelo que você escolher.

Os modelos variam de acordo com vários fatores, incluindo:

Nível de personalização: a capacidade de alterar a saída de um modelo com novos dados, desde abordagens baseadas em prompts até o retreinamento completo do modelo.
Tamanho do modelo: quanta informação o modelo aprendeu, conforme definido pela contagem de parâmetros.
Opções de inferência: da implantação autogerenciada às chamadas de API.
Contratos de licenciamento: alguns contratos podem restringir ou proibir o uso comercial.
Janelas de contexto: quanta informação cabe em um único prompt.
Latência: quanto tempo leva para um modelo gerar uma saída.

As seções a seguir mostram o que considerar ao selecionar um FM para atender às necessidades da sua startup.

Benchmarks específicos de aplicações

Ao avaliar o desempenho de diferentes FMs para seu caso de uso, uma etapa crítica no processo é estabelecer uma estratégia de benchmark. Isso ajuda você a quantificar o nível de qualidade de correspondência do conteúdo às suas expectativas.

Há um grande número de modelos disponíveis, desde players de código fechado a modelos de código aberto, como Dolly, Alpaca e Vicuna. Cada um desses modelos tem suas próprias vantagens e desvantagens; é fundamental que você escolha o melhor modelo para o trabalho. Cada caso de uso tem requisitos diferentes de custo, qualidade, latência, janela de contexto e privacidade.

Benchmarks generalizados (como a Holistic Evaluation of Language Models, ou Avaliação Holística de Modelos de Linguagem, da Universidade de Stanford) são um ótimo ponto de partida para algumas startups, pois ajudam a priorizar quais modelos de base começar a experimentar.

No entanto, benchmarks generalizados podem ser insuficientes para startups focadas na criação de uma base de clientes específica. Por exemplo, se seu modelo precisa resumir consultas médicas ou feedback de clientes, você deve avaliar a capacidade dele de realizar essas tarefas específicas.

Benchmarks personalizados

Para fazer um benchmarking personalizado, você precisa de um workflow para experimentação rápida —, normalmente por meio de tentativa e erro em uma ampla variedade de cenários. É comum ajustar demais seu modelo/prompt para um caso de teste específico e achar que você tem o modelo certo, mas que acabe fracassando quando estiver em produção.

O benchmarking personalizado pode incluir técnicas como o cálculo das pontuações BLEU e ROUGE. Essas são duas métricas que ajudam as startups a quantificar o número de correções necessárias para aplicar o texto gerado pela IA antes de ser aprovado para uso em aplicações human-in-the-loop.

Quanto mais você puder comparar/contrastar modelos em uma variedade de casos que se assemelham ao que você verá na produção, melhor será durante a produção.

Modelos menores e feitos sob medida estão em ascensão

Depois que seus benchmarks de qualidade forem estabelecidos, você poderá começar a experimentar o uso de modelos menores destinados a tarefas específicas, como seguir instruções ou resumir.

Esses modelos criados com um objetivo específico podem reduzir significativamente a contagem de parâmetros de um modelo e, ao mesmo tempo, manter a capacidade de realizar tarefas específicas do domínio.

Modelos específicos, adaptados a setores específicos são cruciais para entender e atender os requisitos reais dos usuários finais.

A comunidade de pesquisa de código aberto está conduzindo muita inovação relacionada a modelos menores e específicos, como o Alpaca da Stanford ou o Falcon 40B do Technology Innovation Institute. A Tabela de classificação Open LLM da Hugging Face ajuda a classificar esses modelos de código aberto em uma variedade de benchmarks gerais.

Esses modelos menores fornecem métricas de benchmark comparáveis em tarefas de acompanhamento de instruções, usando uma fração da contagem de parâmetros e dos recursos de treinamento.

À medida que as startups personalizam seus modelos para tarefas específicas de domínio, os FMs de código aberto as capacitam a personalizar e ajustar ainda mais seus sistemas com seus próprios conjuntos de dados.

Por exemplo, as soluções de PERT, ou Ajuste fino com eficiência de parâmetros, da Hugging Face mostraram como ajustar um pequeno número de parâmetros de modelo, enquanto congela a maioria dos outros parâmetros dos LLMs pré-treinados. Isso pode diminuir consideravelmente os custos computacionais e de armazenamento.

Essas técnicas de ajuste fino baseadas em adaptação de domínio geralmente não são possíveis com FM proprietário baseado em API, o que pode limitar a profundidade com que uma startup pode criar um produto diferenciado.

Algumas startups optam por limitar intencionalmente o escopo do FM a um domínio específico implementando limites, como o NeMo Guardrails de código aberto da Nvidia, em seus modelos. Esses limites ajudam a evitar alucinações nos modelos: resultados irrelevantes, incorretos ou inesperados.

A flexibilidade de inferência é importante

Outra consideração importante na seleção do FM é como o modelo pode ser servido. Os modelos de código aberto, bem como os modelos proprietários autogerenciados, oferecem a flexibilidade de personalizar como e onde os modelos são hospedados.

O controle direto da infraestrutura de um modelo pode ajudar as startups a garantir a confiabilidade de suas aplicações com práticas recomendadas, como escalonamento automático e redundância. O gerenciamento da infraestrutura de hospedagem também ajuda a garantir que todos os dados gerados e consumidos por um modelo estejam contidos em ambientes de nuvem dedicados que possam atender aos requisitos de segurança definidos pela startup.

Os modelos menores e específicos que mencionamos anteriormente também exigem menos hardware com uso intensivo de computação, ajudando as startups a otimizar a economia unitária e o desempenho de preços.

Em um experimento recente, a AWS mediu até 50% de economia no custo de inferência ao usar instâncias AWS Graviton3 baseadas em ARM para modelos de código aberto.

Esses processadores AWS Graviton3 também usam até 60% menos energia para um desempenho semelhante, o que ajuda startups que estão considerando os impactos ambientais de escolher um hardware de inferência que consome muita energia.

Um estudo do Fórum Econômico Mundial detalhou o consumo de energia dos datacenters; antes consideradas uma externalidade, as implicações ambientais surgiram na mente de muitos. A AWS permite que as startups quantifiquem seu impacto ambiental por meio de ofertas como o relatório de pegada de carbono, ajudando empresas a comparar a eficiência energética de diferentes seleções de hardware.

A DNX Brasil é o parceiro ideal para ajudar sua startup na revolução da GenAI!

Somos Premier Partner da AWS com mais de 130 certificações, além de times dedicados e especializados em Inteligência Artificial (IA) e Inteligência Artificial Generativa.

Conheça todas as possibilidades que a GenAI pode trazer para seu negócio. Fale com os consultores da DNX Brasil.

Clique aqui.

Este artigo foi adaptado a partir de AWS Startups.