Escolha sua plataforma

Antes de criar com IA, você precisa escolher a plataforma em que ela será hospedada. Sua escolha afeta a velocidade, o custo, a escalonabilidade e a confiabilidade do sistema de IA. As opções são:

  • IA do lado do cliente: é executada diretamente no navegador. Isso significa que os dados podem permanecer privados, no dispositivo do usuário, e não há latência de rede. No entanto, para ter um bom desempenho, a IA do lado do cliente precisa de casos de uso altamente específicos e bem definidos.
  • IA do lado do servidor: é executada na nuvem. Ele é altamente capaz e escalonável, mas mais caro em termos de latência e custo.

Cada opção tem concessões, e a configuração certa depende do seu caso de uso, das habilidades da equipe e dos recursos. Por exemplo, você pode oferecer uma ferramenta de resumo que é executada localmente para que os usuários possam fazer perguntas pessoais sem precisar gerenciar informações de identificação pessoal (PII). No entanto, um agente de suporte ao cliente pode dar respostas mais úteis usando um modelo baseado na nuvem que tenha acesso a um grande banco de dados de recursos.

Neste módulo, você vai aprender a:

  • Compare as vantagens e desvantagens da IA do lado do cliente e do servidor.
  • Escolha a plataforma de acordo com seu caso de uso e as habilidades da equipe.
  • Projete sistemas híbridos, que oferecem IA no cliente e no servidor, para crescer com seu produto.

Revise as opções

Para a implantação, pense nas plataformas de IA em dois eixos principais. Você pode escolher:

  • Onde o modelo é executado: ele é executado no lado do cliente ou do servidor?
  • Capacidade de personalização: quanto controle você tem sobre o conhecimento e as capacidades do modelo? Se você puder controlar o modelo, ou seja, modificar os pesos do modelo, personalize o comportamento dele para atender aos seus requisitos específicos.
Exemplos de modelos baseados em plataforma e controle.
Figura 1: opções de plataforma de IA, diferenciadas por plataforma de implantação e nível de controle.

IA do lado do cliente

A IA do lado do cliente é executada no navegador, e a computação acontece localmente no dispositivo do usuário. Você não precisa fornecer computação no momento da inferência, e os dados permanecem na máquina do usuário. Isso o torna rápido, privado e adequado para experiências interativas e leves.

No entanto, os modelos do lado do cliente geralmente são pequenos, o que pode restringir os recursos e a performance deles. Eles são mais adequados para tarefas altamente especializadas, como detecção de toxicidade ou análise de sentimentos. Muitas vezes, essas são tarefas de IA preditiva com um espaço de saída limitado.

Há duas opções principais:

  • IA integrada: navegadores como o Google Chrome e o Microsoft Edge estão integrando modelos de IA. Eles podem ser acessados por chamadas JavaScript, sem necessidade de configuração ou hospedagem. Depois que o modelo é baixado, ele pode ser chamado por todos os sites que o usam.
  • Modelos personalizados: é possível usar bibliotecas do lado do cliente, como Transformers.js e MediaPipe, para integrar modelos ao seu aplicativo. Isso significa que você pode controlar os pesos do modelo. No entanto, isso também significa que todos os usuários do seu site precisam baixar o modelo personalizado. Até mesmo os menores modelos de IA são grandes no contexto de um site.

IA do lado do servidor

Com a IA do lado do servidor, seu aplicativo da Web chama uma API para enviar entradas ao modelo de IA e receber as saídas dele. Essa configuração é compatível com modelos maiores e mais complexos e é independente do hardware do usuário.

As duas categorias de IA do lado do servidor são:

  • Serviços gerenciados: são modelos hospedados em data centers por terceiros, como o Gemini 3 e o GPT-5. O proprietário do modelo fornece uma API para acessá-lo. Isso significa que você pode usar modelos de última geração com configuração mínima. Eles são ideais para prototipagem rápida, conversas abertas e raciocínio de uso geral. No entanto, o escalonamento em um serviço gerenciado pode ser caro.
  • Modelos auto-hospedados: é possível implantar modelos de peso aberto, como o Gemma ou o Llama, na sua própria infraestrutura ou em um contêiner gerenciado, como a Vertex AI ou o Hugging Face Inference. Assim, você se beneficia do pré-treinamento feito pelo criador do modelo, mas mantém o controle sobre o modelo, os dados de ajuste fino e a performance.

Escolher uma plataforma inicial

Revise as características arquitetônicas das plataformas de IA e analise as compensações para decidir sua configuração inicial.

Definir seus requisitos de arquitetura

Em cada decisão, você precisa fazer concessões. Confira as principais características que definem o custo e o valor da sua plataforma de IA:

  • Capacidade do modelo: o desempenho do modelo em uma ampla variedade de usuários e tarefas, sem ajuste. Muitas vezes, isso se correlaciona com o tamanho do modelo.
  • Personalização: o quanto você pode ajustar, modificar ou controlar o comportamento e a arquitetura do modelo.
  • Acurácia: a qualidade e a confiabilidade gerais das previsões ou gerações do modelo.
  • Privacidade: o grau em que os dados do usuário permanecem locais e sob controle do usuário.
  • Custo fixo: a despesa recorrente necessária para operar o sistema de IA, independente do uso, incluindo provisionamento e manutenção da infraestrutura.
  • Custo por solicitação: o custo adicional de cada solicitação recebida.
  • Compatibilidade: o quão ampla é a abordagem em navegadores, dispositivos e ambientes sem lógica de substituição.
  • Conveniência do usuário: se os usuários precisam realizar etapas extras para usar o sistema de IA, como baixar um modelo.
  • Conveniência para desenvolvedores: qual é a rapidez e a facilidade com que a maioria dos desenvolvedores pode implantar, integrar e manter o modelo sem experiência especializada em IA.

A tabela a seguir mostra um exemplo de estimativas de desempenho de cada plataforma para cada critério, em que 1 é o mais baixo e 5 é o mais alto.

Critérios Cliente Servidor
IA integrada ou no dispositivo Modelo personalizado Serviço gerenciado Modelo auto-hospedado
Potência do modelo

Por que duas estrelas para a potência do modelo?

A IA integrada e no dispositivo usa modelos de navegador pequenos e pré-carregados otimizados para recursos específicos de tarefas, em vez de conversas ou raciocínios abertos.

Por que três estrelas para a potência do modelo?

As bibliotecas personalizadas do lado do cliente oferecem mais flexibilidade do que a IA integrada, mas ainda estão sujeitas a restrições de tamanho de download, limites de memória e hardware do usuário.

Por que quatro estrelas para a potência do modelo?

Com serviços gerenciados e auto-hospedagem, você tem acesso a modelos grandes e modernos, capazes de raciocínio complexo, processamento de contexto longo e ampla cobertura de tarefas.

Personalização

Por que uma estrela para capacidade de personalização?

Os modelos integrados não permitem acesso aos pesos ou dados de treinamento. A principal maneira de personalizar o comportamento deles é usando a engenharia de comandos.

Por que 5 estrelas para capacidade de personalização?

Essa opção permite controlar a seleção e as ponderações do modelo. Muitas bibliotecas do lado do cliente também permitem o ajuste e o treinamento de modelos.

Por que uma estrela para capacidade de personalização?

Os serviços gerenciados expõem modelos avançados, mas oferecem controle mínimo sobre o comportamento interno deles. A personalização geralmente fica limitada ao contexto de entrada e comandos.

Por que 5 estrelas para capacidade de personalização?

Os modelos auto-hospedados oferecem controle total sobre pesos de modelo, dados de treinamento, ajuste fino e configuração de implantação.

Precisão

Por que duas estrelas para precisão?

A acurácia dos modelos integrados é suficiente para tarefas bem definidas, mas o tamanho e a generalização limitados do modelo reduzem a confiabilidade para entradas complexas ou sutis.

Por que três estrelas para a acurácia?

A acurácia do modelo personalizado do lado do cliente pode ser melhorada no processo de seleção de modelo. No entanto, ela ainda é limitada pelo tamanho do modelo, pela quantização e pela variabilidade do hardware do cliente.

Por que 5 estrelas para precisão?

Os serviços gerenciados geralmente oferecem uma precisão relativamente alta, beneficiando-se de modelos grandes, dados de treinamento extensos e melhorias contínuas do provedor.

Por que quatro estrelas para precisão?

A acurácia pode ser alta, mas depende do modelo selecionado e do esforço de ajuste. O desempenho pode ficar atrás dos serviços gerenciados.

Latência de rede

Por que 5 estrelas para latência de rede?

O processamento acontece diretamente no dispositivo do usuário.

Por que duas estrelas para latência de rede?

Há uma ida e volta para um servidor.

Privacidade

Por que 5 estrelas para privacidade?

Os dados do usuário devem permanecer no dispositivo por padrão, minimizando a exposição de dados e simplificando a conformidade com a privacidade.

Por que duas estrelas para privacidade?

As entradas do usuário precisam ser enviadas para servidores externos, aumentando a exposição de dados e os requisitos de compliance. No entanto, há soluções específicas para minimizar problemas de privacidade, como o Private AI Compute.

Por que três estrelas para privacidade?

Os dados permanecem sob o controle da organização, mas ainda saem do dispositivo do usuário e exigem medidas de conformidade e tratamento seguro.

Custo fixo

Por que cinco estrelas para custo fixo?

Os modelos são executados nos dispositivos atuais dos usuários, sem custo adicional de infraestrutura.

Por que cinco estrelas para custo fixo?

A maioria das APIs cobra com base no uso, então não há um custo fixo.

Por que duas estrelas para custo fixo?

Os custos fixos incluem infraestrutura, manutenção e despesas operacionais.

Custo por solicitação

Por que cinco estrelas para custo por solicitação?

Não há custo por solicitação, já que a inferência é executada no dispositivo do usuário.

Por que duas estrelas para custo por solicitação?

Os serviços gerenciados costumam ter preços por solicitação. Os custos de escalonamento podem se tornar significativos, principalmente em volumes de tráfego altos.

Por que três estrelas para custo por solicitação?

Não há custo direto por solicitação. O custo efetivo por solicitação depende da utilização da infraestrutura.

Compatibilidade

Por que duas estrelas para compatibilidade?

A disponibilidade varia de acordo com o navegador e o dispositivo, exigindo substituições para ambientes não compatíveis.

Por que uma estrela para compatibilidade?

A compatibilidade depende dos recursos de hardware e do suporte de tempo de execução, limitando o alcance em vários dispositivos.

Por que 5 estrelas para compatibilidade?

As plataformas do lado do servidor são amplamente compatíveis com todos os usuários, já que a inferência acontece no servidor e os clientes consomem apenas uma API.

Conveniência do usuário

Por que três estrelas para a conveniência do usuário?

Em geral, ele funciona sem problemas quando está disponível, mas a IA integrada exige um download inicial do modelo e suporte do navegador.

Por que duas estrelas para a conveniência do usuário?

Os usuários podem ter atrasos devido a downloads ou hardware sem suporte.

Por que quatro estrelas para a conveniência do usuário?

Funciona imediatamente sem downloads ou requisitos de dispositivo, proporcionando uma experiência do usuário tranquila. No entanto, pode haver um atraso se a conexão de rede estiver lenta.

Facilidade para desenvolvedores

Por que cinco estrelas para a conveniência do desenvolvedor?

A IA integrada exige configuração mínima, não precisa de infraestrutura e requer pouco conhecimento especializado em IA, o que facilita a integração e a manutenção.

Por que duas estrelas para a conveniência do desenvolvedor?

Exige o gerenciamento de modelos, ambientes de execução, otimização de desempenho e compatibilidade entre dispositivos.

Por que quatro estrelas para a conveniência do desenvolvedor?

Os serviços gerenciados simplificam a implantação e o escalonamento. No entanto, eles ainda exigem integração de API, gestão de custos e engenharia de comandos.

Por que 1 estrela para a conveniência do desenvolvedor?

Uma implantação personalizada do lado do servidor exige muita experiência em infraestrutura, gerenciamento de modelos, monitoramento e otimização.

Esforço de manutenção

Por que 4 estrelas para o esforço de manutenção?

Os navegadores processam atualizações e otimizações de modelos, mas os desenvolvedores precisam se adaptar à disponibilidade variável.

Por que duas estrelas para o esforço de manutenção?

Exige atualizações contínuas para modelos, ajuste de desempenho e compatibilidade à medida que navegadores e dispositivos evoluem.

Por que 5 estrelas para o esforço de manutenção?

A manutenção é feita pelo provedor.

Por que duas estrelas para o esforço de manutenção?

Exige manutenção contínua, incluindo atualizações de modelo, gerenciamento de infraestrutura, escalonamento e segurança.

Analisar os prós e contras

Para ilustrar o processo de tomada de decisões, vamos adicionar outro recurso à Example Shoppe, uma plataforma de e-commerce de médio porte. Você quer economizar custos no atendimento ao cliente fora do horário comercial e decide criar um assistente com tecnologia de IA para responder a perguntas dos usuários sobre pedidos, devoluções e produtos.

Figura 2. Neste módulo, vamos nos concentrar principalmente na camada de inteligência e dados do projeto do sistema de IA para a Example Shoppe.
Confira o blueprint completo do sistema de IA, que apresenta a oportunidade e a solução.

Analise o cenário usando duas perspectivas: requisitos de caso de uso e restrições comerciais ou de equipe.

Requisito Análise Critérios Implicação
Alta precisão e versatilidade Os usuários fazem várias perguntas complexas sobre pedidos, produtos e devoluções. Potência e precisão do modelo Requer um modelo de linguagem grande (LLM).
Especificidade dos dados Ele precisa responder a perguntas específicas sobre dados, produtos e políticas da empresa. Personalização Requer ingestão de dados, como RAG, mas não ajuste de detalhes do modelo.
Requisitos de caso de uso
Requisito Análise Critérios Implicação
Base de usuários Centenas de milhares de usuários. Escalonabilidade, compatibilidade Exige uma arquitetura que lide com tráfego alto e confiável.
Foco pós-lançamento A equipe vai trabalhar em outros projetos depois do lançamento da versão 1. Esforço de manutenção Precisa de uma solução com manutenção contínua mínima.
Experiência da equipe Desenvolvedores Web experientes, mas com pouca experiência em IA/ML Conveniência para desenvolvedores A solução precisa ser fácil de implantar e integrar sem habilidades especializadas em IA.
Restrições de empresa ou equipe

Agora que você priorizou seus critérios, consulte a tabela de estimativa de compensação para determinar qual plataforma corresponde aos seus critérios de maior prioridade:

Critérios priorizados Vencedor da plataforma
Potência do modelo do lado do servidor
Personalização Do lado do servidor: modelo autohospedado
Conveniência para desenvolvedores Lado do servidor: serviço gerenciado
Esforço de manutenção Lado do servidor: serviço gerenciado
Compatibilidade e escalonabilidade do lado do servidor

Fica claro nessa análise que você deve usar a IA do lado do servidor e provavelmente um serviço gerenciado. Isso oferece um modelo versátil para perguntas complexas dos clientes. Ele minimiza o esforço de manutenção e desenvolvimento ao transferir a infraestrutura, a qualidade do modelo e o tempo de atividade para o provedor.

Embora a capacidade de personalização seja limitada, essa é uma troca válida para uma equipe de desenvolvimento da Web com pouca experiência em engenharia de modelos.

Uma configuração de geração aumentada por recuperação (RAG) pode ajudar você a fornecer o contexto relevante ao modelo no momento da inferência.

IA híbrida

Sistemas de IA avançados raramente são executados em uma única plataforma ou com um modelo. Em vez disso, eles distribuem cargas de trabalho de IA para otimizar as compensações.

Identificar oportunidades para IA híbrida

Depois do lançamento, refine os requisitos com base em dados e feedback reais. No nosso exemplo, a Example Shoppe, você espera alguns meses para analisar os resultados e encontra o seguinte:

  • Cerca de 80% das solicitações são repetitivas ("Onde está meu pedido?", "Como faço para devolver isso?"). Enviar essas solicitações a um serviço gerenciado gera muita sobrecarga e custo.
  • Apenas 20% das solicitações exigem um raciocínio mais profundo e uma conversa interativa e aberta.

Um modelo local leve pode classificar entradas do usuário e responder a consultas rotineiras, como "Qual é sua política de devolução?" Você pode encaminhar perguntas complexas, raras ou ambíguas para o modelo do lado do servidor.

Ao implementar a IA do lado do servidor e do cliente, é possível reduzir custos e latência, mantendo o acesso a um raciocínio avançado quando necessário.

Distribuir a carga de trabalho

Para criar esse sistema híbrido para a Example Shoppe, comece definindo o sistema padrão. Nesse caso, é melhor começar no lado do cliente. O aplicativo precisa encaminhar para a IA do lado do servidor em dois casos:

  • Substituição com base na compatibilidade: se o dispositivo ou navegador do usuário não puder processar a solicitação, ela será redirecionada para o servidor.
  • Encaminhamento com base na capacidade: se a solicitação for muito complexa ou aberta para o modelo do lado do cliente, conforme definido por critérios predeterminados, ela será encaminhada para um modelo maior do lado do servidor. Você pode usar um modelo para classificar a solicitação como comum, para realizar a tarefa do lado do cliente, ou incomum, para enviar a solicitação ao sistema do lado do servidor. Por exemplo, se o modelo do lado do cliente determinar que a pergunta está relacionada a um problema incomum, como receber um reembolso em uma moeda diferente.

A flexibilidade aumenta a complexidade

Distribuir cargas de trabalho entre duas plataformas aumenta a flexibilidade, mas também adiciona complexidade:

  • Orquestração: dois ambientes de execução significam mais partes móveis. Você precisa de lógica para roteamento, novas tentativas e substituições.
  • Controle de versões: se você usar o mesmo modelo em várias plataformas, ele precisa permanecer compatível nos dois ambientes.
  • Engenharia de comandos e engenharia de contexto: se você usar modelos diferentes em cada plataforma, será necessário realizar a engenharia de comandos para cada uma delas.
  • Monitoring: os registros e as métricas são divididos e exigem um esforço extra de unificação.
  • Segurança: você está mantendo duas superfícies de ataque. Os endpoints locais e na nuvem precisam de proteção.

Essa é outra compensação para sua consideração. Se você tem uma equipe pequena ou está criando um recurso não essencial, talvez não queira adicionar essa complexidade.

Seus pontos principais

A escolha da plataforma vai evoluir. Comece pelo caso de uso, alinhe-se à experiência e aos recursos da sua equipe e faça iterações à medida que seu produto e sua maturidade de IA crescem. Sua tarefa é encontrar a combinação certa de velocidade, privacidade e controle para seus usuários e criar com alguma flexibilidade. Assim, você pode se adaptar às mudanças nos requisitos e aproveitar as atualizações futuras da plataforma e do modelo.

Recursos

Teste seu conhecimento

Quais são as duas principais considerações ao selecionar uma plataforma de IA para seu aplicativo?

Sua linguagem de programação e frameworks.
Resposta incorreta.
Custo do modelo e velocidade de treinamento.
Muito bem, é isso mesmo!
Onde o modelo é executado (em um cliente ou servidor) e o nível de controle sobre ele.
Resposta incorreta.
O tamanho da sua equipe de desenvolvimento e o orçamento de marketing.
Resposta incorreta.

Quando um serviço gerenciado do lado do servidor, como o Gemini Pro, é a melhor opção para sua plataforma?

Quando sua equipe tem experiência em machine learning e quer ajustar os pesos manualmente.
Resposta incorreta.
Quando você precisa criar um protótipo rapidamente para tarefas de raciocínio complexas sem gerenciar a infraestrutura.
Muito bem, é isso mesmo!
Quando o usuário não tem conexão de Internet.
Resposta incorreta.
Quando você precisa da menor latência possível para efeitos de vídeo em tempo real.
Resposta incorreta.

Qual é o principal benefício de implementar um sistema de IA híbrido?

Ele permite distribuir cargas de trabalho para otimizar compensações, como executar tarefas simples localmente para aumentar a velocidade e tarefas complexas no servidor para aumentar a potência.
Muito bem, é isso mesmo!
Isso garante que você pague pelos custos de cliente e servidor igualmente.
Resposta incorreta.
Ele força os usuários a baixar modelos grandes sempre que acessam o site.
Resposta incorreta.
Isso elimina a necessidade de qualquer lógica de substituição no seu código.
Resposta incorreta.