IA Multimodal: A Tendencia que Vai Dominar 2026
Ate 2024, inteligencia artificial era, na pratica, sinônimo de texto. Voce digitava, a IA respondia com palavras. Imagens eram processadas por modelos separados. Audio, por outros. Video era quase intocavel. Cada modalidade vivia em seu proprio silo.
Em 2026, essa separacao acabou. Os modelos mais avancados do mundo processam texto, imagem, audio e video simultaneamente -- e nao como funcionalidades separadas coladas juntas, mas como uma compreensao integrada do mundo. A IA deixou de "ler" e passou a perceber. E isso muda tudo.
O IBM Tech Trends Report 2026 colocou IA multimodal como a tendencia tecnologica #1 do ano, a frente de computacao quantica, soberania de dados e edge computing. Neste artigo, vamos entender por que, como os principais modelos estao implementando isso e -- mais importante -- como voce pode usar IA multimodal no seu trabalho hoje.
1. O que e IA multimodal (e por que importa agora)
IA multimodal e um tipo de inteligencia artificial que processa e integra multiplos tipos de dados simultaneamente. Em vez de ter um modelo para texto e outro para imagens, voce tem um unico modelo que entende texto, imagem, audio e video ao mesmo tempo -- e cruza informacoes entre essas modalidades.
Para entender a diferenca, pense em como um humano percebe o mundo. Quando voce esta numa reuniao, voce nao processa audio separado de video separado de texto. Voce ouve a voz da pessoa, ve a expressao facial, le o slide na tela e integra tudo em uma compreensao unica. IA multimodal tenta replicar exatamente isso.
Unimodal vs. multimodal
| Aspecto | IA Unimodal | IA Multimodal |
|---|---|---|
| Entrada | Um tipo (texto OU imagem OU audio) | Multiplos tipos simultaneamente |
| Compreensao | Isolada por modalidade | Cruzada entre modalidades |
| Exemplo | "Descreva esta imagem" (recebe imagem, gera texto) | "Analise esta reuniao" (recebe video+audio, gera resumo+acoes) |
| Contexto | Limitado a uma modalidade | Rico -- usa todas as fontes de informacao |
| Aplicacao tipica | Chatbot de texto, classificador de imagem | Assistente completo, analise de video, computer use |
Por que importa agora
A resposta curta: porque o mundo real e multimodal. Seus clientes enviam fotos e textos. Suas reunioes tem video e audio. Seus dados incluem graficos, tabelas, PDFs e planilhas. Uma IA que so processa texto perde a maior parte da informacao. Uma IA multimodal captura tudo.
A resposta tecnica: modelos multimodais atingiram um ponto de maturidade em 2025-2026 onde a qualidade justifica a adocao em escala. Ate 2024, a capacidade de visao dos modelos era rudimentar -- eles "viam" imagens, mas frequentemente erravam detalhes. Em 2026, a precisao em tarefas visuais supera a humana em varios benchmarks. Audio nativo (sem transcricao intermediaria) permite conversas em tempo real com latencia sub-segundo. Video understanding permite resumir horas de conteudo em minutos.
Dado revelador: segundo a IBM, empresas que adotaram IA multimodal em 2025 reportaram ganho medio de 47% em produtividade de equipes que lidam com dados nao-estruturados (documentos, imagens, videos). O ganho e maior justamente nas tarefas que antes exigiam processamento humano.
2. Como funciona: de modelos de texto para modelos de percepcao
Para entender IA multimodal sem jargao tecnico, pense em tres geracoes de modelos:
Geracao 1: modelos de texto (2020-2023)
GPT-3, GPT-3.5, Claude 1 e Llama 1 eram puramente textuais. Voce digitava texto, recebia texto. Nao existia "visao" ou "audicao". Se voce queria analisar uma imagem, precisava descreve-la em texto para o modelo.
Geracao 2: modelos com visao adicionada (2023-2025)
GPT-4V, Claude 3 e Gemini 1.0 introduziram visao. Voce podia enviar uma imagem junto com texto. Mas a visao era "colada" -- o modelo processava a imagem com um encoder separado e depois "traduzia" para texto internamente. A integracao era superficial. Audio era feito via transcricao (speech-to-text) como etapa separada.
Geracao 3: modelos nativamente multimodais (2025-2026)
GPT-5.4, Gemini 3.1 e os modelos mais recentes sao nativamente multimodais. Isso significa que texto, imagem, audio e video sao processados pela mesma arquitetura neural, sem traducao intermediaria. O modelo nao "transcreve audio para texto e depois processa o texto" -- ele entende o audio diretamente, incluindo tom de voz, pausas, emocoes e contexto sonoro.
A diferenca pratica e enorme. Um modelo da geracao 2, ao receber um video de uma apresentacao, primeiro transcrevia o audio e depois analisava o texto. Perdia tom de voz, expressoes faciais, gestos e o conteudo visual dos slides. Um modelo da geracao 3 processa tudo simultaneamente -- "assiste" ao video como um humano faria.
A arquitetura por tras
Sem entrar em detalhes de papers academicos, a ideia central e: modelos multimodais usam tokenizacao universal. Assim como texto e dividido em tokens (pedacos de palavras), imagens sao divididas em "patches" visuais e audio em segmentos temporais. Todos esses tokens -- de texto, imagem e audio -- entram na mesma rede neural e sao processados juntos. O modelo aprende relacoes entre uma palavra e uma regiao da imagem, entre um tom de voz e uma expressao facial.
3. Os modelos multimodais de 2026: GPT-5.4, Gemini 3.1, Claude e Llama 4
Cada grande provedor de IA tem sua abordagem multimodal. Aqui esta o panorama atualizado:
GPT-5.4 (OpenAI)
O modelo mais recente da OpenAI trouxe duas capacidades que mudaram o jogo:
- Computer use: o modelo pode "ver" sua tela, mover o cursor, clicar em botoes e interagir com qualquer software. Nao e automacao com scripts -- e a IA literalmente olhando para a tela e decidindo o que fazer, como um humano faria
- Video understanding nativo: GPT-5.4 processa video de ate 3 horas, entendendo contexto visual, audio, texto na tela e acoes simultaneamente. Voce pode enviar uma gravacao de reuniao e pedir "quais decisoes foram tomadas e quem ficou responsavel por cada uma?"
- Geracao multimodal: alem de receber multiplas modalidades, GPT-5.4 gera imagens, audio e texto em uma unica resposta coerente
Gemini 3.1 (Google)
O Gemini 3.1 e, possivelmente, o modelo com a integracao multimodal mais profunda:
- Flash Live audio: conversacao em audio nativo com latencia abaixo de 300ms. Voce fala, o modelo entende (sem transcricao) e responde em voz com entonacao natural. Funciona como uma ligacao telefonica com uma IA que realmente ouve
- Janela de contexto de 2M tokens: a maior do mercado, permitindo processar documentos massivos, videos longos e historicos extensos de conversa
- Spatial understanding: o modelo entende relacoes espaciais em imagens e videos -- "a pessoa a esquerda esta apontando para o grafico no canto superior direito da tela"
Claude (Anthropic)
O Claude se diferencia pela abordagem de seguranca e praticidade:
- Tool use avancado: o Claude pode "usar ferramentas" -- navegar na web, executar codigo, ler arquivos, interagir com APIs -- enquanto processa imagens e texto. E a IA mais competente em tarefas de trabalho real que envolvem multiplas fontes
- Visao de documentos: processamento excepcional de PDFs, planilhas, graficos e screenshots. O Claude analisa um dashboard e explica tendencias como um analista senior
- Computer use (Claude Code): via Claude Code no terminal, o modelo interage com seu sistema de arquivos, le imagens, gera codigo e executa -- tudo em um fluxo multimodal integrado
Llama 4 (Meta)
A opcao open-source multimodal mais poderosa:
- Modelos de 10B a 400B parametros: opcoes para cada caso de uso, do mobile ao data center
- Multimodal nativo: texto + imagem + audio integrados na mesma arquitetura, disponivel para download e deploy local
- Licenca permissiva: pode ser usado comercialmente, fine-tunado e deployado em infraestrutura propria -- fundamental para soberania de IA
| Modelo | Forca principal | Melhor para |
|---|---|---|
| GPT-5.4 | Computer use + video | Automacao visual, analise de video |
| Gemini 3.1 | Audio nativo + contexto longo | Conversacao por voz, documentos massivos |
| Claude | Tool use + trabalho real | Desenvolvimento, analise de documentos |
| Llama 4 | Open-source + deploy local | Soberania, fine-tuning, custo controlado |
4. Por que e a tendencia #1 de 2026 (dados da IBM)
O IBM Tech Trends Report 2026, baseado em pesquisa com 5.000 CTOs e lideres de tecnologia em 28 paises, colocou IA multimodal no topo da lista. Nao em segundo ou terceiro lugar -- primeiro lugar absoluto, a frente de:
- IA multimodal (63% dos CTOs planejam adocao em 2026)
- Computacao quantica pratica (48%)
- Soberania de IA e dados (45%)
- Edge AI (41%)
- IA generativa para codigo (38%)
Por que essa posicao? Tres fatores convergem:
Fator 1: ROI comprovado
Empresas early adopters de IA multimodal em 2025 ja tem numeros concretos. O relatorio da IBM mostra:
- 47% de ganho medio de produtividade em equipes que lidam com dados nao-estruturados
- 62% de reducao no tempo de analise de documentos complexos (contratos, relatorios, prontuarios)
- 35% de aumento em CSAT (satisfacao do cliente) em empresas que implementaram atendimento multimodal
- 28% de reducao em custos operacionais pela automacao de tarefas que antes exigiam input humano visual
Fator 2: maturidade tecnologica
Em 2024, IA multimodal era demonstracao de laboratorio. Em 2026, e produto de prateleira. As APIs sao estaveis, a latencia e aceitavel, a precisao e confiavel. A barreira de adocao caiu dramaticamente -- qualquer empresa com uma API key pode usar IA multimodal hoje.
Fator 3: dados do mundo real sao multimodais
A IBM estima que 80% dos dados corporativos sao nao-estruturados -- fotos, videos, audios, PDFs, apresentacoes, e-mails com anexos. Uma IA que so processa texto ignora 80% dos dados da empresa. IA multimodal desbloqueia esse acervo.
Insight pratico: o setor com maior adocao de IA multimodal e saude (71% das organizacoes), seguido por financas (64%), varejo (58%) e educacao (52%). Saude lidera porque a combinacao de imagens medicas + historico textual + sinais vitais e o caso de uso perfeito para multimodal.
IA regulamentada = IA usada certo
Usar IA de forma profissional exige ferramentas serias. O Claude Code com skills e a forma mais segura e produtiva de integrar IA no seu trabalho. 748+ skills, 7 categorias.
Conhecer as Skills — R$195. Aplicacoes praticas que ja estao funcionando
IA multimodal nao e futuro -- ja esta em producao em diversas industrias. Aqui estao aplicacoes reais funcionando em 2026:
Atendimento ao cliente com voz + imagem
O cliente liga para o suporte, descreve o problema por voz e envia uma foto pelo WhatsApp. A IA multimodal ouve a descricao, analisa a foto, cruza com a base de conhecimento e responde por voz com a solucao -- tudo em tempo real, sem transferencia para humano. Empresas de telecomunicacoes, seguradoras e e-commerces ja usam esse fluxo.
Caso real: uma seguradora brasileira implementou IA multimodal para sinistros de automovel. O cliente envia fotos do dano e grava um audio explicando o ocorrido. A IA analisa as imagens, identifica o tipo de dano, cruza com o audio para entender o contexto e gera o laudo preliminar em menos de 5 minutos. Antes, esse processo levava 3-5 dias uteis.
E-commerce: visual search
O usuario tira foto de um produto na rua -- uma bolsa, um sapato, um movel. A IA multimodal analisa a imagem, identifica o produto, encontra itens similares no catalogo da loja e apresenta opcoes com preco e disponibilidade. A conversao desse fluxo e 3-4x maior que busca textual, porque o usuario encontra exatamente o que quer.
Saude: analise integrada de exames
Um medico envia uma radiografia, os resultados de exames laboratoriais (texto) e o historico do paciente (texto). A IA multimodal analisa a imagem medica, correlaciona com os valores laboratoriais e o historico, e sugere diagnosticos diferenciados com niveis de confianca. Nao substitui o medico -- funciona como um "segundo par de olhos" que nunca esquece um detalhe.
Educacao interativa
Plataformas de ensino usam IA multimodal para criar tutores virtuais que veem o trabalho do aluno (foto do caderno ou tela compartilhada), ouvem a duvida por voz e explicam de volta com audio + anotacoes visuais sobre a imagem do trabalho. E tutoria 1:1 personalizada em escala.
Inspecao industrial
Cameras em linhas de producao enviam video para IA multimodal que detecta defeitos visuais em tempo real. Quando identifica um problema, gera um relatorio com imagem anotada, descricao textual do defeito e recomendacao de acao. Fabricas de automoveis e eletronicos ja operam assim.
Acessibilidade
IA multimodal descreve o mundo visual para pessoas cegas (audio em tempo real do que a camera ve), traduz lingua de sinais para texto (analise de video) e transcreve conversas com identificacao de falantes para pessoas surdas. A tecnologia assistiva nunca foi tao poderosa.
6. Como IA multimodal transforma o marketing digital
Se voce trabalha com marketing, IA multimodal muda seu fluxo de trabalho em tres frentes fundamentais:
Frente 1: Criacao de conteudo multimidia automatizada
O fluxo antigo: voce escreve o briefing, envia para o designer que cria a imagem, depois envia para o editor que faz o video, depois escreve a copy adaptada para cada formato. Sao 3-4 profissionais e dias de trabalho.
O fluxo multimodal: voce descreve a campanha em um prompt. A IA gera simultaneamente: a imagem do criativo, o video de 15 segundos, a copy para feed, a copy para Stories e a versao de texto para e-mail. Tudo coerente, tudo alinhado, em minutos.
Isso nao elimina o profissional criativo -- muda seu papel. Em vez de executar, ele direciona, revisa e refina. O volume de output explode. Onde antes voce testava 3 criativos por semana, agora testa 30.
Frente 2: Analise visual de performance
Voce envia um screenshot do seu dashboard de Meta Ads para a IA. Ela "le" os graficos, identifica tendencias, compara com benchmarks e gera um relatorio com recomendacoes. Ou envia os criativos que estao rodando e a IA analisa composicao visual, cores, texto overlay, CTA placement e sugere otimizacoes baseadas em padroes de alto desempenho.
Melhor ainda: voce envia 50 criativos de uma vez (imagens + metricas de performance) e a IA identifica padroes visuais que correlacionam com melhor CTR, CPA ou ROAS. "Criativos com fundo azul escuro e texto branco no terco superior tem 23% mais CTR nesta conta." Esse tipo de insight antes exigia um analista senior olhando horas de dados.
Frente 3: Atendimento ao cliente multimodal
O cliente manda uma foto do produto com defeito no WhatsApp. A IA ve a foto, identifica o problema, consulta a politica de troca e responde com instrucoes em texto + imagem anotada mostrando o que fazer. Zero espera, zero atrito, resolucao na primeira interacao.
Para e-commerces, isso tambem funciona como ferramenta de vendas: o cliente envia foto de um ambiente e pede sugestoes de decoracao. A IA analisa o espaco, sugere produtos do catalogo e gera uma montagem visual do ambiente com os produtos aplicados.
Dado para convencer seu gestor: segundo a Gartner, equipes de marketing que adotaram ferramentas multimodais em 2025 reportaram aumento de 40% na velocidade de producao de criativos e reducao de 55% no tempo de analise de performance. O impacto e mensuravel e imediato.
7. Ferramentas multimodais disponiveis hoje
Voce nao precisa esperar para usar IA multimodal. Estas ferramentas estao disponiveis e funcionais agora:
Para uso via API (desenvolvedores e times tecnicos)
| Ferramenta | Modalidades | Destaque |
|---|---|---|
| OpenAI API (GPT-5.4) | Texto + imagem + audio + video | Computer use, video understanding |
| Google AI Studio (Gemini) | Texto + imagem + audio + video | Audio nativo, contexto 2M tokens |
| Anthropic API (Claude) | Texto + imagem + tool use | Melhor para trabalho real e documentos |
| Replicate | Modelos open-source variados | Llama 4, Stable Diffusion, Whisper |
Para uso direto (sem codigo)
| Ferramenta | O que faz | Para quem |
|---|---|---|
| ChatGPT Plus/Pro | Chat multimodal com imagem, voz e video | Qualquer profissional |
| Google Gemini | Chat com audio nativo e analise de documentos | Usuarios Google Workspace |
| Claude.ai + Claude Code | Analise de imagens, PDFs, codigo + execucao | Profissionais de marketing e dev |
| Canva Magic Studio | Geracao e edicao multimodal de design | Designers e marketers |
| Runway ML | Geracao e edicao de video com IA | Criadores de conteudo |
| ElevenLabs | Geracao de voz e audio com IA | Podcasters, creators |
Para deploy local (soberania)
| Ferramenta | O que faz | Requisito |
|---|---|---|
| Ollama + Llama 4 | Modelo multimodal local | GPU 24GB+ VRAM |
| vLLM + modelos open-source | Serving otimizado de modelos multimodais | GPU profissional |
| LocalAI | API compativel com OpenAI, modelos locais | GPU ou CPU potente |
8. Limitacoes e desafios atuais
IA multimodal e poderosa, mas nao e perfeita. Conhecer as limitacoes e fundamental para usar a tecnologia de forma responsavel:
Alucinacoes visuais
Assim como modelos de texto "inventam" fatos, modelos multimodais podem "ver" coisas que nao estao na imagem. Um modelo pode afirmar que ha 5 pessoas numa foto quando ha 4, ou ler incorretamente um numero em um grafico. A precisao melhorou enormemente em 2026, mas nao e 100%. Para aplicacoes criticas (saude, financas, juridico), revisao humana continua sendo obrigatoria.
Custo computacional
Processar imagens e video consome significativamente mais tokens e poder computacional que texto. Analisar um video de 10 minutos pode custar 10-50x mais que processar o equivalente em texto. Para empresas com alto volume, o custo de API multimodal pode ser relevante. Modelos locais (Llama 4) ajudam, mas exigem GPUs caras.
Latencia em video
Processar video em tempo real ainda e desafiador. Audio nativo ja funciona em tempo real (Gemini Flash Live faz isso com menos de 300ms de latencia). Mas video understanding em tempo real -- a IA "assistindo" uma transmissao ao vivo e comentando -- ainda tem latencia de segundos, o que limita certas aplicacoes.
Privacidade e consentimento
Quando a IA processa imagens e videos, pode capturar rostos, localizacoes e informacoes pessoais. As regulacoes (LGPD, EU AI Act) exigem consentimento explicito para processamento de dados biometricos. Empresas que implementam IA multimodal precisam garantir compliance, especialmente em aplicacoes que envolvem clientes ou funcionarios.
Bias multimodal
Modelos multimodais podem ter vieses que sao menos obvios que em modelos de texto. Um modelo pode associar certas caracteristicas visuais a estereotipos -- interpretar expressoes faciais de forma diferente dependendo de etnia, gênero ou idade. Auditar bias em modelos multimodais e mais complexo que em modelos de texto e exige ferramentas especializadas.
9. Como comecar a usar IA multimodal
Se voce quer incorporar IA multimodal no seu trabalho, aqui esta um roteiro pratico:
Semana 1: Experimente como usuario
- Assine o ChatGPT Plus e experimente enviar imagens, usar voice mode e pedir analises visuais
- Use o Claude.ai para enviar PDFs, screenshots e planilhas -- veja como ele analisa documentos visuais
- Teste o Google Gemini com audio nativo -- tenha uma conversa por voz sobre um tema complexo
Semana 2: Aplique no seu trabalho
- Envie screenshots de dashboards para a IA e peca analises
- Fotografe documentos fisicos e peca para a IA extrair e organizar informacoes
- Grave suas ideias em audio e use IA para transcrever, organizar e expandir
- Envie criativos de anuncios e peca analise visual de composicao e sugestoes de melhoria
Semana 3: Automatize com ferramentas
- Use Claude Code para criar scripts que processam imagens e documentos automaticamente
- Configure fluxos no Make ou Zapier que enviam imagens para APIs multimodais
- Crie um fluxo de atendimento multimodal para seu negocio (WhatsApp + IA)
Semana 4: Escale
- Identifique os 3 processos do seu time que mais se beneficiam de IA multimodal
- Calcule o ROI: tempo economizado x custo da ferramenta
- Documente boas praticas e treine seu time
- Considere modelos locais (Llama 4 via Ollama) para dados sensiveis
Dica para profissionais de marketing: comece pela analise visual de criativos. E o caso de uso com menor barreira de entrada e maior impacto imediato. Envie seus 10 melhores e 10 piores criativos para o Claude ou GPT e peca para identificar padroes visuais de sucesso. O insight que voce vai receber em 5 minutos pode levar semanas para descobrir manualmente.
10. O futuro: IA que percebe e age como humano
Para onde IA multimodal esta indo? As tendencias para 2027-2028 ja estao se desenhando:
Percepcao em tempo real
Modelos que "veem" e "ouvem" continuamente, como um assistente que esta sempre presente. Imagine uma IA que acompanha suas reunioes (com consentimento), anota pontos-chave, identifica quando alguem faz uma promessa ou compromisso, e depois gera automaticamente as acoes e envia para as pessoas certas. Isso esta a 12-18 meses de ser mainstream.
Agentes multimodais autonomos
Combinando IA multimodal com capacidade de agir (tool use, computer use), teremos agentes que recebem uma tarefa complexa e a executam de forma autonoma, navegando por interfaces, lendo documentos, analisando dados visuais e tomando decisoes. O gerente de e-commerce pede "analise nossos 100 produtos com menos vendas, compare as fotos com os mais vendidos e sugira novas fotos" -- e o agente faz tudo sozinho.
Geracao multimodal coerente
Hoje, a IA gera texto com alta qualidade e imagens com qualidade crescente, mas a coerencia entre modalidades ainda e imperfeita. Em 2027-2028, esperamos modelos que geram campanhas completas -- video com atores sinteticos falando copy persuasiva, com musica de fundo adequada, em multiplos formatos e idiomas -- tudo de um unico prompt.
IA embarcada e edge
Modelos multimodais menores rodarao diretamente em smartphones, oculos de realidade aumentada e dispositivos IoT. Seu celular tera um modelo multimodal local que processa camera + microfone em tempo real, sem enviar dados para a nuvem. A Apple, Google e Qualcomm ja estao investindo pesado nisso.
A convergencia final
O destino de IA multimodal e criar sistemas que percebem o mundo como humanos percebem -- integrando todos os sentidos em uma compreensao unificada. Ainda estamos longe de "consciencia" ou "sentir" (e essas palavras devem ser usadas com cuidado), mas a capacidade de processar e agir sobre multiplas fontes de informacao simultaneamente ja e realidade. A diferenca entre 2024 e 2026 e menor que a diferenca que veremos entre 2026 e 2028.
Para profissionais de IA e marketing, a mensagem e clara: IA multimodal nao e uma tendencia que voce pode ignorar e pegar depois. E uma mudanca fundamental na forma como maquinas entendem e interagem com o mundo. Quem dominar isso agora tera vantagem composta nos proximos anos. Quem esperar, tera que correr atras.
Prepare-se para o futuro da IA — com skills
O cenario regulatorio muda, mas a necessidade de produtividade nao. Skills profissionais para Claude Code te dao vantagem independente das regras. 748+ skills, R$19, vitalicio.
Garantir Acesso — R$19Perguntas frequentes
IA multimodal e um tipo de inteligencia artificial que processa e integra multiplos tipos de dados simultaneamente -- texto, imagem, audio e video. Diferente de modelos tradicionais que operam em uma unica modalidade, modelos multimodais entendem contexto cruzando informacoes entre formatos diferentes.
Os principais sao GPT-5.4 (OpenAI) com computer use e video understanding, Gemini 3.1 (Google) com audio nativo e contexto de 2M tokens, Claude (Anthropic) com tool use e analise de documentos, e Llama 4 (Meta) como opcao open-source para deploy local.
Segundo a IBM, 63% dos CTOs planejam adotar IA multimodal em 2026. A razao: 80% dos dados corporativos sao nao-estruturados (imagens, videos, PDFs). IA multimodal desbloqueia esse acervo. Empresas early adopters reportam 47% de ganho de produtividade e 62% de reducao no tempo de analise de documentos.
Transforma em tres frentes: criacao automatica de criativos multimedia (imagem + video + copy em um fluxo), analise visual de performance (a IA ve o criativo e sugere melhorias baseadas em padroes de sucesso) e atendimento ao cliente com voz + imagem. Equipes reportam 40% mais velocidade na producao de criativos.
Para usar via API (GPT-5.4, Gemini, Claude), nao -- basta uma conexao de internet e uma conta no provedor. Para rodar localmente, modelos open-source como Llama 4 exigem GPUs com pelo menos 24GB de VRAM para modelos menores. A maioria dos profissionais usa via API sem necessidade de hardware especial.