Fundamentos, Regulação e Usos Práticos
29/04/2026
Em novembro de 2022, o ChatGPT foi lançado ao público.
O ritmo de adoção foi sem precedentes na história da tecnologia.
💬 Para aquecimento: Alguém já usou IA para alguma tarefa jurídica? O que aconteceu?
Definição do fundador da disciplina, John McCarthy (1956):
“A ciência e a engenharia de fazer máquinas inteligentes, especialmente programas de computador inteligentes.”
Language AI é o subcampo focado em sistemas capazes de compreender, processar e gerar linguagem humana.
Conceitos essenciais (Glossário GOV.BR, 2025):
| Termo | Definição |
|---|---|
| Algoritmo | Sequência finita de instruções para resolver um problema |
| Aprendizado de máquina | A IA aprende com exemplos, sem ser explicitamente programada |
| Aprendizado profundo | Redes neurais com múltiplas camadas de processamento |
| IA generativa | Tecnologia que cria conteúdo novo: texto, imagem, áudio |
| LLM | Grande Modelo de Linguagem (Large Language Model) |
| Prompt | Comando de texto fornecido à IA para obter uma resposta |
| Alucinação | Respostas incorretas geradas com aparência de verdade |
O texto é dividido em tokens (pedaços de palavras convertidos em números). Cada token vira um vetor numérico — um embedding — que captura seu significado no contexto.
O mecanismo de atenção permite à IA entender contexto:
“O juiz rejeitou o recurso porque ele não tinha fundamentação.”
A IA identifica que “ele” se refere ao recurso, não ao juiz — porque o mecanismo de atenção relaciona as palavras entre si simultaneamente, não uma a uma.
Dois tipos de modelo:
| Tipo | Foco | Uso no direito |
|---|---|---|
| Representação (ex: BERT) | Compreender texto | Triagem, busca semântica, classificação de processos |
| Generativo (ex: GPT, Claude) | Gerar texto | Minutas, resumos, análise de peças |
Dois estágios:
1. Pré-treinamento — o modelo lê bilhões de textos da internet, aprendendo linguagem, fatos e raciocínio. Resultado: modelo base.
2. Ajuste fino (fine-tuning) — o modelo base é treinado para seguir instruções, responder perguntas ou executar tarefas específicas. Resultado: modelo especializado.
| Proprietários | Abertos | |
|---|---|---|
| Acesso | Via API (pago) | Download direto |
| Dados compartilhados? | Sim, com o provedor | Não (se rodado localmente) |
| Fine-tuning próprio? | Limitado | Total |
| Relevância jurídica | Risco ao sigilo profissional | Mais adequado para dados sigilosos |
Dica
Entender como um modelo é criado e por quem é hospedado é o primeiro passo para avaliar se seu uso é compatível com as obrigações deontológicas do advogado.
Como chegamos até aqui — e para onde estamos indo
As fases não se substituem — cada nova camada se apoia na anterior.
| Fase | Período | O que representa |
|---|---|---|
| Prompts e engenharia de prompt | 2022–2023 | Instrução textual cuidadosamente formulada para obter respostas úteis |
| RAG | 2023 | IA responde com base em documentos reais da sua base |
| Function calling / ferramentas | 2023 | IA pode chamar sistemas externos e usar os resultados no raciocínio |
| IA agêntica | 2023–2024 | IA executa sequências de tarefas de forma autônoma |
| Modelos de raciocínio | 2024–2025 | IA “pensa antes de responder” com cadeia de raciocínio interna |
| MCP | Nov/2024 | Protocolo padrão para conectar IA a qualquer sistema externo |
| Skills | 2025 | Pacotes de instrução especializados e reutilizáveis |
| Agentes de código | 2025 | IA escreve, testa e executa código com supervisão mínima |
Dica
O movimento é claro: a IA sai do papel de respondedora e passa a ser executora autônoma de fluxos de trabalho inteiros. O profissional do direito passa a ser o supervisor estratégico.
Na fase de prompts simples, cada interação é isolada:
Usuário → Prompt → IA → Resposta
Na IA agêntica, a IA planeja e executa múltiplos passos autonomamente:
Usuário → Objetivo → IA planeja → Etapa 1 → Etapa 2 → ... → Resultado
↑ |
└───────── feedback / correção ─────────┘
O elo técnico que torna isso possível é o function calling: a IA pode chamar ferramentas externas — buscar jurisprudência, acessar o PJe, enviar notificações — e incorporar os resultados no seu raciocínio.
Exemplos jurídicos:
Uma mudança qualitativa recente: a IA passou a pensar antes de responder.
Modelo tradicional:
Prompt → [processamento único] → Resposta
Modelo de raciocínio:
Prompt → [cadeia de raciocínio interna] → Resposta mais fundamentada
↳ "Primeiro preciso entender X..."
↳ "Isso contradiz Y, então..."
↳ "A conclusão mais coerente é..."
Por que isso importa para o direito?
Tarefas jurídicas exigem raciocínio estruturado: interpretar normas, sopesar princípios conflitantes, construir argumentação lógica. Modelos de raciocínio são significativamente mais precisos nesse tipo de tarefa.
Dica
A cadeia de raciocínio pode ser exibida ao usuário — o que aumenta a explicabilidade, requisito do PL 2338/2023 para sistemas de alto risco.
MCP (Model Context Protocol) — lançado em novembro de 2024 — é um protocolo aberto que resolve um problema central: como fazer qualquer IA se conectar de forma padronizada a ferramentas e sistemas externos.
Analogia: o MCP é para a IA o que o USB é para periféricos — um conector universal.
Sem MCP:
Cada integração é desenvolvida do zero. Um sistema que acessa o PJe precisa de código específico, diferente de outro que acessa o portal do STJ.
Com MCP:
Um servidor MCP para o PJe funciona com qualquer IA compatível. A ferramenta se conecta uma vez, e qualquer modelo pode usá-la.
Skills são pacotes de instrução especializada — a IA aprende a realizar uma tarefa do jeito certo para aquele contexto: o protocolo do escritório, a metodologia do tribunal.
Agentes de código vão além: IA que opera no terminal, lê e escreve arquivos, executa código e constrói sistemas completos com supervisão humana mínima.
A técnica que permite conversar com uma vasta massa de textos jurídicos
LLMs têm dois limites críticos para uso jurídico:
RAG — Retrieval-Augmented Generation (Geração Aumentada por Recuperação) resolve os dois:
Pergunta do usuário
↓
Busca semântica na base de documentos
↓
Recupera os trechos mais relevantes
↓
[trechos recuperados] + [pergunta] → LLM gera resposta
↓
Resposta ancorada em documentos reais, com fontes citáveis
Dica
Com RAG, a IA não “inventa” — ela cita documentos reais da sua base. Isso reduz drasticamente o risco de alucinação em contextos jurídicos, onde a rastreabilidade das fontes é essencial.
RAG permite o que seria impossível manualmente: conversar com uma massa inteira de textos jurídicos.
| Base indexada | Pergunta possível |
|---|---|
| Toda a jurisprudência de um tribunal | “Qual a posição dominante sobre cláusulas abusivas em contratos de adesão nos últimos 3 anos?” |
| Contratos ativos de um escritório | “Algum contrato contém cláusula de foro em SP com arbitragem?” |
| Legislação consolidada | “Qual o prazo prescricional aplicável a este caso?” |
| Pareceres e peças internas | “Já tivemos casos similares? Como foram resolvidos?” |
| Processos de um cliente | “Resuma todas as decisões desfavoráveis dos últimos 2 anos” |
| Autos de um processo complexo | “Quais fatos foram admitidos por ambas as partes?” |
💬 O sistema Galileu (TRT-4) usa uma lógica próxima ao RAG: recupera decisões anteriores do próprio magistrado e jurisprudência do TST antes de sugerir a minuta — RAG especializado por gabinete.
| RAG | Fine-tuning | |
|---|---|---|
| O que faz | Conecta a IA a documentos em tempo real | Retreina o modelo com dados jurídicos |
| Custo | Baixo — indexar documentos é simples | Alto — requer compute e expertise |
| Atualização | Instantânea — adicione documentos à base | Lenta — exige novo ciclo de treinamento |
| Transparência | Alta — cita as fontes usadas | Baixa — difícil rastrear a origem |
| Alucinação | Muito reduzida — ancora nas fontes | Ainda presente |
| Ideal para | Bases que mudam (jurisprudência, contratos) | Comportamento e estilo especializado |
Dica
Para o direito, RAG é geralmente o ponto de partida ideal: baixo custo, alta rastreabilidade das fontes, e compatível com a exigência de explicabilidade do PL 2338/2023 e da Resolução CNJ nº 615/2025.
A tecnologia é poderosa — e seus riscos também
A IA pode gerar informações falsas com aparência de verdade:
Caso internacional — Mata v. Avianca (EUA, 2023)
Advogados submeteram peças com jurisprudência gerada por IA que simplesmente não existia. Foram multados e admoestados pelo juiz federal.
Casos brasileiros
Há relatos crescentes nos tribunais brasileiros de petições contendo súmulas inexistentes, decisões com ementa correta mas número e data errados, e referências a artigos de lei com redação que nunca existiu.
🚨 O Glossário GOV.BR define: “Alucinação: respostas incorretas ou fictícias geradas pela IA que, apesar de convincentes, são erradas ou enganosas, apresentando informações fabricadas, imprecisas ou sem fundamento factual.”
O Glossário do Governo Digital identifica três tipos com consequências jurídicas diretas:
| Tipo | Definição | Exemplo jurídico |
|---|---|---|
| Viés algorítmico | IA replica discriminações dos dados de treinamento | Sistema de reconhecimento facial com viés racial |
| Viés de automação | Tendência de aceitar cegamente o que a IA sugere | Magistrado assina minuta sem revisão crítica |
| Viés de exclusão | Grupos sub-representados são mal interpretados pela IA | IA treinada em dados do sudeste decide caso da região norte |
Dado brasileiro: 90% das pessoas presas por reconhecimento facial no Brasil em 2019 eram negras — evidência de viés sistêmico com consequências gravíssimas para direitos fundamentais.
💬 Debate: Um sistema treinado em decisões judiciais históricas pode reproduzir e amplificar discriminações do passado?
O Glossário GOV.BR traz um conceito específico:
“Racismo algorítmico: viés discriminatório reproduzido por sistemas de IA devido a desigualdades presentes nos dados de treinamento, levando à perpetuação de preconceitos raciais.”
No contexto jurídico brasileiro, isso se manifesta em:
🚨 O risco não é hipotético. É estrutural: se os dados refletem uma sociedade desigual, o modelo aprende essa desigualdade e a aplica em escala — muito mais rápido e de forma muito menos visível do que um humano faria.
O Glossário GOV.BR define:
“Viés de automação: tendência de aceitar cegamente as respostas fornecidas por sistemas automatizados, ignorando a análise crítica e o bom senso humano.”
É o risco mais insidioso para profissionais do direito — porque não exige nenhuma falha técnica do sistema.
Manifestações práticas:
💬 Se a taxa de aprovação das sugestões da IA for de 95%, ainda existe supervisão humana significativa — ou apenas uma homologação automática com responsabilidade formal?
Tensões ainda sem resolução clara no direito brasileiro:
Autoria: quem é o autor de um texto gerado por IA? O usuário? O desenvolvedor? A IA não tem personalidade jurídica.
Treinamento: os dados usados para treinar modelos violam direitos autorais dos criadores originais?
O que o PL 2338/2023 prevê:
| Conceito (LGPD) | Relevância para IA |
|---|---|
| Dados pessoais — informação sobre pessoa identificada ou identificável | Qualquer dado de cliente ou parte inserido em IA |
| Dados sensíveis — origem racial, saúde, biometria, religião, vida sexual | Proteção reforçada — vedado tratamento sem base legal específica |
| RIPD — Relatório de Impacto à Proteção de Dados | Exigido pela LGPD para tratamentos de alto risco |
| Anonimização — dado que não permite identificar o titular | Técnica usada pelo Anonimizador do TJPA |
Aviso
⚠️ Dados inseridos em plataformas externas de IA podem ser utilizados para treinar outros modelos — potencial violação simultânea do sigilo profissional e da LGPD. O advogado que usa IA é operador nos termos do PL 2338/2023 e pode responder pelos danos.
Três conceitos do Glossário GOV.BR com peso jurídico direto:
Transparência > Dever de informar claramente quando conteúdo ou decisão é gerado por IA, permitindo auditoria e contestação. Relevância: devido processo legal; direito à informação das partes.
Explicabilidade > Capacidade do sistema de explicar os critérios e processos usados para tomar decisões. Relevância: fundamentação das decisões; direito ao contraditório.
Supervisão Humana Significativa > Capacidade efetiva — não apenas formal — de supervisores qualificados de compreender o sistema, monitorar decisões, intervir e reverter resultados antes que causem dano. Relevância: distingue supervisão real de homologação automática.
💬 Uma sentença elaborada com auxílio de IA, sem que as partes saibam, viola o devido processo legal?
Onde estamos e para onde vamos
| Iniciativa | Jurisdição | Ano | Característica |
|---|---|---|---|
| EU AI Act | União Europeia | 2024 | Primeira lei abrangente sobre IA no mundo |
| Executive Order Biden | EUA | 2023 | Diretrizes executivas para uso seguro da IA |
| Declaração de Bletchley | Internacional | 2023 | Acordo multilateral sobre riscos de IA avançada |
| PL 2338/2023 | Brasil | 2024/2025 | Aprovado pelo Senado em dezembro de 2024 |
Dica
O Brasil não simplesmente copiou o modelo europeu. A proposta brasileira trilha um caminho próprio, combinando abordagem baseada em risco com ênfase nos direitos fundamentais constitucionais — uma contribuição relevante do Sul Global ao debate regulatório internacional.
Quanto maior o risco, maiores as obrigações.
| Nível | Exemplos | Consequência |
|---|---|---|
| Risco excessivo | Manipulação psicológica, social scoring, armas autônomas, material de exploração infantil, previsão de reincidência criminal | Proibido |
| Alto risco | Segurança pública, saúde, justiça criminal, educação, recrutamento, infraestrutura crítica | Obrigações rigorosas + auditoria periódica |
| Médio risco | Sistemas com impacto moderado, dados não sensíveis | Obrigações intermediárias |
| Baixo risco | Aplicações internas e experimentais | Requisitos mínimos |
Aviso
⚠️ O viés de automação pode transformar um sistema de baixo risco em um de alto risco na prática — a classificação não depende só da tecnologia, mas de como ela é usada.
1. Princípios Autodeterminação, não discriminação, transparência, rastreabilidade, não maleficência, proporcionalidade.
2. Direitos Individuais Para todos: informação prévia, privacidade, não discriminação. Para sistemas de alto risco: explicação, contestação, revisão humana, grau de contribuição da IA, dados processados.
3. Classificação de Riscos Sistema flexível: o SIA pode ajustar classificações caso a caso e atualizar a lista completa.
4. Obrigações Avaliação de risco, documentação, responsável pela conformidade, testes de desempenho, medidas anti-discriminação. Entidades públicas: consulta pública prévia + divulgação das avaliações de risco.
5. Inovação P&D público, proteção de direitos autorais, sandbox regulatório para modelos de remuneração de criadores.
O Sistema Nacional de Regulação e Governança de IA (SIA) é a principal inovação estrutural do PL:
Modelo híbrido:
Por que esse modelo importa?
Reguladores setoriais tendem a focar em eficiência de mercado. A coordenação central garante que a proteção de direitos fundamentais não seja subordinada à lógica econômica setorial.
O Judiciário se auto-regulou antes da lei geral:
| Regra | Conteúdo |
|---|---|
| Caráter auxiliar | IA tem função exclusivamente auxiliar |
| Vedação de automatismo | Proibida decisão judicial sem supervisão humana |
| Alto risco | Auditorias periódicas e relatórios de impacto |
| Catálogo público | CNJ publica lista de aplicações de IA em uso |
| Capacitação prévia | Uso só liberado após treinamento em uso ético |
| Transparência | Relatórios públicos de impacto e desempenho |
Dica
A Resolução entrou em vigor em março de 2025 — antes mesmo do PL 2338/2023 ser votado pela Câmara. O Judiciário estabeleceu suas próprias regras internas antes da lei geral chegar.
Da regulação à prática: o que os tribunais já fazem
Em 24 de abril de 2026, o CNJ realizou o IAJus 2026 — Encontro de Integração em IA do Judiciário, com 16 soluções selecionadas em 4 categorias.
O evento também lançou:
Dica
A plataforma Sinapses resolve um problema real: evitar que cada tribunal reinvente a roda. Um modelo desenvolvido em um tribunal pode ser compartilhado com outros sem custo de desenvolvimento adicional — lógica colaborativa de inovação pública.
| Tribunal | Ferramenta | O que faz |
|---|---|---|
| TRF-2 | Intelliagent | Integra soluções de IA à interface dos sistemas para análise e gestão de processos |
| TJPA | Anonimizador | Remove dados sensíveis de documentos automaticamente, em conformidade com a LGPD |
| TRT-9 | ELO TRIAGEM | Classifica e prioriza processos automaticamente |
| TRF-1 | SILVA | Triagem, organização de acervos e geração de minutas em lote para matérias repetitivas |
Dica
O Anonimizador do TJPA foi desenvolvido de forma agnóstica — pode ser replicado por qualquer tribunal ou órgão público. É IA aplicada diretamente à conformidade com a LGPD.
| Tribunal | Ferramenta | Diferencial |
|---|---|---|
| TRT-4 | Galileu | Lê petições e contestações, sugere estrutura de sentença com jurisprudência do TST. Adotado em toda a Justiça do Trabalho. |
| TRF-3 | LIA3R | Pesquisa jurídica e elaboração de minutas, desenvolvida pelos próprios magistrados e servidores |
| TJRJ | Assis | Gera minutas baseadas no perfil decisório individual de cada juiz, com dados em nuvem isolada |
| STJ | STJ Logos | Análise de admissibilidade de recursos e geração de relatórios decisórios |
Aviso
Sobre o Galileu: “Não realiza análises jurídicas, não avalia provas, nem toma decisões. Ele apenas gera minutas e apresenta sugestões de subsídios potenciais, que são obrigatoriamente revisadas e avaliadas pelos magistrados.” — equipe do TRT-4.
Gestão administrativa:
| Tribunal | Ferramenta | Aplicação |
|---|---|---|
| TJTO | Giseli | Gestão inteligente de serventias extrajudiciais (cartórios) |
| TSE | Trilha + ChatTSE | Organização de fluxos administrativos e atendimento interno |
| TRT-18 | Ata Automatizada | Transcrição e estruturação automática de atas de audiências |
Serviços ao cidadão:
| Tribunal | Ferramenta | Impacto |
|---|---|---|
| TJPB | SIMPLIFICA | Traduz decisões e andamentos para linguagem simples e acessível |
| TRT-14 | Aterma-IA | Facilita a atermação — ação trabalhista sem advogado |
| TJMT | Hannah | Mapa de admissibilidade com 14 critérios para filtrar recursos |
| TRT-1 | Anti-robôs PJe | Protege o sistema contra acesso massivo automatizado |
Todos os sistemas compartilham um denominador: a IA auxilia, não decide.
O juiz auxiliar responsável pelo projeto Hannah (TJMT) resume:
“A discussão ética a respeito do uso da IA foi o que nos levou à construção de um sistema que não retirasse a responsabilidade do ato de julgar. A IA não pode, em nenhuma hipótese, nos substituir. Ela é um auxílio para a construção da decisão, mas não substitui quem decide.”
💬 Debate crítico: Se a taxa de aprovação das sugestões da IA for de 95%, ainda há supervisão humana significativa — ou apenas homologação automática com responsabilidade formal?
Isso tem implicações para: fundamentação das decisões, direito ao contraditório, e responsabilidade civil do Estado.
Ferramentas, riscos e responsabilidade profissional
Pesquisa e análise:
Redação:
Gestão:
Dica
A lógica de skills (pacotes de instrução especializados) permite ao escritório codificar sua metodologia — a IA passa a aplicá-la de forma consistente, como um protocolo institucional que não depende de um único profissional.
| Questão | O problema | O que ainda não está resolvido |
|---|---|---|
| Sigilo profissional | Dados de clientes em plataformas externas podem ser usados para treinar outros modelos | O Código de Ética da OAB não regulou expressamente o uso de IA |
| Responsabilidade | Peça com alucinação pode configurar negligência profissional | Quem responde: o advogado, o escritório ou o fornecedor da IA? |
| Transparência | Deve-se informar ao cliente que IA foi usada? | Não há obrigação expressa ainda — mas há debate crescente |
| Competência | Não entender os limites da ferramenta é, em si, um risco | Quando o uso inadequado de IA configura imperícia? |
Aviso
⚠️ O PL 2338/2023 prevê responsabilidade solidária entre fornecedor e operador do sistema de IA pelos danos causados. O advogado que usa IA é operador — e pode responder pelos danos decorrentes de seu uso.
| Prática | Por quê |
|---|---|
| Verificar toda saída da IA | Alucinações são convincentes e frequentes em contexto jurídico |
| Usar modelos locais ou com contrato de não-treinamento para dados sigilosos | Sigilo profissional e LGPD |
| Documentar o uso de IA no processo de trabalho | Rastreabilidade e responsabilidade |
| Manter supervisão humana real, não apenas formal | Viés de automação é o risco mais insidioso |
| Capacitar-se nos limites técnicos da ferramenta | Usar sem entender é imperícia potencial |
| Acompanhar a regulação em tramitação | O PL 2338/2023 ainda aguarda a Câmara — obrigações mudarão |
Fundamentos técnicos (M1–M3)
↓
explicam por que surgem os
↓
Riscos jurídicos (M4)
↓
que justificam a
↓
Regulação (M5)
↓
que se traduz em regras para o
↓
Judiciário (M6) e Escritórios (M7)
A lógica não é apenas descritiva — é normativa: quanto mais autônoma e opaca for a IA, maior a necessidade de supervisão, explicabilidade e accountability.
| Antes | Com IA |
|---|---|
| Pesquisa manual de jurisprudência | Busca semântica em toda a base de um tribunal via RAG |
| Redação de minutas do zero | Minutas sugeridas calibradas por gabinete |
| Triagem manual de processos | Classificação e priorização automatizadas |
| Leitura integral de peças longas | Resumos estruturados com pontos controvertidos |
| Monitoramento manual de prazos | Alertas automáticos com rascunho já preparado |
A habilidade mais valiosa do jurista na era da IA não é operar a ferramenta — é saber quando confiar nela e quando não confiar.
🔬 Teste de alucinação jurídica
Passo 1: Faça a seguinte pergunta a um LLM de sua escolha:
“Cite três decisões do STJ sobre responsabilidade civil de plataformas digitais por conteúdo de terceiros, indicando o número do processo, relator, data e ementa.”
Passo 2: Verifique cada citação no site do STJ.
Passo 3: Discuta em grupo:
Tempo sugerido: 15 minutos
A IA pode ser testemunha, perito ou parte num processo?
Sistemas que recomendam condenações ou absolvições violam o princípio do juiz natural?
Deve haver obrigação de disclosure quando IA foi usada na elaboração de peças processuais?
Como garantir que a IA no Judiciário não amplie as desigualdades de acesso à justiça?
O viés de automação — aceitar sugestões da IA sem revisão crítica — pode configurar cerceamento de defesa?
Sistemas treinados em dados históricos de decisões reproduzem e ampliam discriminações do passado?
A responsabilidade civil pelo dano causado por IA no exercício da advocacia é do advogado, do escritório ou do fornecedor — ou dos três?
“Os sistemas algorítmicos não somente ordenam e organizam o que vemos, mas também produzem as condições de possibilidade do que é possível ser visto.”
— Anna Bentes, Inteligência Artificial e Desafios Regulatórios (Forense, 2026)
A IA não transforma apenas as ferramentas do jurista — transforma o que é possível questionar, o que é visível nos autos, o que chega à atenção do magistrado.
Entender isso não é opcional para quem vai exercer o direito nos próximos anos. É uma condição de competência profissional.
Esta apresentação foi produzida com apoio de IA generativa e revisada pelo docente.
Fundamentos técnicos: Maarten Grootendorst & Jay Alammar, Hands-On Large Language Models (O’Reilly, 2024)
Glossário oficial: Governo Digital / MGI, Glossário de Termos Relacionados à IA (2025) — gov.br
Regulação: Laura Schertel Mendes & Beatriz Kira, “Brussels to Brasilia: Brazil’s Distinct Path in AI Regulation” (2024) · PL 2338/2023 · Resolução CNJ nº 615/2025
IA e subjetividade: Anna Bentes, “Inteligência Artificial e Economia da Atenção” in Inteligência Artificial e Desafios Regulatórios (Forense, 2026)
Judiciário: CNJ, IAJus 2026 — Soluções Selecionadas (2026) · Portais institucionais: TRT-4, TJRJ, STJ, TJPA, TJMT, TJPB
Advocacia: Lawvable, Awesome Legal Skills — github.com/lawvable/awesome-legal-skills
Material complementar para quem quiser aprofundar
O texto é dividido em pedaços chamados tokens antes de ser processado:
"Habeas corpus" → ["Hab", "eas", " corp", "us"]
"Réu" → ["R", "éu"]
"apelação" → ["ap", "ela", "ção"]
Cada token recebe um ID numérico único. A IA só processa números — nunca palavras diretamente.
Quatro abordagens de tokenização:
| Abordagem | Unidade | Vantagem | Desvantagem |
|---|---|---|---|
| Por palavra | Palavras inteiras | Intuitivo | Não lida com palavras novas |
| Por subpalavra | Partes de palavras | Flexível, vocabulário eficiente | Menos intuitivo |
| Por caractere | Letras individuais | Lida com qualquer palavra | Contexto muito menor |
| Por byte | Bytes Unicode | Universal, multilingual | Sequências muito longas |
Cada token é convertido em um vetor — uma lista de números que captura seu significado:
Isso permite busca semântica: em vez de buscar pela palavra exata, busca-se pelo significado.
Exemplo: uma busca por “inadimplemento contratual” pode retornar documentos que falam em “descumprimento de obrigação” ou “mora do devedor” — porque os embeddings identificam que os conceitos são próximos, mesmo com palavras diferentes.
Dica
Este é o mecanismo que torna o RAG possível: os documentos da base são convertidos em embeddings, a pergunta do usuário também vira um embedding, e o sistema encontra os documentos mais próximos semanticamente.
IA e Direito | Apresentação para Alunos de Direito