Yann LeCun: Meta AI, Código Aberto, Limites dos LLMs, AGI e o Futuro da IA

Source
en-ehkg1hFWq8Apt
Mar 7, 2024 May 13, 2026
Video preview
Share:

Nesta conversa, Yann LeCun, cientista-chefe de IA da Meta, discute as limitações fundamentais dos grandes modelos de linguagem (LLMs) autorregressivos, defende arquiteturas alternativas como JEPA para alcançar inteligência no nível humano e argumenta que o código aberto é essencial para evitar a concentração de poder e garantir diversidade nos sistemas de IA.

Limitações dos LLMs Autorregressivos ⏱ 2:36

  • LLMs autorregressivos (como GPT-4 e LLaMA) carecem de quatro capacidades essenciais para a inteligência: compreensão do mundo físico, memória persistente, raciocínio e planejamento.
  • Eles são treinados em cerca de 10^13 tokens (2 × 10^13 bytes) de texto público da internet, o que levaria 170.000 anos para um humano ler.
  • Em contraste, uma criança de 4 anos recebe aproximadamente 10^15 bytes de informação visual através do nervo óptico (20 MB/s) — muito mais dados do que qualquer LLM vê através de linguagem.
  • A maior parte do conhecimento humano vem da observação e interação com o mundo real, não da linguagem.
  • Por que LLMs Não Têm um Modelo de Mundo ⏱ 7:22

  • A inteligência precisa ser fundamentada na realidade (física ou simulada); linguagem é uma representação aproximada demais.
  • Moravec's paradox: tarefas de alto nível (xadrez, provas) são fáceis para computadores, mas tarefas simples para humanos (dirigir, lavar louça) são muito difíceis.
  • LLMs podem passar no exame da Ordem dos Advogados, mas não conseguem aprender a dirigir em 20 horas como um adolescente.
  • Mesmo com extensões de visão, LLMs atuais são essencialmente 'gambiarras' e não entendem física intuitiva.
  • Autorregressão vs. Planejamento da Resposta ⏱ 13:17

  • LLMs geram uma palavra por vez, sem planejar a resposta completa — é como uma ação subconsciente automática.
  • Humanos pensam em um nível abstrato independente da língua (ex.: imaginar uma garrafa rotacionada não requer linguagem).
  • LLMs não têm uma representação abstrata interna para planejar o que dizer antes de produzir tokens.
  • Arquiteturas Preditivas de Embedding Conjunto (JEPA) ⏱ 24:21

  • Modelos gerativos que tentam prever todos os pixels de vídeo falham há 10 anos (FAIR tentou GANs, VAEs, MAE).
  • JEPA (Joint Embedding Predictive Architecture) não tenta reconstruir pixels, mas sim prever representações abstratas de entradas corrompidas.
  • Exemplo: I-JEPA para imagens e V-JEPA para vídeo — mascara regiões (ou tubos temporais) e treina um preditor no espaço de representação.
  • V-JEPA é o primeiro sistema que aprende boas representações de vídeo, permitindo classificação de ações e detecção de impossibilidades físicas (ex.: objeto que desaparece).
  • A abordagem elimina detalhes imprevisíveis (como folhas se movendo ao vento), preservando apenas o que é modelável e previsível.
  • Planejamento Hierárquico e Controle Preditivo de Modelo ⏱ 44:22

  • Com um modelo de mundo aprendido por JEPA, é possível fazer planejamento usando controle preditivo de modelo (MPC): prever estados futuros dados ações e otimizar uma sequência para atingir um objetivo.
  • Planejamento hierárquico é necessário para ações complexas (ex.: ir de NY a Paris: subobjetivos como ir ao aeroporto, pegar um táxi, etc.).
  • Atualmente, não se sabe como treinar um sistema para aprender representações hierárquicas de planos de ação — isso é uma área aberta de pesquisa.
  • Alucinações e Curse of Dimensionality ⏱ 66:29

  • Em LLMs autorregressivos, cada token tem uma probabilidade não nula de erro; erros se acumulam exponencialmente ao longo da sequência.
  • O ajuste fino cobre apenas uma fração minúscula de todos os prompts possíveis — o conjunto de prompts não vistos é enorme.
  • É possível quebrar o sistema com prompts fora da distribuição de treino (ex.: substituir palavras por outra língua).
  • A quantidade de computação por token é constante, independentemente da complexidade da pergunta — diferente do raciocínio humano, que despende mais tempo para problemas difíceis.
  • Modelos Baseados em Energia e Raciocínio por Otimização ⏱ 77:01

  • Uma alternativa aos LLMs autorregressivos são modelos baseados em energia (EBMs): uma rede que recebe entrada X e resposta Y e produz um escalar (0 se Y é compatível com X, positivo caso contrário).
  • Durante a inferência, otimiza-se uma representação abstrata da resposta para minimizar essa energia, usando gradiente descendente.
  • Essa representação é independente da língua de saída; um decodificador autorregressivo simples a converte em texto.
  • O treinamento requer evitar colapso: métodos não contrastivos (regularizadores) são preferíveis aos contrastivos.
  • Código Aberto como Solução para Viés e Concentração de Poder ⏱ 95:25

  • Sistemas de IA sempre serão tendenciosos porque o viés está nos olhos de quem vê; é impossível agradar a todos.
  • Exemplo: Google Gemini gerou imagens de soldados nazistas negros (não factual) e recusou-se a gerar imagens da Praça Tiananmen — mostrando que o ajuste fino por uma única empresa é problemático.
  • No futuro, todas as interações com o mundo digital serão mediadas por assistentes de IA — não podemos permitir que sejam controlados por um punhado de empresas do Oeste dos EUA.
  • Código aberto permite que governos, ONGs e empresas ajustem modelos para suas línguas, culturas e valores; exemplo: França não aceitará que a dieta digital de seus cidadãos seja controlada por três empresas americanas.
  • Meta libera LLaMA 2 e futuramente LLaMA 3 como código aberto; milhares de empresas constroem aplicações em cima.
  • O modelo de negócios da Meta não é prejudicado: a empresa já tem uma enorme base de usuários e pode gerar receita com anúncios e serviços empresariais.
  • Refutando Argumentos de Doomers e Perigos da IA ⏱ 128:50

  • IA superinteligente não surgirá como um evento súbito — será progresso gradual; primeiro sistemas com inteligência de gato, depois melhorados.
  • A vontade de dominar não é inerente à inteligência; é uma característica de espécies sociais (humanos, lobos), não de orangotangos (tão inteligentes quanto).
  • Sistemas de IA serão projetados para serem submissos aos humanos, com guardrails.
  • Exemplo do perigo de armas biológicas: estudos mostram que LLMs não tornam mais fácil construir uma arma biológica do que uma busca no Google; o trabalho prático de laboratório é extremamente difícil.
  • Analogia com o motor a jato: a segurança veio do design iterativo, não de um princípio geral; o mesmo ocorrerá com IA.
  • Ataques de propaganda via IA serão filtrados por assistentes de IA tão inteligentes quanto o atacante — como um filtro de spam.
  • O Futuro da Robótica e Aprendizado por Observação ⏱ 149:02

  • Robôs domésticos (ex.: limpar a mesa, lavar louça) ainda são extremamente difíceis devido ao paradoxo de Moravec.
  • Navegação e apreensão de objetos funcionam em laboratório, mas não em ambientes não estruturados.
  • O progresso em robótica depende de modelos de mundo aprendidos por observação (como JEPA) e planejamento hierárquico.
  • Questões abertas: como treinar modelos de mundo em grande escala? Como fazer planejamento hierárquico com níveis de abstração aprendidos?
  • Otimismo com a IA e Lições da História ⏱ 158:14

  • IA amplificará a inteligência humana: cada pessoa terá uma equipe de assistentes virtuais superinteligentes.
  • Comparação com a prensa móvel: tornou as pessoas mais inteligentes e possibilitou o Iluminismo, apesar de 200 anos de conflitos religiosos.
  • O Império Otomano baniu a prensa em árabe por 200 anos para proteger a corporação de calígrafos — análogo a regular a IA para proteger empregos atuais.
  • A história mostra que os temores a novas tecnologias (eletricidade, trens, jazz, histórias em quadrinhos) geralmente são exagerados; o progresso supera os riscos.
  • Pontos-chave

  • LLMs autorregressivos não possuem compreensão do mundo físico, memória persistente, raciocínio ou planejamento — capacidades essenciais para inteligência humana.
  • Uma criança de 4 anos recebe ~10^15 bytes de dados visuais, enquanto um LLM é treinado em ~2×10^13 bytes de texto — a maior parte do conhecimento humano vem da interação com o mundo real, não da linguagem.
  • Arquiteturas JEPA (Joint Embedding Predictive Architecture) aprendem representações abstratas sem reconstruir pixels, permitindo modelar o mundo de forma eficiente; V-JEPA já detecta impossibilidades físicas em vídeos.
  • O planejamento hierárquico (ex.: viajar de NY a Paris) é uma área não resolvida; ninguém sabe como treinar sistemas para aprender níveis de abstração de planos de ação.
  • Alucinações em LLMs são inerentes: erros de token se acumulam exponencialmente e o ajuste fino cobre apenas uma fração ínfima de todos os prompts possíveis.
  • Código aberto é a única maneira de evitar que um pequeno número de empresas controle toda a nossa dieta de informação; exemplos como França e Índia mostram a necessidade de modelos adaptáveis a línguas e culturas locais.
  • O perigo de um AGI maligno é exagerado: o progresso será gradual, sistemas serão projetados para serem submissos, e guardrails serão aperfeiçoados iterativamente — como a segurança dos motores a jato.
  • A IA tem o potencial de amplificar a inteligência humana de forma similar à prensa móvel, que apesar de conflitos iniciais, levou ao Iluminismo e à democracia.
  • Conclusão

    LeCun acredita que, com código aberto e pesquisa contínua em arquiteturas como JEPA, a IA pode tornar a humanidade mais inteligente e resolver problemas complexos, desde que não seja sufocada por regulamentações excessivas ou concentração de poder.