Nesta conversa, Yann LeCun, cientista-chefe de IA da Meta, discute as limitações fundamentais dos grandes modelos de linguagem (LLMs) autorregressivos, defende arquiteturas alternativas como JEPA para alcançar inteligência no nível humano e argumenta que o código aberto é essencial para evitar a concentração de poder e garantir diversidade nos sistemas de IA.
Limitações dos LLMs Autorregressivos ⏱ 2:36
•LLMs autorregressivos (como GPT-4 e LLaMA) carecem de quatro capacidades essenciais para a inteligência: compreensão do mundo físico, memória persistente, raciocínio e planejamento.•Eles são treinados em cerca de 10^13 tokens (2 × 10^13 bytes) de texto público da internet, o que levaria 170.000 anos para um humano ler.•Em contraste, uma criança de 4 anos recebe aproximadamente 10^15 bytes de informação visual através do nervo óptico (20 MB/s) — muito mais dados do que qualquer LLM vê através de linguagem.•A maior parte do conhecimento humano vem da observação e interação com o mundo real, não da linguagem.Por que LLMs Não Têm um Modelo de Mundo ⏱ 7:22
•A inteligência precisa ser fundamentada na realidade (física ou simulada); linguagem é uma representação aproximada demais.•Moravec's paradox: tarefas de alto nível (xadrez, provas) são fáceis para computadores, mas tarefas simples para humanos (dirigir, lavar louça) são muito difíceis.•LLMs podem passar no exame da Ordem dos Advogados, mas não conseguem aprender a dirigir em 20 horas como um adolescente.•Mesmo com extensões de visão, LLMs atuais são essencialmente 'gambiarras' e não entendem física intuitiva.Autorregressão vs. Planejamento da Resposta ⏱ 13:17
•LLMs geram uma palavra por vez, sem planejar a resposta completa — é como uma ação subconsciente automática.•Humanos pensam em um nível abstrato independente da língua (ex.: imaginar uma garrafa rotacionada não requer linguagem).•LLMs não têm uma representação abstrata interna para planejar o que dizer antes de produzir tokens.Arquiteturas Preditivas de Embedding Conjunto (JEPA) ⏱ 24:21
•Modelos gerativos que tentam prever todos os pixels de vídeo falham há 10 anos (FAIR tentou GANs, VAEs, MAE).•JEPA (Joint Embedding Predictive Architecture) não tenta reconstruir pixels, mas sim prever representações abstratas de entradas corrompidas.•Exemplo: I-JEPA para imagens e V-JEPA para vídeo — mascara regiões (ou tubos temporais) e treina um preditor no espaço de representação.•V-JEPA é o primeiro sistema que aprende boas representações de vídeo, permitindo classificação de ações e detecção de impossibilidades físicas (ex.: objeto que desaparece).•A abordagem elimina detalhes imprevisíveis (como folhas se movendo ao vento), preservando apenas o que é modelável e previsível.Planejamento Hierárquico e Controle Preditivo de Modelo ⏱ 44:22
•Com um modelo de mundo aprendido por JEPA, é possível fazer planejamento usando controle preditivo de modelo (MPC): prever estados futuros dados ações e otimizar uma sequência para atingir um objetivo.•Planejamento hierárquico é necessário para ações complexas (ex.: ir de NY a Paris: subobjetivos como ir ao aeroporto, pegar um táxi, etc.).•Atualmente, não se sabe como treinar um sistema para aprender representações hierárquicas de planos de ação — isso é uma área aberta de pesquisa.Alucinações e Curse of Dimensionality ⏱ 66:29
•Em LLMs autorregressivos, cada token tem uma probabilidade não nula de erro; erros se acumulam exponencialmente ao longo da sequência.•O ajuste fino cobre apenas uma fração minúscula de todos os prompts possíveis — o conjunto de prompts não vistos é enorme.•É possível quebrar o sistema com prompts fora da distribuição de treino (ex.: substituir palavras por outra língua).•A quantidade de computação por token é constante, independentemente da complexidade da pergunta — diferente do raciocínio humano, que despende mais tempo para problemas difíceis.Modelos Baseados em Energia e Raciocínio por Otimização ⏱ 77:01
•Uma alternativa aos LLMs autorregressivos são modelos baseados em energia (EBMs): uma rede que recebe entrada X e resposta Y e produz um escalar (0 se Y é compatível com X, positivo caso contrário).•Durante a inferência, otimiza-se uma representação abstrata da resposta para minimizar essa energia, usando gradiente descendente.•Essa representação é independente da língua de saída; um decodificador autorregressivo simples a converte em texto.•O treinamento requer evitar colapso: métodos não contrastivos (regularizadores) são preferíveis aos contrastivos.Código Aberto como Solução para Viés e Concentração de Poder ⏱ 95:25
•Sistemas de IA sempre serão tendenciosos porque o viés está nos olhos de quem vê; é impossível agradar a todos.•Exemplo: Google Gemini gerou imagens de soldados nazistas negros (não factual) e recusou-se a gerar imagens da Praça Tiananmen — mostrando que o ajuste fino por uma única empresa é problemático.•No futuro, todas as interações com o mundo digital serão mediadas por assistentes de IA — não podemos permitir que sejam controlados por um punhado de empresas do Oeste dos EUA.•Código aberto permite que governos, ONGs e empresas ajustem modelos para suas línguas, culturas e valores; exemplo: França não aceitará que a dieta digital de seus cidadãos seja controlada por três empresas americanas.•Meta libera LLaMA 2 e futuramente LLaMA 3 como código aberto; milhares de empresas constroem aplicações em cima.•O modelo de negócios da Meta não é prejudicado: a empresa já tem uma enorme base de usuários e pode gerar receita com anúncios e serviços empresariais.Refutando Argumentos de Doomers e Perigos da IA ⏱ 128:50
•IA superinteligente não surgirá como um evento súbito — será progresso gradual; primeiro sistemas com inteligência de gato, depois melhorados.•A vontade de dominar não é inerente à inteligência; é uma característica de espécies sociais (humanos, lobos), não de orangotangos (tão inteligentes quanto).•Sistemas de IA serão projetados para serem submissos aos humanos, com guardrails.•Exemplo do perigo de armas biológicas: estudos mostram que LLMs não tornam mais fácil construir uma arma biológica do que uma busca no Google; o trabalho prático de laboratório é extremamente difícil.•Analogia com o motor a jato: a segurança veio do design iterativo, não de um princípio geral; o mesmo ocorrerá com IA.•Ataques de propaganda via IA serão filtrados por assistentes de IA tão inteligentes quanto o atacante — como um filtro de spam.O Futuro da Robótica e Aprendizado por Observação ⏱ 149:02
•Robôs domésticos (ex.: limpar a mesa, lavar louça) ainda são extremamente difíceis devido ao paradoxo de Moravec.•Navegação e apreensão de objetos funcionam em laboratório, mas não em ambientes não estruturados.•O progresso em robótica depende de modelos de mundo aprendidos por observação (como JEPA) e planejamento hierárquico.•Questões abertas: como treinar modelos de mundo em grande escala? Como fazer planejamento hierárquico com níveis de abstração aprendidos?Otimismo com a IA e Lições da História ⏱ 158:14
•IA amplificará a inteligência humana: cada pessoa terá uma equipe de assistentes virtuais superinteligentes.•Comparação com a prensa móvel: tornou as pessoas mais inteligentes e possibilitou o Iluminismo, apesar de 200 anos de conflitos religiosos.•O Império Otomano baniu a prensa em árabe por 200 anos para proteger a corporação de calígrafos — análogo a regular a IA para proteger empregos atuais.•A história mostra que os temores a novas tecnologias (eletricidade, trens, jazz, histórias em quadrinhos) geralmente são exagerados; o progresso supera os riscos.Pontos-chave
•LLMs autorregressivos não possuem compreensão do mundo físico, memória persistente, raciocínio ou planejamento — capacidades essenciais para inteligência humana.•Uma criança de 4 anos recebe ~10^15 bytes de dados visuais, enquanto um LLM é treinado em ~2×10^13 bytes de texto — a maior parte do conhecimento humano vem da interação com o mundo real, não da linguagem.•Arquiteturas JEPA (Joint Embedding Predictive Architecture) aprendem representações abstratas sem reconstruir pixels, permitindo modelar o mundo de forma eficiente; V-JEPA já detecta impossibilidades físicas em vídeos.•O planejamento hierárquico (ex.: viajar de NY a Paris) é uma área não resolvida; ninguém sabe como treinar sistemas para aprender níveis de abstração de planos de ação.•Alucinações em LLMs são inerentes: erros de token se acumulam exponencialmente e o ajuste fino cobre apenas uma fração ínfima de todos os prompts possíveis.•Código aberto é a única maneira de evitar que um pequeno número de empresas controle toda a nossa dieta de informação; exemplos como França e Índia mostram a necessidade de modelos adaptáveis a línguas e culturas locais.•O perigo de um AGI maligno é exagerado: o progresso será gradual, sistemas serão projetados para serem submissos, e guardrails serão aperfeiçoados iterativamente — como a segurança dos motores a jato.•A IA tem o potencial de amplificar a inteligência humana de forma similar à prensa móvel, que apesar de conflitos iniciais, levou ao Iluminismo e à democracia.Conclusão
LeCun acredita que, com código aberto e pesquisa contínua em arquiteturas como JEPA, a IA pode tornar a humanidade mais inteligente e resolver problemas complexos, desde que não seja sufocada por regulamentações excessivas ou concentração de poder.