É Assim Que Aprendemos (Traduz.) Stanislas Dehaene

Machine Translated by Google
TAMBÉM DE STANISLAS DEHAENE
Consciência e o Cérebro: Decifrando Como o Cérebro Codifica

Nossos pensamentos
Leitura no cérebro: a nova ciência de como lemos

O sentido numérico: como a mente cria a matemática
VIKING
Uma marca da Penguin Random House LLC
penguinrandomhouse.com Copyright © 2020 por
Stanislas Dehaene Baseado, em parte, em

Apprende!, publicado na França por Odile Jacob, Paris, em 2018. Primeira edição americana
publicada pela Viking, um selo da Penguin Random House LLC, em
2020.
Pinguim suporta direitos autorais. Os direitos autorais estimulam a criatividade, incentivam

diversas vozes, promovem a liberdade de expressão e criam uma cultura vibrante. Obrigado por
comprar uma edição autorizada deste livro e por cumprir as leis de direitos autorais ao não reproduzir,
digitalizar ou distribuir qualquer parte dele de qualquer forma sem permissão. Você está apoiando
escritores e permitindo que a Penguin continue a publicar livros para todos os leitores.
Esta página constitui uma extensão da página de direitos autorais.
ISBN 9780525559887 (capa dura)

ISBN 9780525559894 (e-book)
Versão 1
Para Aurora, que nasceu este ano,
e para todos aqueles que já foram bebês.

Comece fazendo um estudo mais cuidadoso de seus alunos, pois é

claro que você não sabe nada sobre eles.
Jean-Jacques Rousseau, Emílio ou sobre a educação (1762)
Este é um fato estranho e surpreendente: conhecemos todos os cantos

e recantos do corpo humano, catalogamos todos os animais do planeta,
descrevemos e batizamos cada folha de grama, mas deixamos as
técnicas psicológicas ao seu empirismo por séculos, como se fossem de
menor importância que as do curandeiro, do criador ou do agricultor.
Jean Piaget, “La Pedagogie Moderne” (1949)
Se não sabemos como aprendemos, como é que sabemos ensinar?
L. Rafael Reif, presidente do MIT (23 de março de 2017)

CONTEÚDO
TAMBÉM DE STANISLAS DEHAENE
FOLHA DE ROSTO
DIREITO AUTORAL
DEDICAÇÃO
EPÍGRAFE
INTRODUÇÃO
Parte um
O que é aprender?
CAPÍTULO 1 Sete Definições de Aprendizagem
CAPÍTULO 2 Por que nosso cérebro aprende melhor que as máquinas atuais
Parte dois
Como nosso cérebro aprende
CAPÍTULO 3 Conhecimento invisível dos bebês
CAPÍTULO 4 O Nascimento de um Cérebro
CAPÍTULO 5 Participação da Nutri
CAPÍTULO 6 Recicle seu cérebro
Parte TRÊS
Os quatro pilares do aprendizado

CAPÍTULO 7 Atenção
CAPÍTULO 8 Engajamento Ativo
CAPÍTULO 9 Feedback de erro

CAPÍTULO 10 Consolidação
CONCLUSÃO Conciliando Educação com Neurociência
ILUSTRAÇÕES
AGRADECIMENTOS
NOTAS
BIBLIOGRAFIA
ÍNDICE
CRÉDITOS
SOBRE O AUTOR
INTRODUÇÃO
Em setembro de 2009, uma criança extraordinária me forçou a

revisar drasticamente minhas ideias sobre aprendizagem. Eu estava visitando
o Hospital Sarah, em Brasília, um centro de reabilitação neurológica com
arquitetura branca inspirada em Oscar Niemeyer, com o qual meu laboratório
colabora há cerca de dez anos. A diretora, Lucia Braga, me pediu para
conhecer um de seus pacientes, Felipe, um menino de apenas sete anos, que
passou mais da metade de sua vida em uma cama de hospital. Ela me
explicou como, aos quatro anos de idade, ele foi baleado na rua – infelizmente
não é um evento tão raro no Brasil. A bala perdida havia cortado sua medula
espinhal, deixando-o quase completamente paralisado (tetraparético).
Também destruiu as áreas visuais de seu cérebro: ele estava totalmente
cego. Para ajudá-lo a respirar, foi feita uma abertura na traqueia, na base do
pescoço. E por mais de três anos, ele viveu em um quarto de hospital,
trancado dentro do caixão de seu corpo inerte.
No corredor que leva ao seu quarto, lembro-me de me preparar com o

pensamento de ter que enfrentar uma criança quebrada. E então eu encontro. . .
Felipe, um garotinho adorável como qualquer outro de sete anos — falante,
cheio de vida e curioso sobre tudo. Ele fala perfeitamente com um vocabulário
extenso e me faz perguntas maliciosas sobre palavras em francês. Aprendo
que ele sempre foi apaixonado por idiomas e nunca perde uma oportunidade
de enriquecer seu vocabulário trilíngue (ele fala português, inglês e espanhol).
Embora seja cego e acamado, ele foge para sua imaginação escrevendo seus
próprios romances, e a equipe do hospital o incentivou nesse caminho. Em
poucos meses, ele aprendeu a ditar suas histórias para um assistente e depois
escrevê-las usando um teclado especial conectado a um computador e placa
de som. Os pediatras e fonoaudiólogos se revezam ao lado de seu leito,
transformando seus escritos em livros reais, táteis, com ilustrações em relevo
que ele
orgulhosamente varre com os dedos, usando o pouco sentido do tato que lhe
resta. Suas histórias falam de heróis e heroínas, montanhas e lagos que ele nunca
verá, mas com os quais sonha como qualquer outro menino.
O encontro com Felipe me emocionou profundamente, e também me

convenceu a olhar mais de perto o que provavelmente é o maior talento do nosso
cérebro: a capacidade de aprender. Aqui estava uma criança cuja própria existência
representa um desafio para a neurociência. Como as faculdades cognitivas do
nosso cérebro resistem a uma reviravolta tão radical em seu ambiente? Por que
Felipe e eu poderíamos compartilhar os mesmos pensamentos, dadas nossas
experiências sensoriais extraordinariamente diferentes? Como diferentes cérebros
humanos convergem para os mesmos conceitos, quase independentemente de
como e quando os aprendem?
Muitos neurocientistas são empiristas: junto com o filósofo iluminista
inglês John Locke (1632-1704), eles presumem que o cérebro simplesmente extrai
seu conhecimento de seu ambiente. Nessa visão, a principal propriedade dos
circuitos corticais é sua plasticidade, sua capacidade de se adaptar às suas
entradas. E, de fato, as células nervosas possuem uma capacidade notável de
ajustar constantemente suas sinapses de acordo com os sinais que recebem. No
entanto, se esse fosse o principal impulso do cérebro, meu pequeno Felipe, privado
de entradas visuais e motoras, deveria ter se tornado uma pessoa profundamente
limitada. Por que milagre ele conseguiu desenvolver habilidades cognitivas
estritamente normais?
O caso de Felipe não é único. Todo mundo conhece a história de Helen Keller
(1880–1968) e Marie Heurtin (1885–1921), ambas nascidas surdas e cegas e, no
entanto, após anos de isolamento social extenuante, aprenderam a linguagem de
sinais e acabaram se tornando pensadores e escritores brilhantes. 1 Ao longo
destas páginas, encontraremos muitas outras pessoas que, espero, alterarão
radicalmente suas opiniões sobre o aprendizado. Um deles é Emmanuel Giroux,
que é cego desde os onze anos, mas se tornou um matemático de primeira linha.
Parafraseando a raposa em O Pequeno Príncipe (1943), de Antoine de Saint
Exupéry , Giroux afirma com segurança: “Na geometria, o essencial é invisível aos
olhos. É somente com a mente que você pode ver bem.” Como esse cego consegue
navegar rapidamente nos espaços abstratos da geometria algébrica, manipulando
planos, esferas e volumes sem nunca ver?
eles? Descobriremos que ele usa os mesmos circuitos cerebrais que

outros matemáticos, mas que seu córtex visual, longe de permanecer
inativo, na verdade se reaproveitou para fazer matemática.
Também apresento a vocês Nico, um jovem pintor que, ao visitar o
Museu Marmottan em Paris, conseguiu fazer uma excelente cópia da
famosa pintura de Monet Impression, Sunrise (veja a figura 1 no encarte
colorido). O que há de tão excepcional nisso?
Nada, além do fato de que ele conseguiu isso com apenas um único hemisfério,
o esquerdo - a metade direita de seu cérebro foi quase totalmente removida aos
três anos de idade! O cérebro de Nico aprendeu a espremer todos os seus
talentos em meio cérebro: fala, escrita e leitura, como sempre, mas desenho e
pintura também, que geralmente são considerados funções do hemisfério
direito, e também ciência da computação e até esgrima para cadeiras de rodas,
um esporte em que ele alcançou o posto de campeão na Espanha. Esqueça
tudo o que lhe disseram sobre os respectivos papéis de ambos os hemisférios,
porque a vida de Nico prova que qualquer um pode se tornar um artista criativo
e talentoso sem um hemisfério direito! A plasticidade cerebral parece fazer
milagres.
Também visitaremos os infames orfanatos de Bucareste, onde
as crianças foram deixadas desde o nascimento em quase-abandono – e
ainda, anos depois, algumas delas, adotadas antes de um ou dois anos, tiveram
experiências escolares quase normais.
Todos estes exemplos ilustram a extraordinária resiliência do
cérebro humano: mesmo grandes traumas, como cegueira, perda de um
hemisfério ou isolamento social, não podem extinguir a centelha do
aprendizado. Linguagem, leitura, matemática, criação artística: todos esses
talentos únicos da espécie humana, que nenhum outro primata possui, podem
resistir a grandes lesões, como a remoção de um hemisfério ou a perda da
visão e da motricidade. A aprendizagem é um princípio vital, e o cérebro
humano tem uma enorme capacidade de plasticidade – de mudar a si mesmo,
de se adaptar. No entanto, também descobriremos contra-exemplos dramáticos,
onde o aprendizado parece congelar e permanecer impotente. Considere a
alexia pura, a incapacidade de ler uma única palavra. Estudei pessoalmente
vários adultos, todos excelentes leitores, que tiveram um pequeno derrame
restrito a uma minúscula área do cérebro que os tornou incapazes de decifrar
palavras tão simples quanto “cachorro” ou “tapete”. Lembro-me de uma
brilhante mulher trilingue, fiel leitora do jornal francês Le Monde, que
ficou profundamente triste com o fato de que, após sua lesão cerebral,
todas as páginas da imprensa diária pareciam em hebraico. Sua
determinação de reaprender a ler era pelo menos tão forte quanto o
derrame que sofrera. No entanto, após dois anos de perseverança, seu
nível de leitura ainda não ultrapassava o de uma criança do jardim de
infância: levava vários segundos para ler uma única palavra, letra por letra,
e ainda tropeçava em cada palavra. Por que ela não podia aprender? E
por que algumas crianças, que sofrem de dislexia, discalculia ou dispraxia,
mostram uma desesperança radical semelhante em adquirir leitura, cálculo
ou escrita, enquanto outras navegam suavemente por esses campos?
A plasticidade cerebral quase parece temperamental: às vezes

supera grandes dificuldades, e outras vezes deixa crianças e adultos
que são altamente motivados e inteligentes com deficiências debilitantes.
Depende de circuitos particulares? Esses circuitos perdem sua plasticidade
com o passar dos anos? A plasticidade pode ser reaberta? Quais são as
regras que o regem? Como o cérebro pode ser tão eficaz desde o
nascimento e durante toda a juventude de uma criança? Que algoritmos
permitem que nossos circuitos cerebrais formem uma representação do
mundo? Será que entendê-los nos ajudaria a aprender melhor e mais rápido?
Poderíamos nos inspirar neles para construir máquinas mais
eficientes, inteligências artificiais que acabariam por nos imitar ou
mesmo nos superar? Estas são algumas das questões que este livro tenta
responder, de forma radicalmente multidisciplinar, valendo-se de
descobertas científicas recentes em ciência cognitiva e neurociência, mas
também em inteligência artificial e educação.
POR QUE APRENDER?
Por que temos que aprender em primeiro lugar? A própria existência da

capacidade de aprender levanta questões. Não seria melhor que nossos
filhos soubessem falar e pensar imediatamente, desde o primeiro dia, como
Atena, que, segundo a lenda, emergiu ao mundo do crânio de Zeus, já
adulto e armado, ao soltar seu grito de guerra? Por que não nascemos pré-
instalados, com software pré-programado e exatamente o conhecimento
pré-carregado necessário para nossa sobrevivência? Na luta darwiniana
pela vida, um animal não deveria
quem nasce maduro, com mais conhecimento que os outros, acaba

vencendo e espalhando seus genes? Por que a evolução inventou o
aprendizado em primeiro lugar?
Minha resposta é simples: uma pré-ligação completa do cérebro
não é possível nem desejável. Impossível, realmente? Sim, porque se o
nosso DNA tivesse que especificar todos os detalhes do nosso
conhecimento, simplesmente não teria a capacidade de armazenamento
necessária. Nossos 23 cromossomos contêm três bilhões de pares de “letras”
A, C, G, T — as moléculas adenina, citosina, guanina e timina. Quanta
informação isso representa? A informação é medida em bits: uma decisão
binária, 0 ou 1. Como cada uma das quatro letras do genoma codifica dois
bits (podemos codificá-los como 00, 01, 10 e 11), nosso DNA contém,
portanto, um total de seis bilhões de bits. Lembre-se, porém, que nos
computadores atuais contamos em bytes, que são sequências de oito bits.
Assim, o genoma humano pode ser reduzido a cerca de 750 megabytes — o
conteúdo de um CD-ROM antiquado ou de uma pequena chave USB! E esse
cálculo básico nem leva em conta as muitas redundâncias que abundam em
nosso DNA.
A partir dessa modesta quantidade de informações, herdada de
milhões de anos de evolução, nosso genoma, inicialmente confinado a
um único óvulo fertilizado, consegue estabelecer todo o plano do corpo –
cada molécula de cada célula de nosso fígado, rins, músculos e, é claro,
nosso cérebro: oitenta e seis bilhões de neurônios, mil trilhões de
conexões. . . . Como nosso genoma poderia especificar cada um deles?
Supondo que cada uma de nossas conexões nervosas codifique apenas um
bit, o que certamente é subestimado, a capacidade do nosso cérebro é da
ordem de cem terabytes (cerca de 1015 bits), ou cem mil vezes mais do que
a informação em nosso genoma. Estamos diante de um paradoxo: o palácio
fantástico que é o nosso cérebro contém cem mil vezes mais detalhes do
que as plantas do arquiteto que foram usadas para construí-lo! Só vejo uma
explicação: a estrutura estrutural do palácio é construída seguindo as
diretrizes do arquiteto (nosso genoma), enquanto os detalhes ficam a cargo
do gerente de projeto, que pode adaptar as plantas ao terreno (o ambiente).
A pré-ligação de um cérebro humano em todos os seus detalhes seria
estritamente impossível, e é por isso que o aprendizado é necessário para
complementar o trabalho dos genes.
Este simples argumento de contabilidade, no entanto, não explica

por que a aprendizagem é tão universalmente difundida no mundo animal.
Mesmo organismos simples desprovidos de qualquer córtex, como minhocas,
moscas-das-frutas e pepinos-do-mar, aprendem muitos de seus
comportamentos. Pegue o pequeno verme chamado “nematóide”, ou C.
elegans. Nos últimos vinte anos, esse animal de tamanho milimétrico tornou-
se uma estrela de laboratório, em parte porque sua arquitetura está sob forte
determinismo genético e pode ser analisada nos mínimos detalhes. A maioria
dos espécimes individuais tem exatamente 959 células, incluindo 302 neurônios,
cujas conexões são todas conhecidas e reproduzíveis. E, no entanto, ele
aprende.2 Os pesquisadores inicialmente o consideraram como uma espécie
de robô capaz de nadar para frente e para trás, mas depois perceberam que ele
possui pelo menos duas formas de aprendizado: habituação e associação. A
habituação refere-se à capacidade de um organismo de se adaptar à presença
repetida de um estímulo (por exemplo, uma molécula na água em que o animal
vive) e eventualmente deixar de responder a ele. A associação, por outro lado,
consiste em descobrir e lembrar quais aspectos do ambiente predizem fontes
de alimento ou perigo. O verme nematoide é um campeão de associação: ele
pode lembrar, por exemplo, quais sabores, cheiros ou níveis de temperatura
foram previamente associados a alimentos (bactérias) ou a uma molécula
repelente (cheiro de alho) e usar essas informações para escolher um caminho
ideal através de seu ambiente.
Com um número tão pequeno de neurônios, o comportamento do

verme poderia ter sido totalmente pré-conectado. No entanto, não é. A razão
é que é altamente vantajoso, de fato indispensável para sua sobrevivência,
adaptar-se ao ambiente específico em que nasce. Mesmo dois organismos
geneticamente idênticos não necessariamente encontrarão o mesmo
ecossistema. No caso do nematoide, a capacidade de ajustar rapidamente seu
comportamento à densidade, química e temperatura do local em que pousa
permite que ele seja mais eficiente. De maneira mais geral, todo animal deve
se adaptar rapidamente às condições imprevisíveis de sua existência atual. A
seleção natural, o algoritmo extraordinariamente eficiente de Darwin, pode
certamente conseguir adaptar cada organismo ao seu nicho ecológico, mas o
faz a um ritmo assustadoramente lento. Gerações inteiras devem morrer, devido
à falta de adaptação adequada, antes que uma mutação favorável possa
aumentar a
chance de sobrevivência da espécie. A capacidade de aprender, por outro

lado, age muito mais rápido – pode mudar o comportamento em poucos
minutos, que é a quintessência do aprendizado: ser capaz de se adaptar a
condições imprevisíveis o mais rápido possível.
É por isso que o aprendizado evoluiu. Com o tempo, os animais
que possuíam até mesmo uma capacidade rudimentar de aprender tiveram
uma chance melhor de sobreviver do que aqueles com comportamentos fixos
– e eles eram mais propensos a passar seu genoma (agora incluindo
algoritmos de aprendizado geneticamente controlados) para a próxima
geração. Dessa forma, a seleção natural favoreceu o surgimento do
aprendizado. O algoritmo evolucionário descobriu um bom truque: é útil deixar
certos parâmetros do corpo mudarem rapidamente para se ajustar aos
aspectos mais voláteis do ambiente.
Naturalmente, vários aspectos do mundo físico são estritamente
invariáveis: a gravitação é universal; a propagação da luz e do som não
muda da noite para o dia; e é por isso que não precisamos aprender a cultivar
ouvidos, olhos ou labirintos que, em nosso sistema vestibular, monitoram a
aceleração de nosso corpo — todas essas propriedades são geneticamente
programadas. No entanto, muitos outros parâmetros, como o espaçamento de
nossos dois olhos, o peso e o comprimento de nossos membros ou o tom de
nossa voz, variam, e é por isso que nosso cérebro deve se adaptar a eles.
Como veremos, nossos cérebros são o resultado de um compromisso –
herdamos, de nossa longa história evolutiva, uma grande quantidade de
circuitos inatos (codificando todas as amplas categorias intuitivas em que
subdividimos o mundo: imagens, sons, movimentos, objetos, animais,
pessoas...), mas também, talvez, em uma extensão ainda maior, algum
algoritmo de aprendizado altamente sofisticado que possa refinar essas
habilidades iniciais de acordo com nossa experiência.
HOMO DOCENS
Se eu tivesse que resumir, em uma palavra, os talentos singulares de nossa

espécie, responderia com “aprendizado”. Não somos simplesmente Homo
sapiens, mas Homo docens – a espécie que ensina a si mesma. A maior
parte do que sabemos sobre o mundo não nos foi dado por nossos genes:
tivemos que aprender com nosso ambiente ou com aqueles que nos cercam.
Nenhum outro animal conseguiu mudar tão radicalmente seu nicho ecológico,
movendo-se da savana africana para desertos, montanhas, ilhas, calotas polares,

cavernas, cidades e até mesmo o espaço sideral, tudo dentro de alguns milhares
de anos. O aprendizado alimentou tudo isso. Desde fazer fogo e projetar
ferramentas de pedra até agricultura, exploração e fissão atômica, a história da
humanidade é de constante auto-reinvenção. Na raiz de todas essas conquistas
está um segredo: a extraordinária capacidade de nosso cérebro de formular
hipóteses e selecionar aquelas que se encaixam em nosso ambiente.
Aprender é o triunfo de nossa espécie. Em nosso cérebro, bilhões de parâmetros

são livres para se adaptar ao nosso ambiente, nossa língua, nossa cultura, nossos
pais ou nossa comida. . . . Esses parâmetros são cuidadosamente escolhidos: ao
longo da evolução, o algoritmo darwiniano delineou cuidadosamente quais circuitos
cerebrais deveriam ser pré-conectados e quais deveriam ser deixados abertos para o
ambiente. Em nossa espécie, a contribuição do aprendizado é particularmente grande,
pois nossa infância se estende por muito mais anos do que para outros mamíferos. E
como possuímos um talento único para linguagem e matemática, nosso dispositivo
de aprendizado é capaz de navegar por vastos espaços de hipóteses que se
recombinam em conjuntos potencialmente infinitos – mesmo que sempre sejam
fundamentados em fundamentos fixos e invariáveis herdados de nossa evolução.
Mais recentemente, a humanidade descobriu que poderia aumentar ainda mais

essa notável habilidade com a ajuda de uma instituição: a sala de aula. A pedagogia
é um privilégio exclusivo de nossa espécie: nenhum outro animal ensina ativamente
sua prole reservando um tempo específico para monitorar seus progressos,
dificuldades e erros. A invenção da escola, instituição que sistematiza a educação
informal presente em todas as sociedades humanas, aumentou muito nosso
potencial cerebral. Descobrimos que podemos aproveitar a exuberante plasticidade
do cérebro infantil para incutir nele o máximo de informação e talento. Ao longo dos
séculos, nosso sistema escolar continuou a melhorar em eficiência, começando cada
vez mais cedo na infância e agora durando quinze anos ou mais. Um número
crescente de cérebros se beneficia do ensino superior.
As universidades são refinarias neurais onde nossos circuitos cerebrais adquirem

seus melhores talentos.
A educação é o principal acelerador do nosso cérebro. Não é difícil
para justificar sua presença nos primeiros lugares dos gastos governamentais:
sem ela, nossos circuitos corticais permaneceriam diamantes brutos. A

complexidade de nossa sociedade deve sua existência às múltiplas
melhorias que a educação traz ao nosso córtex: leitura, escrita, cálculo,
álgebra, música, noção de tempo e espaço, refinamento da memória. . . .
Você sabia, por exemplo, que a memória de curto prazo de uma pessoa
alfabetizada, o número de sílabas que ela pode repetir, é quase o dobro de
um adulto que nunca frequentou a escola e permaneceu analfabeto? Ou que
o QI aumenta vários pontos para cada ano adicional de educação e alfabetização?
APRENDENDO A APRENDER
A educação amplia as faculdades já consideráveis de nosso cérebro — mas

poderia ter um desempenho ainda melhor? Na escola e no trabalho,
constantemente mexemos nos algoritmos de aprendizado do nosso cérebro, mas
fazemos isso intuitivamente, sem prestar atenção em como aprender. Ninguém
jamais nos explicou as regras pelas quais nosso cérebro memoriza e entende
ou, ao contrário, esquece e comete erros. É realmente uma pena, porque o
conhecimento científico é extenso. Um excelente site, elaborado pela British
Education Endowment Foundation (EEF),3 lista as intervenções educacionais
mais bem-sucedidas – e dá uma classificação muito alta ao ensino da
metacognição (conhecer os poderes e limites do próprio cérebro). Aprender a
aprender é sem dúvida o fator mais importante para o sucesso acadêmico.
Felizmente, agora sabemos muito sobre como o aprendizado funciona.

Trinta anos de pesquisa, nas fronteiras da ciência da computação,
neurobiologia e psicologia cognitiva, elucidaram amplamente os algoritmos que
nosso cérebro usa, os circuitos envolvidos, os fatores que modulam sua eficácia
e as razões pelas quais são exclusivamente eficientes em humanos. Neste livro,
discutirei todos esses pontos sucessivamente. Quando você fechar este livro,
espero que saiba muito mais sobre seus próprios processos de aprendizagem.
Parece-me fundamental que cada criança e cada adulto percebam todo o
potencial de seu próprio cérebro e também, é claro, seus limites. A ciência
cognitiva contemporânea, através da dissecação sistemática de nossos algoritmos
mentais e mecanismos cerebrais, dá um novo significado ao famoso ditado
socrático “Conhece-te a ti mesmo”. Hoje, o ponto não é
mais apenas para aguçar nossa introspecção, mas para entender a

mecânica neuronal sutil que gera nossos pensamentos, na tentativa de
usá-los de acordo com nossas necessidades, objetivos e desejos.
A ciência emergente de como aprendemos é, naturalmente, de especial

relevância para todos aqueles para quem aprender é uma atividade
profissional: professores e educadores. Estou profundamente convencido
de que não se pode ensinar adequadamente sem possuir, implícita ou
explicitamente, um modelo mental do que está acontecendo na mente dos
alunos. Com que tipo de intuições eles começam? Que passos eles precisam
dar para seguir em frente? Que fatores podem ajudá-los a desenvolver suas
habilidades?
Embora a neurociência cognitiva não tenha todas as respostas, nós
começam a entender que todas as crianças começam a vida com uma
arquitetura cerebral semelhante — um cérebro de Homo sapiens ,
radicalmente diferente do de outros macacos. Não estou negando, é claro, que
nossos cérebros variam: as peculiaridades de nossos genomas, bem como os
caprichos do desenvolvimento inicial do cérebro, nos concedem forças e
velocidades de aprendizado ligeiramente diferentes. No entanto, o circuito
básico é o mesmo em todos nós, assim como a organização de nossos
algoritmos de aprendizado. Existem, portanto, princípios fundamentais que
qualquer professor deve respeitar para ser mais eficaz. Neste livro, veremos
muitos exemplos. Todas as crianças pequenas compartilham intuições
abstratas nos domínios da linguagem, aritmética, lógica e probabilidade,
fornecendo assim uma base sobre a qual o ensino superior deve ser
fundamentado. E todos os alunos se beneficiam de atenção focada,
engajamento ativo, feedback de erros e um ciclo de ensaio diário e consolidação
noturna – chamo esses fatores de “quatro pilares” do aprendizado, porque,
como veremos, eles estão na base do aprendizado. algoritmo universal de
aprendizagem humana presente em todos os nossos cérebros, crianças e adultos.
Ao mesmo tempo, nossos cérebros exibem variações individuais e, em
alguns casos extremos, uma patologia pode aparecer. A realidade das
patologias do desenvolvimento, como dislexia, discalculia, dispraxia e
distúrbios de atenção, não é mais motivo de dúvidas.
Felizmente, à medida que entendemos cada vez mais a
arquitetura comum da qual essas peculiaridades surgem, também
descobrimos que existem estratégias simples para detectá-las e compensá-
las. Um dos objetivos deste livro é difundir essa crescente ciência
conhecimento, para que cada professor, e também cada pai, possa adotar uma
estratégia de ensino ideal. Embora as crianças variem drasticamente no que
sabem, elas ainda compartilham os mesmos algoritmos de aprendizado.
Assim, os truques pedagógicos que funcionam melhor com todas as crianças
também são aqueles que tendem a ser os mais eficientes para crianças com
dificuldades de aprendizagem – eles devem ser aplicados apenas com maior
foco, paciência, sistematicidade e tolerância ao erro.
E o último ponto é crucial: embora o feedback de erros seja essencial,
muitas crianças perdem a confiança e a curiosidade porque seus erros são
punidos em vez de corrigidos. Nas escolas de todo o mundo, o feedback do
erro é muitas vezes sinônimo de punição e estigmatização — e mais adiante
neste livro terei muito a dizer sobre o papel das notas escolares na perpetuação
dessa confusão. As emoções negativas esmagam o potencial de aprendizado do
nosso cérebro, enquanto fornecer ao cérebro um ambiente livre de medo pode
reabrir os portões da plasticidade neuronal. Não haverá progresso na educação
sem considerar simultaneamente as facetas emocionais e cognitivas do nosso
cérebro – na neurociência cognitiva de hoje, ambas são consideradas ingredientes-
chave do coquetel de aprendizagem.
O DESAFIO DAS MÁQUINAS
Hoje, a inteligência humana enfrenta um novo desafio: não somos mais os únicos
campeões da aprendizagem. Em todas as áreas do conhecimento, os algoritmos
de aprendizado estão desafiando o status único de nossa espécie. Graças a
eles, os smartphones agora podem reconhecer rostos e vozes, transcrever fala,
traduzir idiomas estrangeiros, controlar máquinas e até jogar xadrez ou Go —
muito melhor do que nós. O aprendizado de máquina se tornou uma indústria de
bilhões de dólares cada vez mais inspirada por nossos cérebros. Como funcionam
esses algoritmos artificiais? Seus princípios podem nos ajudar a entender o que é
aprender? Eles já são capazes de imitar nossos cérebros ou ainda têm um longo
caminho a percorrer?
Embora os avanços atuais na ciência da computação sejam
fascinantes, seus limites são evidentes. Algoritmos convencionais de
aprendizado profundo imitam apenas uma pequena parte do funcionamento do
nosso cérebro, aquele que, eu argumento, corresponde aos primeiros estágios
do processamento sensorial, os primeiros duzentos ou trezentos milissegundos
durante os quais nosso cérebro opera de maneira inconsciente. Esse tipo de
o processamento não é superficial: em uma fração de segundo, nosso cérebro

pode reconhecer um rosto ou uma palavra, contextualizá-lo, entendê-lo e até
integrá-lo em uma pequena frase. . . . A limitação, porém, é que o processo
permanece estritamente de baixo para cima, sem nenhuma capacidade real de
reflexão. Somente nos estágios subsequentes, que são muito mais lentos, mais
conscientes e mais reflexivos, nosso cérebro consegue empregar todas as suas
habilidades de raciocínio, inferência e flexibilidade — características que as
máquinas de hoje ainda estão longe de igualar. Mesmo as arquiteturas de
computador mais avançadas ficam aquém da capacidade de qualquer criança
humana de construir modelos abstratos do mundo.
Mesmo dentro de seus campos de especialização – por exemplo, o

rápido reconhecimento de formas – os algoritmos modernos encontram um
segundo problema: eles são muito menos eficazes que nosso cérebro. O estado
da arte em aprendizado de máquina envolve a execução de milhões, até bilhões,
de tentativas de treinamento em computadores. De fato, o aprendizado de
máquina tornou-se praticamente sinônimo de big data: sem grandes conjuntos de
dados, os algoritmos têm dificuldade em extrair conhecimento abstrato que
generaliza para novas situações. Em outras palavras, eles não fazem o melhor
uso dos dados.
Nesse concurso, o cérebro infantil ganha com as mãos: os bebês não
precisam de mais de uma ou duas repetições para aprender uma nova palavra.
Seu cérebro aproveita ao máximo os dados extremamente escassos, uma
competência que ainda escapa aos computadores de hoje. Os algoritmos de
aprendizado neuronal geralmente chegam perto da computação ideal: eles
conseguem extrair a verdadeira essência da menor observação. Se os cientistas
da computação esperam alcançar o mesmo desempenho em máquinas, eles
terão que se inspirar nos muitos truques de aprendizado que a evolução integrou
em nosso cérebro: atenção, por exemplo, que nos permite selecionar e amplificar
informações relevantes; ou dormir, um algoritmo pelo qual nosso cérebro sintetiza
o que aprendeu nos dias anteriores. Novas máquinas com essas propriedades
estão começando a surgir e seu desempenho está melhorando constantemente -
elas, sem dúvida, competirão com nossos cérebros em um futuro próximo.
De acordo com uma teoria emergente, a razão pela qual nosso cérebro é
ainda superior às máquinas é que atua como estatístico. Ao atender
constantemente a probabilidades e incertezas, otimiza sua capacidade de
aprender. Durante sua evolução, nosso cérebro parece ter
adquiriu algoritmos sofisticados que constantemente rastreiam a incerteza

associada ao que aprendeu – e tal atenção sistemática às probabilidades é,
em um sentido matemático preciso, a maneira ideal de aproveitar ao máximo
cada informação . esta hipótese. Até bebês
entender as probabilidades: desde o nascimento, eles parecem estar

profundamente enraizados em seus circuitos cerebrais. As crianças agem
como pequenos cientistas iniciantes: seus cérebros estão repletos de
hipóteses, que se assemelham a teorias científicas que suas experiências
colocam à prova. Raciocinar com probabilidades, de maneira amplamente
inconsciente, está profundamente inscrito na lógica de nosso aprendizado. Ela
permite que qualquer um de nós rejeite gradualmente hipóteses falsas e
retenha apenas as teorias que dão sentido aos dados. E, ao contrário de
outras espécies animais, os humanos parecem usar esse senso de
probabilidades para adquirir teorias científicas do mundo exterior. Somente o
Homo sapiens consegue gerar sistematicamente pensamentos simbólicos
abstratos e atualizar sua plausibilidade diante de novas observações.
Algoritmos de computador inovadores estão começando a incorporar
essa nova visão de aprendizagem. Eles são chamados de “bayesianos”,
em homenagem ao reverendo Thomas Bayes (1702-1761), que delineou os
rudimentos dessa teoria já no século XVIII. Meu palpite é que os algoritmos
bayesianos revolucionarão o aprendizado de máquina – de fato, veremos que
eles já são capazes de extrair informações abstratas com uma eficiência
próxima à de um cientista humano.
•••
Nossa jornada para a ciência contemporânea da aprendizagem é uma viagem de

três partes.
Na primeira parte, intitulada “O que é aprender?”, começamos
definindo o que significa para humanos ou animais – ou mesmo qualquer
algoritmo ou máquina – aprender algo. A ideia é simples: aprender é formar
progressivamente, tanto no silício quanto nos circuitos neurais, um modelo
interno do mundo exterior. Quando ando por uma nova cidade, formo um mapa
mental de seu layout – um modelo em miniatura de suas ruas e passagens. Da
mesma forma, uma criança que está aprendendo a andar de bicicleta está
moldando, em seus circuitos neurais, uma simulação inconsciente de
como as ações nos pedais e guidão afetam a estabilidade da bicicleta. Da

mesma forma, um algoritmo de computador aprendendo a reconhecer
rostos está adquirindo modelos de modelos das várias formas possíveis de olhos,
narizes, bocas e suas combinações.
Mas como estabelecemos o modelo mental adequado? Como devemos
veja, a mente do aluno pode ser comparada a uma máquina gigante com
milhões de parâmetros ajustáveis cujas configurações definem coletivamente
o que é aprendido (por exemplo, onde as ruas provavelmente estarão em
nosso mapa mental do bairro). No cérebro, os parâmetros são as sinapses, as
conexões entre os neurônios, que podem variar em força; na maioria dos
computadores atuais, são os pesos ou probabilidades ajustáveis que especificam
a força de cada hipótese sustentável. A aprendizagem, tanto nos cérebros
quanto nas máquinas, requer, portanto, a busca de uma combinação ótima de
parâmetros que, juntos, definem o modelo mental em todos os detalhes. Nesse
sentido, o aprendizado é um problema de busca massivo — e para entender
como o aprendizado funciona no cérebro humano, ajuda muito examinar como
os algoritmos de aprendizado operam nos computadores atuais.
Ao comparar o desempenho dos algoritmos de computador com os do

cérebro, in silico versus in vivo, obteremos progressivamente uma imagem
mais nítida do que significa aprendizagem no nível cerebral. Com certeza,
matemáticos e cientistas da computação ainda não conseguiram projetar
algoritmos de aprendizado tão poderosos quanto o cérebro humano.
Mas eles estão começando a se concentrar em uma teoria do algoritmo
de aprendizado ideal que qualquer sistema deve usar se visar a maior
eficiência. De acordo com essa teoria, o melhor aprendiz opera como um
cientista que faz uso racional de probabilidades e estatísticas. Surge um novo
modelo: o do cérebro como estatístico, dos circuitos cerebrais como computação
com probabilidades. Essa teoria especifica uma clara divisão de trabalho entre
natureza e criação: os genes primeiro estabelecem vastos espaços de hipóteses
a priori - e o ambiente então seleciona as hipóteses que melhor correspondem
ao mundo externo. O conjunto de hipóteses é geneticamente especificado; sua
seleção depende da experiência.
Essa teoria corresponde a como o cérebro funciona? E como o aprendizado

é implementado em nossos circuitos biológicos? O que muda em nossos cérebros
quando adquirimos uma nova competência? Na segunda seção, “Como nosso
cérebro aprende”, vamos nos voltar para a psicologia e
neurociência. Vou me concentrar nos bebês, que são verdadeiras máquinas

de aprendizado sem rivais. Dados recentes mostram que os bebês são de fato
os estatísticos iniciantes previstos pela teoria. Sua notável intuição nos campos
da linguagem, geometria, números e estatística confirma que eles são tudo menos
uma lousa em branco, uma tabula rasa. Desde o nascimento, os circuitos cerebrais
das crianças já estão organizados e projetam hipóteses no mundo exterior. Mas
eles também têm uma margem considerável de plasticidade, que se reflete na
efervescência perpétua das mudanças sinápticas do cérebro. Dentro dessa
máquina estatística, natureza e criação, longe de se oporem, unem forças. O
resultado é um sistema estruturado, porém plástico, com uma capacidade
inigualável de se reparar diante de uma lesão cerebral e de reciclar seus circuitos
cerebrais para adquirir habilidades imprevistas pela evolução, como leitura ou
matemática.
Na terceira parte, “Os Quatro Pilares do Aprendizado”, detalho alguns dos

truques que tornam nosso cérebro o dispositivo de aprendizado mais eficaz
conhecido hoje. Quatro mecanismos essenciais, ou “pilares”, modulam
massivamente nossa capacidade de aprender. A primeira é a atenção: um
conjunto de circuitos neurais que selecionam, amplificam e propagam os sinais
que consideramos relevantes – multiplicando seu impacto em nossa memória por
cem. Meu segundo pilar é o engajamento ativo: um organismo passivo não
aprende quase nada, porque aprender exige uma geração ativa de hipóteses,
com motivação e curiosidade. O terceiro pilar, e o outro lado do engajamento
ativo, é o feedback do erro: sempre que somos surpreendidos porque o mundo
viola nossas expectativas, os sinais de erro se espalham por todo o nosso cérebro.
Eles corrigem nossos modelos mentais, eliminam hipóteses inadequadas e
estabilizam as mais precisas. Por fim, o quarto pilar é a consolidação: com o
tempo, nosso cérebro compila o que adquiriu e o transfere para a memória de
longo prazo, liberando assim recursos neurais para aprendizado posterior. A
repetição desempenha um papel essencial neste processo de consolidação.
Mesmo o sono, longe de ser um período de inatividade, é um momento privilegiado
em que o cérebro revisita seus estados passados, em ritmo mais acelerado, e
recodifica os conhecimentos adquiridos durante o dia.
Esses quatro pilares são universais: bebês, crianças e adultos de

todas as idades os empregam continuamente sempre que exercitam sua
capacidade de aprender. É por isso que todos devemos aprender a dominá-los - é
é como podemos aprender a aprender. Na conclusão, voltarei às

consequências práticas desses avanços científicos. Mudar nossas
práticas na escola, em casa ou no trabalho não é necessariamente tão
complicado quanto pensamos. Ideias muito simples sobre brincadeiras,
curiosidade, socialização, concentração e sono podem aumentar o que
já é o maior talento do nosso cérebro: aprender.
Parte um
O que é aprender?
Em sua essência, a inteligência pode ser vista como um

processo que converte informações não estruturadas em
conhecimento útil e acionável.
Demis Hassabis, fundador da empresa de IA DeepMind (2017)
C o que está aprendendo? Em muitas línguas latinas, a aprendizagem tem a

mesma raiz de apreender: apprendre em francês, aprender
em espanhol e português. . . . De fato, aprender é agarrar um fragmento da
realidade, capturá-lo e trazê-lo para dentro de nossos cérebros. Na ciência cognitiva,
dizemos que a aprendizagem consiste em formar um modelo interno do mundo. Por
meio do aprendizado, os dados brutos que atingem nossos sentidos se transformam
em ideias refinadas, abstratas o suficiente para serem reutilizadas em um novo
contexto – modelos de realidade em menor escala.
Nas páginas seguintes, revisaremos o que a inteligência artificial
e a ciência cognitiva nos ensinaram sobre como esses modelos internos surgem,
tanto em cérebros quanto em máquinas. Como a representação da informação
muda quando aprendemos? Como podemos entendê-lo em um nível comum a
qualquer organismo, humano, animal ou máquina? Ao revisar os vários truques que
os engenheiros projetaram para permitir que as máquinas aprendam, vamos
progressivamente evocar uma imagem mais nítida dos incríveis cálculos que os
bebês devem realizar enquanto aprendem a ver, falar e escrever. Na verdade, como
veremos, o cérebro infantil mantém a vantagem: apesar de seus sucessos, os atuais
algoritmos de aprendizado capturam apenas uma fração das habilidades do cérebro
humano. Entendendo exatamente onde a metáfora do aprendizado de máquina falha,
e onde até mesmo o cérebro de uma criança ainda supera o computador mais
poderoso, vamos delinear exatamente o que “aprender” significa.
CAPÍTULO 1
Sete Definições de Aprendizagem
O que significa “aprender”? Minha primeira e mais geral

definição é a seguinte: aprender é formar um modelo interno do mundo
externo.
Você pode não estar ciente disso, mas seu cérebro adquiriu
milhares de modelos internos do mundo exterior. Metaforicamente falando,
são como miniaturas de maquetes mais ou menos fiéis à realidade que
representam. Todos nós temos em nossos cérebros, por exemplo, um
mapa mental de nossa vizinhança e nossa casa – tudo o que temos a
fazer é fechar os olhos e visualizá-los com nossos pensamentos.
Obviamente, nenhum de nós nasceu com esse mapa mental – tivemos
que adquiri-lo por meio do aprendizado.
A riqueza desses modelos mentais, que são, na maioria
parte, inconsciente, excede nossa imaginação. Por exemplo, você
possui um vasto modelo mental da língua inglesa, que lhe permite entender
as palavras que está lendo agora e adivinhar que plastovski não é uma
palavra inglesa, enquanto swoon e wistful são, e dragostan poderia ser.
Seu cérebro também inclui vários modelos de seu corpo: ele os usa
constantemente para mapear a posição de seus membros e direcioná-los
enquanto mantém seu equilíbrio.
Outros modelos mentais codificam seu conhecimento de objetos e suas
interações com eles: saber como segurar uma caneta, escrever ou andar
de bicicleta. Outros até representam a mente dos outros: você possui um
vasto catálogo mental de pessoas próximas a você, suas aparências, suas
vozes, seus gostos e suas manias.
Esses modelos mentais podem gerar simulações hiper-realistas
do universo ao nosso redor. Você já percebeu que seu cérebro às
vezes projeta os mais autênticos reality shows virtuais, nos quais você
pode andar, se mexer, dançar, visitar novos lugares, ter
conversas, ou sente emoções fortes? Estes são os seus sonhos! É fascinante perceber
que todos os pensamentos que nos vêm em nossos sonhos, por mais complexos que
sejam, são simplesmente o produto de nossos modelos internos do mundo que correm
livremente.
Mas também sonhamos com a realidade quando estamos acordados: nosso
cérebro projeta constantemente hipóteses e estruturas interpretativas no mundo exterior.
Isso porque, sem que saibamos, toda imagem que aparece em nossa retina é ambígua
– sempre que vemos uma placa, por exemplo, a imagem é compatível com um número
infinito de elipses. Se vemos a placa como redonda, mesmo que os dados brutos dos
sentidos a retratem como uma oval, é porque nosso cérebro fornece dados adicionais:
ele aprendeu que a forma redonda é a interpretação mais provável. Nos bastidores,
nossas áreas sensoriais computam incessantemente com probabilidades, e apenas o
modelo mais provável chega à nossa consciência. São as projeções do cérebro que, em
última análise, dão sentido ao fluxo de dados que chega até nós a partir de nossos
sentidos. Na ausência de um modelo interno, as entradas sensoriais brutas
permaneceriam sem sentido.
A aprendizagem permite ao nosso cérebro captar um fragmento da realidade que

havia perdido anteriormente e usá-lo para construir um novo modelo de mundo.
Pode ser parte da realidade externa, como quando aprendemos história, botânica ou o
mapa de uma cidade, mas nosso cérebro também aprende a mapear a realidade interna
de nossos corpos, como quando aprendemos a coordenar nossas ações e concentrar
nossos pensamentos. para tocar violino. Em ambos os casos, nosso cérebro internaliza
um novo aspecto da realidade: ajusta seus circuitos para se apropriar de um domínio
que não dominava antes.
Esses ajustes, é claro, precisam ser bem inteligentes. O poder do
aprendizado está em sua capacidade de se ajustar ao mundo externo e corrigir erros
– mas como o cérebro do aprendiz “sabe” como atualizar seu modelo interno quando,
digamos, ele se perde em sua vizinhança, cai de sua bicicleta, perde uma partida de
xadrez ou escreve errado a palavra ecstasy? Vamos agora rever sete ideias-chave
que estão no cerne dos algoritmos de aprendizado de máquina atuais e que podem
se aplicar igualmente bem ao nosso cérebro – sete definições diferentes do que
significa “aprendizado”.
APRENDER É AJUSTAR OS PARÂMETROS DE UM MODELO MENTAL

Ajustar um modelo mental às vezes é muito simples. Como, por

exemplo, alcançamos um objeto que vemos? No século XVII, René
Descartes (1596-1650) já havia adivinhado que nosso sistema
nervoso deve conter circuitos de processamento que transformam
entradas visuais em comandos musculares (veja a figura na próxima
página). Você pode experimentar isso por si mesmo: tente pegar um
objeto enquanto estiver usando os óculos de outra pessoa, de preferência
alguém que seja muito míope. Melhor ainda, se você puder, pegue
prismas que desviem sua visão uma dúzia de graus para a esquerda e
tente pegar o objeto.1 Você verá que sua primeira tentativa está
completamente errada: por causa dos prismas, sua mão alcança o direito
do objeto que você está mirando. Gradualmente, você ajusta seus
movimentos para a esquerda. Através de tentativas e erros sucessivos,
seus gestos se tornam cada vez mais precisos, à medida que seu cérebro
aprende a corrigir o deslocamento de seus olhos. Agora tire os óculos e
pegue o objeto: você ficará surpreso ao ver que sua mão vai para o local
errado, agora muito para a esquerda!
Então o que aconteceu? Durante esse breve período de
aprendizado, seu cérebro ajustou seu modelo interno de visão. Um
parâmetro deste modelo, que corresponde ao deslocamento entre a cena
visual e a orientação do seu corpo, foi definido com um novo valor.
Durante esse processo de recalibração, que funciona por tentativa e erro,
o que seu cérebro fez pode ser comparado ao que um caçador faz para
ajustar o visor de seu rifle: ele faz um tiro de teste, depois o usa para
ajustar sua mira, disparando assim progressivamente mais e com mais
precisão. Esse tipo de aprendizado pode ser muito rápido: algumas
tentativas são suficientes para corrigir a lacuna entre visão e ação. No
entanto, a nova configuração de parâmetros não é compatível com a
antiga – daí o erro sistemático que todos cometemos quando removemos
os prismas e voltamos à visão normal.
O que é aprender? Aprender é ajustar os parâmetros de um modelo interno. Aprender a

mirar com o dedo, por exemplo, consiste em estabelecer o deslocamento entre visão e
ação: cada erro de mira fornece informações úteis que permitem reduzir a distância. Nas
redes neurais artificiais, embora o número de configurações seja muito maior, a lógica é a
mesma. Reconhecer um personagem requer o ajuste fino de milhões de conexões.
Novamente, cada erro – aqui, a ativação incorreta da saída “8” – pode ser retropropagado
e usado para ajustar os valores das conexões, melhorando assim o desempenho no próximo teste.
Inegavelmente, esse tipo de aprendizado é um pouco particular,

pois requer o ajuste de apenas um único parâmetro (ângulo de visão).
A maior parte do nosso aprendizado é muito mais elaborada
e requer o ajuste de dezenas, centenas ou mesmo milhares
de milhões de parâmetros (cada sinapse no circuito cerebral
relevante). O princípio, porém, é sempre o mesmo: resume-se a pesquisar,
entre uma miríade de configurações possíveis do modelo interno, para

aquelas que melhor correspondem ao estado do mundo externo.
Uma criança nasce em Tóquio. Nos próximos dois ou três anos, seu
modelo interno de linguagem terá que se adequar às características da língua
japonesa. O cérebro deste bebê é como uma máquina com milhões de
configurações em cada nível. Algumas dessas configurações, no nível
auditivo, determinam qual inventário de consoantes e vogais é usado em
japonês e as regras que permitem que elas sejam combinadas. Um bebê
nascido em uma família japonesa deve descobrir quais fonemas compõem as
palavras japonesas e onde colocar os limites entre esses sons. Um dos
parâmetros, por exemplo, diz respeito à distinção entre os sons /R/ e /L/: esse
é um contraste crucial em inglês, mas não em japonês, que não faz distinção
entre a eleição de Bill Clinton e sua ereção. . . . Cada bebê deve, assim, fixar
um conjunto de parâmetros que especificam coletivamente quais categorias
de sons da fala são relevantes para sua língua nativa.
Um procedimento de aprendizado semelhante é duplicado em cada

nível, de padrões sonoros a vocabulário, gramática e significado. O cérebro
é organizado como uma hierarquia de modelos da realidade, cada um
aninhado no outro como bonecas russas – e aprender significa usar os dados
recebidos para definir os parâmetros em todos os níveis dessa hierarquia.
Vamos considerar um exemplo de alto nível: a aquisição de regras gramaticais.
Outra diferença fundamental que o bebê deve aprender, entre japonês e
inglês, diz respeito à ordem das palavras. Em uma frase canônica com um
sujeito, um verbo e um objeto direto, a língua inglesa primeiro declara o
sujeito, depois o verbo e, finalmente, seu objeto: “John + eats + an apple”. Em
japonês, por outro lado, a ordem mais comum é sujeito, depois objeto e
depois verbo: “João + uma maçã + come”. O que é notável é que a ordem
também é invertida para preposições (que logicamente se tornam pós-
posições), possessivos e muitas outras partes do discurso. A frase “Meu tio
quer trabalhar em Boston”, torna-se assim uma bobagem digna de Yoda de
Star Wars: “Tio meu, Boston em, trabalho quer” – o que faz todo o sentido
para um falante de japonês.
Fascinantemente, essas inversões não são independentes umas

das outras. Os linguistas pensam que eles surgem da definição de um único
parâmetro chamado “posição da cabeça”: a palavra definidora de um
A frase, sua cabeça, é sempre colocada em primeiro lugar em inglês

(em Paris, meu tio, quer viver), mas por último em japonês (Paris em, tio
meu, vive quer). Esse parâmetro binário distingue muitos idiomas, mesmo
alguns que não estão historicamente vinculados (o idioma Navajo, por
exemplo, segue as mesmas regras do japonês). Para aprender inglês ou
japonês, uma das coisas que uma criança deve descobrir é como definir o
parâmetro de posição da cabeça em seu modelo de idioma interno.
APRENDER É EXPLORAR UMA EXPLOSÃO COMBINATÓRIA
A aprendizagem de línguas pode realmente ser reduzida ao

estabelecimento de alguns parâmetros? Se isso parece difícil de
acreditar, é porque não conseguimos entender o número extraordinário
de possibilidades que se abrem assim que aumentamos o número de
parâmetros ajustáveis. Isso é chamado de “explosão combinatória” – o
aumento exponencial que ocorre quando você combina até mesmo um
pequeno número de possibilidades. Suponha que a gramática das
línguas do mundo possa ser descrita por cerca de cinquenta parâmetros
binários, como postulam alguns linguistas. Isso produz 250 combinações,
que são mais de um milhão de bilhões de idiomas possíveis, ou 1 seguido
por quinze zeros! As regras sintáticas das três mil línguas do mundo cabem
facilmente nesse gigantesco espaço. No entanto, em nosso cérebro, não
existem apenas cinquenta parâmetros ajustáveis, mas um número
surpreendentemente maior: oitenta e seis bilhões de neurônios, cada um
com cerca de dez mil contatos sinápticos cuja força pode variar. O espaço
de representações mentais que se abre é praticamente infinito.
As linguagens humanas exploram fortemente essas combinações
em todos os níveis. Considere, por exemplo, o léxico mental: o conjunto
de palavras que conhecemos e cujo modelo carregamos conosco. Cada um
de nós aprendeu cerca de cinquenta mil palavras com os mais diversos
significados. Parece um léxico enorme, mas conseguimos adquiri-lo em
cerca de uma década porque podemos decompor o problema de
aprendizagem. De fato, considerando que essas cinquenta mil palavras são
em média duas sílabas, cada uma composta por cerca de três fonemas,
retirados dos quarenta e quatro fonemas em inglês, a codificação binária de
todas essas palavras requer menos de dois milhões de opções binárias
elementares (“bits, ” cujo valor é 0 ou 1). Em outros
palavras, todo o nosso conhecimento do dicionário caberia em um pequeno arquivo

de computador de 250 kilobytes (cada byte compreendendo oito bits).
Esse léxico mental poderia ser comprimido a um tamanho ainda menor se
levarmos em conta as muitas redundâncias que governam as palavras.
Desenhar seis letras aleatoriamente, como “xfdrga”, não gera uma palavra em
inglês. As palavras reais são compostas por uma pirâmide de sílabas que são
montadas de acordo com regras estritas. E isso é verdade em todos os níveis:
frases são coleções regulares de palavras, que são coleções regulares de sílabas,
que são coleções regulares de fonemas. As combinações são vastas (porque se
escolhe entre várias dezenas ou centenas de elementos) e limitadas (porque
apenas certas combinações são permitidas). Aprender uma língua é descobrir os
parâmetros que regem essas combinações em todos os níveis.
Em resumo, o cérebro humano decompõe o problema de

aprendendo criando um modelo hierárquico multinível. Isso é particularmente
óbvio no caso da linguagem, dos sons elementares à frase inteira ou mesmo
ao discurso – mas o mesmo princípio de decomposição hierárquica é
reproduzido em todos os sistemas sensoriais. Algumas áreas do cérebro capturam
padrões de baixo nível: elas veem o mundo através de uma janela temporal e
espacial muito pequena, analisando assim os menores padrões. Por exemplo, na
área visual primária, a primeira região do córtex a receber estímulos visuais, cada
neurônio analisa apenas uma porção muito pequena da retina. Ele vê o mundo
através de um orifício e, como resultado, descobre regularidades de nível muito
baixo, como a presença de uma linha oblíqua em movimento. Milhões de neurônios
fazem o mesmo trabalho em diferentes pontos da retina, e suas saídas tornam-se
as entradas do próximo nível, que assim detecta “regularidades de regularidades”, e
assim por diante. Em cada nível, a escala se amplia: o cérebro busca regularidades
em escalas cada vez mais vastas, tanto no tempo quanto no espaço. Dessa
hierarquia emerge a capacidade de detectar objetos ou conceitos cada vez mais
complexos: uma linha, um dedo, uma mão, um braço, um corpo humano. . . não,
espera, dois, são duas pessoas de frente uma para a outra, um aperto de mão. . . .
É o primeiro encontro Trump-Macron!
APRENDER É MINIMIZAR ERROS

Os algoritmos de computador que chamamos de “redes neurais artificiais”

são diretamente inspirados na organização hierárquica do córtex.
Como o córtex, eles contêm uma pirâmide de camadas sucessivas, cada uma
das quais tenta descobrir regularidades mais profundas do que a anterior. Como
essas camadas consecutivas organizam os dados de entrada de maneiras cada
vez mais profundas, elas também são chamadas de “redes profundas”.
Cada camada, por si só, é capaz de descobrir apenas uma parte
extremamente simples da realidade externa (os matemáticos falam de um
problema linearmente separável, ou seja, cada neurônio pode separar esses
dados em apenas duas categorias, A e B, traçando uma linha reta por eles).
Monte muitas dessas camadas, no entanto, e você terá um dispositivo de
aprendizado extremamente poderoso, capaz de descobrir estruturas complexas
e se ajustar a problemas muito diversos. As redes neurais artificiais de hoje, que
aproveitam os avanços dos chips de computador, também são profundas, no
sentido de que contêm dezenas de camadas sucessivas. Essas camadas
tornam-se cada vez mais perspicazes e capazes de identificar propriedades
abstratas quanto mais distantes estiverem da entrada sensorial.
Tomemos o exemplo do algoritmo LeNet, criado pelo pioneiro francês

das redes neurais, Yann LeCun (veja a figura 2 no encarte colorido).2 Já na
década de 1990, essa rede neural obteve desempenho notável no reconhecimento
de caracteres manuscritos. Durante anos, o Canada Post o usou para processar
automaticamente códigos postais manuscritos. Como funciona? O algoritmo
recebe a imagem de um caractere escrito como entrada, na forma de pixels, e
propõe, como saída, uma tentativa de interpretação: um dos dez dígitos
possíveis ou vinte e seis letras. A rede artificial contém uma hierarquia de
unidades de processamento que se parecem um pouco com neurônios e formam
camadas sucessivas. As primeiras camadas são conectadas diretamente com
a imagem: aplicam filtros simples que reconhecem linhas e fragmentos de
curvas. As camadas superiores na hierarquia, no entanto, contêm filtros mais
amplos e complexos. Unidades de nível superior podem, portanto, aprender a
reconhecer porções cada vez maiores da imagem: a curva de um 2, o loop de
um O ou as linhas paralelas de . . . até chegarmos, no nível de saída, aos
neurônios artificiais que um Z responde a um caractere independentemente de
impostas
sua posição,
por um programador:
fonte ou maiúsculas.
elas resultam
Todas inteiramente
essas propriedades
dos milhões
não são
de
conexões que ligam as unidades. Esses
As conexões, uma vez ajustadas por um algoritmo automatizado, definem o

filtro que cada neurônio aplica às suas entradas: suas configurações explicam
por que um neurônio responde ao número 2 e outro ao número 3.
Como esses milhões de conexões são ajustados? Assim como no caso

dos óculos de prisma! Em cada tentativa, a rede dá uma resposta provisória, é
informada se cometeu um erro e ajusta seus parâmetros para tentar reduzir
esse erro na próxima tentativa. Cada resposta errada fornece informações
valiosas. Com seu sinal (como um gesto muito para a direita ou muito para a
esquerda), o erro informa ao sistema o que ele deveria ter feito para ter sucesso.
Voltando à origem do erro, a máquina descobre como os parâmetros deveriam
ter sido configurados para evitar o erro.
Vamos revisitar o exemplo do caçador ajustando a mira de seu rifle.

O processo de aprendizagem é elementar. O caçador atira e descobre que
apontou cinco centímetros para a direita. Ele agora tem informações
essenciais, tanto sobre a amplitude (cinco centímetros) quanto sobre o sinal do
erro (muito para a direita). Esta informação permite-lhe corrigir a sua tacada. Se
ele for um pouco esperto, ele pode inferir em qual direção fazer a correção: se
a bala desviou para a direita, ele deve deslocar a mira um fio de cabelo para a
esquerda. Mesmo que ele não seja tão astuto, ele pode tentar casualmente uma
mira diferente e testar se, se ele virar a mira para a direita, o deslocamento
aumenta ou diminui. Dessa forma, por tentativa e erro, o caçador pode descobrir
progressivamente qual ajuste reduz o tamanho da lacuna entre o alvo pretendido
e o tiro real.
Ao modificar sua visão para maximizar sua precisão, nosso corajoso

caçador está aplicando um algoritmo de aprendizado sem nem mesmo saber.
Ele está calculando implicitamente o que os matemáticos chamam
de “derivada”, ou gradiente, do sistema, e está usando o “algoritmo de descida
de gradiente”: ele aprende a mover o visor de seu rifle na direção mais
eficiente, aquela que reduz a probabilidade de fazer um erro.
A maioria das redes neurais artificiais usadas em redes artificiais atuais

a inteligência, apesar de seus milhões de entradas, saídas e
parâmetros ajustáveis, opera exatamente como nosso proverbial caçador: eles
observam seus erros e os usam para ajustar seu estado interno na direção que
eles sentem ser mais capazes de reduzir os erros. Dentro
muitos casos, esse aprendizado é rigidamente orientado. Dizemos à rede

exatamente qual resposta ela deveria ter ativado na saída (“é um 1, não um
7”) e sabemos precisamente em qual direção ajustar os parâmetros se eles
levarem a um erro (um cálculo matemático faz com que seja possível saber
exatamente quais conexões modificar quando a rede ativa a saída “7” com
muita frequência em resposta a uma imagem do número 1). Na linguagem
do aprendizado de máquina, essa situação é conhecida como “aprendizado
supervisionado” (porque alguém, que pode ser comparado a um supervisor,
sabe a resposta correta que o sistema deve dar) e “retropropagação de
erro” (porque os sinais de erro são enviados de volta ao rede para modificar
seus parâmetros). O procedimento é simples: tento uma resposta, me dizem
o que deveria ter respondido, meço meu erro e ajusto meus parâmetros para
reduzi-lo. A cada passo, faço apenas uma pequena correção na direção certa.
É por isso que esse aprendizado baseado em computador pode ser
incrivelmente lento: aprender uma atividade complexa, como jogar Tetris,
requer aplicar essa receita milhares, milhões e até bilhões de vezes. Em um
espaço que inclui uma infinidade de parâmetros ajustáveis, pode levar muito
tempo para descobrir a configuração ideal para cada porca e parafuso.
As primeiras redes neurais artificiais, na década de 1980, já

operavam com esse princípio de correção gradual de erros.
Os avanços na computação tornaram possível estender essa ideia para
redes neurais gigantescas, que incluem centenas de milhões de conexões
ajustáveis. Essas redes neurais profundas são compostas por uma sucessão
de estágios, cada um dos quais se adapta ao problema em questão. Por
exemplo, a figura 4 no encarte colorido mostra o sistema GoogLeNet, derivado
da arquitetura LeNet proposta pela primeira vez por LeCun e que ganhou um
dos mais importantes concursos internacionais de reconhecimento de imagem.
Exposto a bilhões de imagens, esse sistema aprendeu a separá-las em mil
categorias distintas, como rostos, paisagens, barcos, carros, cachorros,
insetos, flores, placas de trânsito etc. Cada nível de sua hierarquia tornou-se
sintonizado com um aspecto útil da realidade: unidades de baixo nível
respondem seletivamente a linhas ou texturas, mas quanto mais alto você
sobe na hierarquia, mais neurônios aprendem a responder a recursos
complexos, como geometria formas (círculos, curvas,
estrelas. . .), partes de objetos (um bolso de calça, uma maçaneta de carro, um
par de olhos...), ou mesmo objetos inteiros (prédios, rostos, aranhas...).3 Ao
tentar minimizar os erros, o gradiente descendente algoritmo descobriu que
esses formulários são os mais úteis para categorizar imagens. Mas se a mesma
rede tivesse sido exposta a passagens de livros ou partituras, ela teria se ajustado
de uma maneira diferente e aprendido a reconhecer letras, notas ou quaisquer
formas recorrentes no novo ambiente. A Figura 3 na inserção colorida, por
exemplo, mostra como uma rede desse tipo se auto-organiza para reconhecer
milhares de dígitos manuscritos.4 No nível mais baixo, os dados são misturados:
algumas imagens são superficialmente semelhantes, mas devem ser distinguidas
(pense de um 3 e um 8), e inversamente, algumas imagens que parecem muito
diferentes devem ser colocadas na mesma caixa (pense nas muitas versões do
dígito 8, com o loop superior aberto ou fechado, etc.). Em cada estágio, a rede
neural artificial progride em abstração até que todas as instâncias do mesmo
caractere sejam agrupadas corretamente. Através do procedimento de redução
de erros, descobriu-se uma hierarquia de características mais relevantes para o
problema de reconhecimento de dígitos manuscritos. De fato, é bastante notável
que, simplesmente corrigindo os próprios erros, seja possível descobrir todo um
conjunto de pistas apropriadas para o problema em questão.
Hoje, o conceito de aprendizado por retropropagação de erros

permanece no centro de muitos aplicativos de computador. Este é o cavalo
de batalha que está por trás da capacidade do seu smartphone de reconhecer
sua voz, ou a percepção emergente de pedestres e sinais de trânsito do seu
carro inteligente - e, portanto, é muito provável que nosso cérebro use uma
versão dela ou outra. No entanto, a retropropagação de erros vem em vários
sabores. O campo da inteligência artificial fez enormes avanços em trinta anos,
e os pesquisadores descobriram muitos truques que facilitam o aprendizado.
Agora vamos revisá-los – como veremos, eles também nos dizem muito sobre
nós mesmos e a maneira como aprendemos.
APRENDER É EXPLORAR O ESPAÇO DE POSSIBILIDADES
Um dos problemas com o procedimento de correção de erros que acabei

de descrever é que ele pode ficar preso em um conjunto de parâmetros que não é
ao melhor. Imagine uma bola de golfe rolando no green, sempre na linha

do declive mais acentuado: ela pode ficar presa em uma pequena
depressão no solo, impedindo-a de chegar ao ponto mais baixo de toda a
paisagem, o óptimo absoluto. Da mesma forma, o algoritmo de descida de
gradiente às vezes fica preso em um ponto em que não pode sair. Isso é
chamado de “mínimo local”: um poço no espaço de parâmetros, uma
armadilha da qual o algoritmo de aprendizado não pode escapar porque
parece impossível fazer melhor. Nesse momento, o aprendizado fica
travado, porque todas as mudanças parecem contraproducentes: cada uma
delas aumenta a taxa de erro. O sistema sente que aprendeu tudo o que
pode. Ele permanece cego para a presença de configurações muito
melhores, talvez a apenas alguns passos de distância no espaço de
parâmetros. O algoritmo de descida do gradiente não os “vê” porque se
recusa a subir a corcova para voltar para o outro lado do mergulho.
Imediato, ele se aventura apenas a uma pequena distância de seu
ponto de partida e pode, portanto, perder configurações melhores, mas
distantes.
O problema parece muito abstrato para você? Pense em uma
situação concreta: você vai fazer compras em um mercado de alimentos,
onde passa algum tempo procurando os produtos mais baratos. Você anda
por um corredor, passa pelo primeiro vendedor (que parece superfaturado),
evita o segundo (que é sempre muito caro) e finalmente para no terceiro
estande, que parece muito mais barato que os anteriores. Mas quem pode
dizer que em um corredor, ou talvez até na próxima cidade, os preços não
seriam ainda mais atraentes? Focar no melhor preço local não garante
encontrar o mínimo global .
Freqüentemente confrontados com essa dificuldade, os cientistas da
computação empregam uma panóplia de truques. A maioria deles consiste
em introduzir um pouco de aleatoriedade na busca dos melhores parâmetros.
A ideia é simples: em vez de olhar em apenas um corredor do mercado, dê
um passo ao acaso; e em vez de deixar a bola rolar suavemente pela
encosta, agite-a, reduzindo assim a chance de ficar presa em uma calha.
Ocasionalmente, algoritmos de busca estocástica tentam uma configuração
distante e parcialmente aleatória, de modo que, se uma solução melhor
estiver ao alcance, eles tenham a chance de encontrá-la. Na prática, pode-
se introduzir algum grau de aleatoriedade de várias maneiras: definindo ou
atualizando os parâmetros aleatoriamente, diversificando a ordem dos
exemplos, adicionando algum ruído aos dados ou usando apenas um
fração das conexões — todas essas ideias melhoram a robustez do

aprendizado.
Alguns algoritmos de aprendizado de máquina também se inspiram
do algoritmo darwiniano que governa a evolução das espécies:
durante a otimização de parâmetros, eles introduzem mutações e
cruzamentos aleatórios de soluções previamente descobertas. Como na
biologia, a taxa dessas mutações deve ser cuidadosamente controlada para
explorar novas soluções sem perder muito tempo em tentativas perigosas.
Outro algoritmo é inspirado nas forjas de ferreiro, onde os artesãos

aprenderam a otimizar as propriedades do metal “recozindo-o”. Aplicado
quando se deseja forjar uma espada excepcionalmente forte, o método
de recozimento consiste em aquecer o metal várias vezes, em
temperaturas cada vez mais baixas, para aumentar a chance de os átomos
se organizarem em uma configuração regular. O processo agora foi
transposto para a informática: o algoritmo de recozimento simulado introduz
mudanças aleatórias nos parâmetros, mas com uma “temperatura” virtual
que diminui gradualmente. A probabilidade de um evento casual é alta no
início, mas diminui constantemente até que o sistema seja congelado em
uma configuração ideal.
Cientistas da computação descobriram que todos esses

truques são notavelmente eficazes – então talvez não seja surpresa que,
no curso da evolução, alguns deles tenham sido internalizados em nossos
cérebros. Exploração aleatória, curiosidade estocástica e disparo neuronal
barulhento desempenham um papel essencial no aprendizado do Homo
sapiens. Quer estejamos jogando pedra, papel, tesoura; improvisar sobre
um tema de jazz; ou explorando as soluções possíveis para um problema
matemático, a aleatoriedade é um ingrediente essencial de uma solução.
Como veremos, sempre que as crianças entram em modo de aprendizagem
– isto é, quando brincam – exploram dezenas de possibilidades com uma
boa dose de aleatoriedade. E durante a noite, seus cérebros continuam
fazendo malabarismos com as ideias até encontrarem uma que melhor
explique o que eles experimentaram durante o dia. Na terceira seção deste
livro, voltarei ao que sabemos sobre o algoritmo semi-aleatório que governa
a extraordinária curiosidade das crianças — e dos raros adultos que
conseguiram manter a mente de uma criança.
APRENDER É OTIMIZAR UMA FUNÇÃO DE RECOMPENSA
Lembre-se do sistema LeNet da LeCun, que reconhece as formas dos números?

Para aprender, esse tipo de rede neural artificial precisa receber as respostas
corretas. Para cada imagem de entrada, ele precisa saber a qual dos dez números
possíveis ela corresponde. A rede pode se corrigir apenas calculando a diferença
entre sua resposta e a resposta correta. Esse procedimento é conhecido como
“aprendizado supervisionado”: um supervisor, fora do sistema, conhece a solução
e tenta ensiná-la à máquina.
Isso é eficaz, mas deve-se notar que essa situação, em que a resposta certa é
conhecida antecipadamente, é bastante rara. Quando as crianças aprendem a
andar, ninguém lhes diz exatamente quais músculos devem contrair - elas são
simplesmente encorajadas repetidamente até que não caiam mais. Os bebês
aprendem apenas com base em uma avaliação do resultado: eu caí ou, pelo
contrário, finalmente consegui atravessar a sala.
A inteligência artificial enfrenta o mesmo “aprendizado não supervisionado”
problema. Quando uma máquina aprende a jogar um videogame, por
exemplo, a única coisa que lhe é dita é que ela deve tentar atingir a pontuação
mais alta. Ninguém diz com antecedência quais ações específicas precisam ser
tomadas para conseguir isso. Como ele pode descobrir rapidamente por si mesmo
a maneira correta de fazer isso?
Os cientistas responderam a esse desafio inventando o “aprendizado
por reforço”, pelo qual não fornecemos ao sistema nenhum detalhe sobre o que
ele deve fazer (ninguém sabe!), mas apenas uma “recompensa”, uma avaliação
na forma de um quantitativo. score.5 Pior ainda, a máquina pode receber sua
pontuação após um atraso, muito depois das ações decisivas que levaram a ela.
Esse aprendizado por reforço atrasado é o princípio pelo qual a empresa
DeepMind, uma subsidiária do Google, criou uma máquina capaz de jogar xadrez,
damas e Go. O problema é colossal por uma razão simples: é apenas no final que
o sistema recebe um único sinal de recompensa, indicando se o jogo foi ganho ou
perdido. Durante o jogo em si, o sistema não recebe nenhum feedback – apenas
o xeque-mate final conta. Como, então, o sistema pode descobrir o que fazer em
um determinado momento? E, uma vez conhecida a pontuação final, como a
máquina pode avaliar retrospectivamente suas decisões?
O truque que os cientistas da computação descobriram é programar o

máquina fazer duas coisas ao mesmo tempo: agir e
Avalie. Metade do sistema, chamado de “crítico”, aprende a prever a pontuação

final. O objetivo dessa rede de neurônios artificiais é avaliar, com a maior precisão
possível, o estado do jogo, a fim de prever a recompensa final: estou ganhando
ou perdendo? Meu equilíbrio está estável ou estou prestes a cair? Graças a essa
crítica que surge nessa metade da máquina, o sistema pode avaliar suas ações
a cada momento e não apenas no final. A outra metade da máquina, o ator, pode
então usar essa avaliação para se corrigir: Espere! É melhor evitar esta ou
aquela ação, porque o crítico acha que aumentará minhas chances de perder.
Julgamento após julgamento, o ator e o crítico progridem juntos: um

aprende a agir com sabedoria, focando nas ações mais eficazes, enquanto o
outro aprende a avaliar, cada vez mais nitidamente, as consequências desses
atos. No final, ao contrário do famoso cara que cai de um arranha-céu e
exclama: “Até agora, tudo bem”, a rede ator-crítico se torna dotada de uma
presciência notável: a capacidade de prever, dentro dos vastos mares do ainda
não -jogos perdidos, aqueles que provavelmente serão vencidos e aqueles que
levarão apenas ao desastre.
A combinação ator-crítico é uma das mais eficazes
estratégias da inteligência artificial contemporânea. Quando apoiado por uma
rede neural hierárquica, faz maravilhas. Já na década de 1980, permitiu que
uma rede neural ganhasse a copa do mundo de gamão. Mais recentemente,
permitiu que a DeepMind criasse uma rede neural multifuncional capaz de
aprender a jogar todos os tipos de videogames, como Super Mario e Tetris. 6
Basta dar a esse sistema os pixels da imagem como entrada, as ações possíveis
como saída e a pontuação do jogo como função de recompensa. A máquina
aprende todo o resto. Quando joga Tetris, descobre que a tela é feita de formas,
que a que está caindo é mais importante que as outras, que várias ações podem
mudar sua orientação e sua posição, e assim por diante – até que a máquina se
transforme em um jogador artificial de eficácia formidável.
E quando joga Super Mario, a mudança de entradas e recompensas o ensina

a atender a configurações completamente diferentes: quais pixels formam o
corpo de Mario, como ele se move, onde estão os inimigos, as formas das
paredes, portas, armadilhas, bônus. . . e como agir diante de cada um deles.
Ajustando seus parâmetros, ou seja, os milhões de conexões que unem as
camadas, uma única rede pode
adapte-se a todos os tipos de jogos e aprenda a reconhecer as formas de

Tetris, Pac-Man ou Sonic the Hedgehog.
Qual é o objetivo de ensinar uma máquina a jogar videogame?
Dois anos depois, os engenheiros da DeepMind usaram o que aprenderam
jogando para resolver um problema econômico de interesse vital: como o
Google deve otimizar o gerenciamento de seus servidores de computador? A
rede neural artificial permaneceu semelhante; as únicas coisas que mudaram
foram as entradas (data, hora, clima, eventos internacionais, solicitações de
pesquisa, número de pessoas conectadas a cada servidor, etc.), as saídas
(ligar ou desligar este ou aquele servidor em vários continentes) e a função de
recompensa (consumir menos energia). O resultado foi uma queda instantânea
no consumo de energia.
O Google reduziu sua conta de energia em até 40% e economizou dezenas de
milhões de dólares — mesmo depois de inúmeros engenheiros especializados
já terem tentado otimizar esses mesmos servidores. A inteligência artificial
realmente atingiu níveis de sucesso que podem virar indústrias inteiras de
cabeça para baixo.
DeepMind alcançou feitos ainda mais incríveis. Como todos
provavelmente sabe, seu programa AlphaGo conseguiu vencer o campeão
mundial dezoito vezes Lee Sedol no jogo de Go, considerado até muito
recentemente o Everest da inteligência artificial . lado, para um total de 361
lugares onde as peças pretas e brancas podem ser jogadas. O número de
combinações é tão grande que é estritamente impossível explorar
sistematicamente todos os movimentos futuros disponíveis para cada jogador.
E, no entanto, o aprendizado por reforço permitiu que o software AlphaGo
reconhecesse combinações favoráveis e desfavoráveis melhor do que qualquer
jogador humano. Um dos muitos truques era fazer com que o sistema jogasse
contra si mesmo, assim como um jogador de xadrez treina jogando branco e
preto. A ideia é simples: ao final de cada jogo, o software vencedor fortalece
suas ações, enquanto o perdedor as enfraquece – mas ambos também
aprenderam a avaliar seus movimentos com mais eficiência.
Nós alegremente zombamos do Barão Munchausen, que, em suas

lendárias aventuras, tenta tolamente voar para longe, puxando suas
botas. Na inteligência artificial, no entanto, o método louco de Munchausen
deu origem a uma estratégia bastante sofisticada, apropriadamente chamada
de “bootstrapping” – pouco a pouco, partindo de um
arquitetura desprovida de conhecimento, uma rede neural pode se tornar

campeã mundial, simplesmente jogando contra si mesma.
Essa ideia de aumentar a velocidade de aprendizado permitindo que
duas redes colaborem – ou, ao contrário, compitam – continua a levar a
grandes avanços em inteligência artificial. Uma das ideias mais recentes,
chamada de “aprendizagem adversária”,8 consiste em treinar dois sistemas
oponentes: um que aprende a se tornar um especialista (digamos, nas pinturas
de Van Gogh) e outro cujo único objetivo é fazer o primeiro falhar (por aprendendo
a se tornar um brilhante falsificador de falsos Van Goghs). O primeiro sistema
recebe um bônus sempre que identifica com sucesso uma pintura genuína de
Van Gogh, enquanto o segundo é recompensado sempre que consegue enganar
o olho especialista do outro. Esse algoritmo de aprendizado adversário produz
não apenas uma, mas duas inteligências artificiais: uma autoridade mundial em
Van Gogh, apaixonada pelos mínimos detalhes que podem autenticar uma
verdadeira pintura do mestre, e um falsificador genial, capaz de produzir pinturas
que podem enganar o melhor de todos. especialistas. Esse tipo de treinamento
pode ser comparado à preparação para um debate presidencial: um candidato
pode aprimorar seu treinamento contratando alguém para imitar as melhores
falas de seu oponente.
Essa abordagem poderia se aplicar a um único cérebro humano? Nossos
dois hemisférios e numerosos núcleos subcorticais também abrigam toda
uma coleção de especialistas que lutam, coordenam e avaliam uns aos
outros. Algumas áreas do nosso cérebro aprendem a simular o que os outros
estão fazendo; permitem-nos prever e imaginar os resultados das nossas acções,
por vezes com um realismo digno dos melhores falsificadores: a nossa memória
e imaginação podem fazer-nos ver a baía à beira-mar onde nadamos no verão
passado, ou a maçaneta da porta que agarramos no escuro . Algumas áreas
aprendem a criticar outras: avaliam constantemente nossas habilidades e preveem
as recompensas ou punições que podemos receber. Estas são as áreas que nos
empurram para agir ou permanecer em silêncio. Veremos também que a
metacognição – a capacidade de conhecer a si mesmo, de se autoavaliar, de
simular mentalmente o que aconteceria se agíssemos dessa ou daquela forma –
desempenha um papel fundamental na aprendizagem humana. As opiniões que
formamos sobre nós mesmos nos ajudam a progredir ou, em alguns casos, nos
prendem em um círculo vicioso de fracasso.
Assim, não é inapropriado pensar no cérebro como um conjunto de especialistas
que colaboram e competem.
APRENDER É RESTRINGIR O ESPAÇO DE PESQUISA
A inteligência artificial contemporânea ainda enfrenta um grande problema.

Quanto mais parâmetros o modelo interno tiver, mais difícil será encontrar a melhor
maneira de ajustá-lo. E nas redes neurais atuais, o espaço de busca é imenso. Os
cientistas da computação, portanto, precisam lidar com uma enorme explosão
combinatória: em cada estágio, milhões de opções estão disponíveis, e suas
combinações são tão vastas que é impossível explorá-las todas. Como resultado, o
aprendizado às vezes é extremamente lento: são necessárias bilhões de tentativas para
mover o sistema na direção certa dentro desse imenso cenário de possibilidades.
E os dados, por maiores que sejam, tornam-se escassos em relação ao tamanho

gigantesco desse espaço. Esse problema é chamado de “maldição da dimensionalidade”
– o aprendizado pode se tornar muito difícil quando você tem milhões de alavancas
em potencial para puxar.
O imenso número de parâmetros que as redes neurais
possuir muitas vezes leva a um segundo obstáculo, que é chamado de
“overfitting” ou “overlearning”: o sistema tem tantos graus de liberdade que acha mais
fácil memorizar todos os detalhes de cada exemplo do que identificar uma regra mais
geral que pode explicá-los.
Como John von Neumann (1903-1957), o pai da ciência da computação,

disse: “Com quatro parâmetros posso ajustar um elefante e com cinco posso fazê-lo
mexer a tromba”. O que ele quis dizer é que ter muitos parâmetros livres pode ser uma
maldição: é muito fácil “ajustar demais” qualquer dado simplesmente memorizando
cada detalhe, mas isso não significa que o sistema resultante capture algo significativo.
Você pode se encaixar no perfil do paquiderme sem entender nada profundo sobre os
elefantes como espécie. Ter muitos parâmetros livres pode ser prejudicial à abstração.
Embora o sistema aprenda facilmente, é incapaz de generalizar para novas situações.
No entanto, essa capacidade de generalizar é a chave para o aprendizado. Qual

seria o sentido de uma máquina que pudesse reconhecer uma imagem que já viu, ou
ganhar um jogo de Go que já jogou?
Obviamente, o objetivo real é reconhecer qualquer imagem ou vencer qualquer
jogador, sejam as circunstâncias familiares ou novas.
Mais uma vez, os cientistas da computação estão investigando várias soluções
para esses problemas. Uma das intervenções mais eficazes, que podem acelerar o
aprendizado e melhorar a generalização, é
simplificar o modelo. Quando o número de parâmetros a serem ajustados é

minimizado, o sistema pode ser forçado a encontrar uma solução mais geral.
Esse é o principal insight que levou LeCun a inventar as redes neurais
convolucionais, um dispositivo de aprendizado artificial que se tornou
onipresente no campo de reconhecimento de imagens.9 A ideia é simples:
para reconhecer os itens em uma imagem, você praticamente precisa fazer o
mesmo trabalho em todos os lugares. Em uma foto, por exemplo, os rostos
podem aparecer em qualquer lugar. Para reconhecê-los, deve-se aplicar o
mesmo algoritmo a todas as partes da imagem (por exemplo, procurar uma
oval, um par de olhos, etc.). Não há necessidade de aprender um modelo
diferente em cada ponto da retina: o que é aprendido em um lugar pode ser
reutilizado em todos os outros.
Ao longo do aprendizado, as redes neurais convolucionais da
LeCun aplicam tudo o que aprendem de uma determinada região a toda
a rede, em todos os níveis e em escalas cada vez maiores. Eles,
portanto, têm um número muito menor de parâmetros para aprender: em
geral, o sistema precisa ajustar apenas um único filtro que aplica em todos
os lugares, em vez de uma infinidade de conexões diferentes para cada
local na imagem. Esse truque simples melhora enormemente o desempenho,
especialmente a generalização para novas imagens. A razão é simples: o
algoritmo que roda em uma nova imagem se beneficia da imensa experiência
que ganhou em cada ponto de cada foto que já viu. Também acelera o
aprendizado, pois a máquina explora apenas um subconjunto de modelos de
visão. Antes de aprender, ele já sabe algo importante sobre o mundo: que o
mesmo objeto pode aparecer em qualquer lugar da imagem.
Esse truque se generaliza para muitos outros domínios. Para

reconhecer a fala, por exemplo, é preciso abstrair-se das especificidades da
voz do falante. Isso é obtido forçando uma rede neural a usar as mesmas
conexões em diferentes bandas de frequência, seja a voz baixa ou alta. Reduzir
o número de parâmetros que devem ser ajustados leva a maiores velocidades
e melhor generalização para novas vozes: a vantagem é dupla, e é assim que
seu smartphone é capaz de responder à sua voz.
APRENDER É PROJETAR HIPÓTESES A PRIORI

A estratégia de Yann LeCun fornece um bom exemplo de uma noção muito

mais geral: a exploração do conhecimento inato. As redes neurais convolucionais
aprendem melhor e mais rápido do que outros tipos de redes neurais porque não
aprendem tudo. Eles incorporam, em sua própria arquitetura, uma forte hipótese: o
que aprendo em um lugar pode ser generalizado em todos os outros.
O principal problema com o reconhecimento de imagem é a invariância:

reconhecer um objeto, qualquer que seja sua posição e tamanho, mesmo
que ele se mova para a direita ou para a esquerda, para mais longe ou para perto.
É um desafio, mas também uma restrição muito forte: posso esperar que as
mesmas pistas me ajudem a reconhecer um rosto em qualquer lugar do espaço.
Ao replicar o mesmo algoritmo em todos os lugares, as redes convolucionais
exploram efetivamente essa restrição: elas o integram em sua própria estrutura.
Inatamente, antes de qualquer aprendizado, o sistema já “conhece” essa
propriedade chave do mundo visual. Ele não aprende a invariância, mas a assume
a priori e a usa para reduzir o espaço de aprendizado – inteligente mesmo!
A moral aqui é que natureza e criação não devem ser opostas. A

aprendizagem pura, na ausência de quaisquer restrições inatas, simplesmente
não existe. Qualquer algoritmo de aprendizado contém, de uma forma ou de
outra, um conjunto de suposições sobre o domínio a ser aprendido.
Em vez de tentar aprender tudo do zero, é muito mais eficaz confiar em
suposições anteriores que delineiem claramente as leis básicas do domínio que
devem ser exploradas e integrem essas leis na própria arquitetura do sistema.
Quanto mais suposições inatas houver, mais rápido será o aprendizado (desde
que, é claro, essas suposições estejam corretas!). Isso é universalmente verdade.
Seria errado, por exemplo, pensar que o software AlphaGo Zero, que se treinou
em Go jogando contra si mesmo, partiu do nada: sua representação inicial incluía,
entre outras coisas, o conhecimento da topografia e simetrias do jogo, que dividiu
o espaço de busca por um fator de oito.
Nosso cérebro também é moldado com suposições de todos os tipos. Em

breve, veremos que, ao nascer, os cérebros dos bebês já estão organizados e
bem informados. Eles sabem, implicitamente, que o mundo é feito de coisas que
se movem apenas quando empurradas, sem nunca se interpenetrarem (objetos
sólidos) – e também que contém entidades muito mais estranhas que falam e se
movem por si mesmas (pessoas). Não precisa de
aprenda essas leis: como elas são verdadeiras em todos os lugares em

que os humanos vivem, nosso genoma as conecta ao cérebro, restringindo
e acelerando o aprendizado. Os bebês não precisam aprender tudo sobre o
mundo: seus cérebros estão cheios de restrições inatas, e apenas os
parâmetros específicos que variam imprevisivelmente (como formato do
rosto, cor dos olhos, tom de voz e gostos individuais das pessoas ao seu
redor) permanecem. ser adquirido.
Novamente, natureza e criação não precisam ser opostas. Se o
cérebro do bebê sabe a diferença entre pessoas e objetos inanimados, é
porque, em certo sentido, ele aprendeu isso — não nos primeiros dias de sua
vida, mas ao longo de milhões de anos de evolução.
A seleção darwiniana é, na verdade, um algoritmo de aprendizado
– um programa incrivelmente poderoso que vem sendo executado por
centenas de milhões de anos, em paralelo, em bilhões de máquinas de
aprendizado (todas as criaturas que já viveram) . sabedoria. Por meio de
tentativa e erro darwinianos, nosso genoma internalizou o conhecimento das
gerações que nos precederam. Esse conhecimento inato é de um tipo
diferente dos fatos específicos que aprendemos durante nossa vida: é muito
mais abstrato, porque influencia nossas redes neurais a respeitar as leis
fundamentais da natureza.
Em resumo, durante a gravidez, nossos genes estabelecem

uma arquitetura cerebral que orienta e acelera o aprendizado
subsequente, impondo restrições ao tamanho do espaço explorado. No
jargão da ciência da computação, pode-se dizer que os genes configuram
os “hiperparâmetros” do cérebro: as variáveis de alto nível que
especificam o número de camadas, os tipos de neurônios, a forma geral
de suas interconexões, se são duplicadas em qualquer ponto na retina, e
assim por diante. Como muitas dessas variáveis estão armazenadas em
nosso genoma, não precisamos mais aprendê-las: nossa espécie as
internalizou à medida que evoluiu.
Nosso cérebro, portanto, não é simplesmente submetido passivamente a
entradas. Desde o início, já possui um conjunto de hipóteses
abstratas, uma sabedoria acumulada que emergiu pelo crivo da evolução
darwiniana e que agora projeta no mundo exterior. Nem todos os cientistas
concordam com essa ideia, mas eu a considero um ponto central: a filosofia
empirista ingênua subjacente a muitas das redes neurais artificiais de hoje
está errada. Simplesmente não é verdade que
nascemos com circuitos completamente desorganizados e desprovidos de

qualquer conhecimento, que mais tarde recebem a marca de seu ambiente.
A aprendizagem, no homem e na máquina, sempre parte de um conjunto de
hipóteses a priori, que são projetadas nos dados recebidos, e a partir das
quais o sistema seleciona aquelas que melhor se adaptam ao ambiente atual.
Como Jean-Pierre Changeux afirmou em seu best-seller Neuronal Man
(1985), “Aprender é eliminar”.
CAPÍTULO 2
Por que nosso cérebro aprende melhor que o atual

Máquinas
A recente onda de progresso na inteligência artificial pode

sugerir que finalmente descobrimos como copiar e até superar o
aprendizado e a inteligência humanos. De acordo com alguns
autoproclamados profetas, as máquinas estão prestes a nos ultrapassar.
Nada poderia estar mais longe da verdade. De fato, a maioria dos
cientistas cognitivos, embora admire os recentes avanços nas redes
neurais artificiais, está bem ciente do fato de que essas máquinas
permanecem altamente limitadas. Na verdade, a maioria das redes neurais
artificiais implementa apenas as operações que nosso cérebro realiza
inconscientemente, em alguns décimos de segundo, quando percebe uma
imagem, a reconhece, a categoriza e acessa seu significado.1 No entanto,
nosso cérebro vai muito além : é capaz de explorar a imagem
conscientemente, com cuidado, passo a passo, por vários segundos.
Formula representações simbólicas e teorias explícitas do mundo que
podemos compartilhar com os outros por meio da linguagem.
Operações dessa natureza — lentas, racionais, simbólicas —
permanecem (por enquanto) privilégio exclusivo de nossa espécie. Os
algoritmos atuais de aprendizado de máquina os capturam mal. Embora
haja um progresso constante nas áreas de tradução automática e
raciocínio lógico, uma crítica comum às redes neurais artificiais é que elas
tentam aprender tudo no mesmo nível, como se todo problema fosse uma
questão de classificação automática. Para um homem com um martelo,
tudo parece um prego! Mas nosso cérebro é muito mais flexível.
Rapidamente consegue priorizar as informações e, sempre que possível,
extrair princípios gerais, lógicos e explícitos.
O QUE FALTA DE INTELIGÊNCIA ARTIFICIAL?
É interessante tentar esclarecer o que ainda falta à inteligência artificial, pois

essa também é uma forma de identificar o que há de único nas habilidades de
aprendizagem de nossa espécie. Aqui está uma lista curta e provavelmente ainda
parcial de funções que até um bebê possui e que a maioria dos sistemas artificiais
atuais estão faltando:
Aprender conceitos abstratos. A maioria das redes neurais

artificiais captura apenas os primeiros estágios do processamento de
informações – aqueles que, em menos de um quinto de segundo, analisam uma
imagem nas áreas visuais do nosso cérebro. Os algoritmos de aprendizado
profundo estão longe de ser tão profundos quanto algumas pessoas afirmam.
De acordo com Yoshua Bengio, um dos inventores dos algoritmos de
aprendizado profundo, eles tendem a aprender regularidades estatísticas
superficiais nos dados, em vez de conceitos abstratos de alto nível.2 Para
reconhecer um objeto, por exemplo, eles geralmente contam com a presença
de um alguns recursos superficiais na imagem, como uma cor ou forma
específica. Mudar esses detalhes e seu desempenho colapsa: as redes neurais
convolucionais contemporâneas são incapazes de reconhecer o que constitui
a essência de um objeto; eles têm dificuldade em entender que uma cadeira
continua sendo uma cadeira, quer tenha quatro pernas ou apenas uma, e seja
feita de vidro, metal ou plástico inflável. Essa inclinação para atender a
características superficiais torna essas redes suscetíveis a erros massivos.
Existe toda uma literatura sobre como enganar uma rede neural: pegue uma
banana e modifique alguns pixels ou coloque um adesivo específico nela, e a
rede neural pensará que é uma torradeira!
É verdade que quando você mostra uma imagem para uma pessoa por uma
fração de segundo, ela às vezes comete os mesmos tipos de erros que uma
máquina e pode confundir um cachorro com um gato.3 No entanto, assim que
os humanos tiverem um pouco mais de tempo , eles corrigem seus erros.
Ao contrário de um computador, possuímos a capacidade de questionar
nossas crenças e reorientar nossa atenção para os aspectos de uma imagem
que não se encaixam em nossa primeira impressão. Esta segunda análise,
consciente e inteligente, apela aos nossos poderes gerais de raciocínio e
abstração. As redes neurais artificiais negligenciam um ponto essencial: a
aprendizagem humana não é apenas a configuração de um
filtro de reconhecimento de padrões, mas a formação de um modelo abstrato do

mundo. Ao aprender a ler, por exemplo, adquirimos um conceito abstrato de cada
letra do alfabeto, o que nos permite reconhecê-la em todos os seus disfarces, além
de gerar novas versões:
O cientista cognitivo Douglas Hofstadter disse uma vez que o verdadeiro

desafio para a inteligência artificial era reconhecer a letra A! Essa piada foi, sem
dúvida, um exagero, mas mesmo assim profundo: mesmo nesse contexto mais trivial,
os humanos empregam um talento inigualável para a abstração. Essa façanha está
na origem de uma ocorrência divertida da vida cotidiana: o CAPTCHA, a pequena
cadeia de letras que alguns sites pedem que você reconheça para provar que você
é um ser humano, não uma máquina. Durante anos, os CAPTCHAs resistiram às
máquinas. Mas a ciência da computação está evoluindo rapidamente: em 2017, um
sistema artificial conseguiu reconhecer CAPTCHAs em um nível quase humano.4
Sem surpresa, esse algoritmo imita o cérebro humano em vários aspectos. Um
verdadeiro tour de force, ele consegue extrair o esqueleto de cada letra, a essência
interna da letra A, e usa todos os recursos do raciocínio estatístico para verificar se
essa ideia abstrata se aplica à imagem atual.
No entanto, esse algoritmo de computador, por mais sofisticado que seja, se

aplica apenas a CAPTCHAs. Nossos cérebros aplicam essa capacidade de abstração
a todos os aspectos de nossas vidas diárias.
Aprendizado com eficiência de dados. Todos concordam que as redes
neurais de hoje aprendem muito lentamente: elas precisam de milhares, milhões
e até bilhões de pontos de dados para desenvolver uma intuição de um domínio.
Temos até evidências experimentais dessa lentidão. Por exemplo, não são
necessárias menos de novecentas horas de jogo para a rede neural projetada pela
DeepMind atingir um nível razoável em um console Atari — enquanto um ser
humano atinge o mesmo nível em duas horas!5 Outro exemplo é o aprendizado de
idiomas. O psicolinguista Emmanuel Dupoux estima que, na maioria das famílias
francesas, as crianças ouvem cerca de cinco
cem a mil horas de discurso por ano, o que é mais do que suficiente para
adquirirem o patois de Descartes, incluindo peculiaridades como soixante-
douze ou s'il vous plaît.
No entanto, entre os tsimane, uma população indígena da Amazônia boliviana,
as crianças ouvem apenas sessenta horas de fala por ano – e notavelmente,
essa experiência limitada não as impede de se tornarem excelentes falantes da
língua tsimane. Em comparação, os melhores sistemas de computador atuais
da Apple, Baidu e Google exigem algo entre vinte e mil vezes mais dados para
atingir um mínimo de competência linguística. No campo da aprendizagem, a
eficácia do cérebro humano permanece inigualável: as máquinas estão famintas
por dados, mas os humanos são eficientes em dados.
O aprendizado, em nossa espécie, tira o máximo proveito da menor

quantidade de dados.
Aprendizagem social. Nossa espécie é a única que compartilha
informações voluntariamente: aprendemos muito com nossos semelhantes
por meio da linguagem. Essa capacidade permanece fora do alcance das
redes neurais atuais. Nesses modelos, o conhecimento é criptografado, diluído
nos valores de centenas de milhões de pesos sinápticos. Nesta forma oculta
e implícita, não pode ser extraído e compartilhado seletivamente com outros.
Em nossos cérebros, por outro lado, as informações de nível mais alto, que
atingem nossa consciência, podem ser explicitamente declaradas aos outros.
O conhecimento consciente vem com a relatabilidade verbal: sempre que
entendemos algo de maneira suficientemente clara, uma fórmula mental
ressoa em nossa linguagem de pensamento, e podemos usar as palavras da
linguagem para relatá-la. A extraordinária eficiência com que conseguimos
compartilhar nosso conhecimento com os outros, usando um número mínimo
de palavras (“Para chegar ao mercado, vire à direita na ruela atrás da igreja.”),
permanece inigualável, no reino animal como no o mundo do computador.
Aprendizagem de uma tentativa. Um caso extremo dessa eficiência é

quando aprendemos algo novo em uma única tentativa. Se eu introduzir um
novo verbo, digamos purgar, mesmo que apenas uma vez, será suficiente para
você usá-lo. Claro, algumas redes neurais artificiais também são capazes de
armazenar um episódio específico. Mas quais máquinas não podem
ainda fazer bem, e que o cérebro humano consegue fazer

maravilhosamente, é integrar novas informações dentro de uma rede de
conhecimento existente. Você não apenas memoriza o novo verbo purget,
mas imediatamente sabe como conjugá-lo e inseri-lo em outras frases: Você
já purga? Eu limpei ontem. Você já purgou? A eliminação é um problema.
Quando digo “vamos purgar amanhã”, você não aprende apenas uma
palavra – você também a insere em um vasto sistema de símbolos e regras:
é um verbo com pretérito irregular (purgot, purgotten) e uma conjugação típica
em o tempo presente (eu purgo, você purga, ela purga, etc.). Aprender é
conseguir inserir novos conhecimentos em uma rede existente.
A sistematicidade e a linguagem do pensamento. Gramática

as regras são apenas um exemplo de um talento particular em nosso cérebro:
a capacidade de descobrir as leis gerais que estão por trás de casos
específicos. Seja em matemática, linguagem, ciência ou música, o cérebro
humano consegue extrair princípios muito abstratos, regras sistemáticas que
podem ser reaplicadas em muitos contextos diferentes. Tomemos a aritmética,
por exemplo: nossa capacidade de somar dois números é extremamente geral
— uma vez que tenhamos aprendido esse procedimento com números
pequenos, podemos sistematizá-lo para números arbitrariamente grandes.
Melhor ainda, podemos fazer inferências de extraordinária generalidade. Muitas
crianças, por volta dos cinco ou seis anos de idade, descobrem que cada número
n tem um sucessor n + 1, e que a sequência dos números inteiros é, portanto,
infinita — não existe o maior número. Ainda me lembro, com emoção, do
momento em que tomei consciência disso — foi, na realidade, meu primeiro
teorema matemático. Que poderes extraordinários de abstração! Como nosso
cérebro, que inclui um número finito de neurônios, consegue conceituar o infinito?
As redes neurais artificiais atuais não podem representar uma

lei abstrata tão simples como “todo número tem um sucessor”.
Verdades absolutas não são sua xícara de chá. A sistematicidade,6 a
capacidade de generalizar com base em uma regra simbólica em vez de uma
semelhança superficial, ainda escapa à maioria dos algoritmos atuais.
Ironicamente, os chamados algoritmos de aprendizado profundo são
quase totalmente incapazes de qualquer insight profundo.
Nosso cérebro, por outro lado, parece ter uma capacidade

fluida de conceber fórmulas em uma espécie de linguagem mental.
Por exemplo, pode expressar o conceito de um conjunto infinito porque
possui uma linguagem interna dotada de funções abstratas como
negação e quantificação (infinito = não finito = além de qualquer
número). O filósofo americano Jerry Fodor (1935-2017) teorizou essa
capacidade: postulou que nosso pensamento consiste em símbolos que
se combinam de acordo com as regras sistemáticas de uma “linguagem
do pensamento”. objeto recém-criado (digamos, o conceito de infinito)
pode ser reutilizado imediatamente em novas combinações, sem limites.
Quantos infinitos existem? Essa é a pergunta aparentemente absurda
que o matemático Georg Cantor (1845-1918) se fez, o que o levou a
formular a teoria dos números transfinitos.
A capacidade de “fazer uso infinito de meios finitos”, de acordo com

Wilhelm von Humboldt (1767-1835), caracteriza o pensamento humano.
Alguns modelos de ciência da computação tentam

capturar a aquisição de regras matemáticas abstratas em crianças –
mas, para isso, eles precisam incorporar uma forma muito diferente de
aprendizagem, que envolve regras e gramáticas e consegue selecionar
rapidamente as mais curtas e plausíveis. Nessa visão, o aprendizado se
assemelha à programação: consiste em selecionar a fórmula interna mais
simples que se ajuste aos dados, dentre todas as disponíveis na
linguagem do pensamento.
As redes neurais atuais são amplamente incapazes de representar o
gama de frases abstratas, fórmulas, regras e teorias com as quais o
cérebro do Homo sapiens modela o mundo. Isso provavelmente não
é coincidência: há algo profundamente humano nisso, algo que não é
encontrado no cérebro de outras espécies animais, e que a neurociência
contemporânea ainda não conseguiu abordar – um aspecto genuinamente
singular de nossa espécie. Entre os primatas, nosso cérebro parece ser
o único a representar conjuntos de símbolos que se combinam de acordo
com uma sintaxe complexa e arborescente.9 Meu laboratório, por
exemplo, mostrou que o cérebro humano não consegue deixar de ouvir
uma série de sons como bip bip bip boop sem imediatamente
teorizando a estrutura abstrata subjacente (três sons idênticos seguidos

por um diferente). Colocado na mesma situação, um macaco detecta
uma série de quatro sons, percebe que o último é diferente, mas não
parece integrar esse conhecimento fragmentado em uma única fórmula;
sabemos disso porque quando examinamos sua atividade cerebral,
vemos circuitos distintos serem ativados para número e sequência, mas
nunca observamos o padrão integrado de atividade que encontramos na
área da linguagem humana chamada “área de Broca”.
Da mesma forma, são necessárias dezenas de milhares de

tentativas antes que um macaco entenda como reverter a ordem de uma
sequência (de ABCD para DCBA), enquanto para um humano de quatro
anos, cinco tentativas são suficientes.11 Mesmo um bebê de poucos meses
de idade já codifica o mundo externo usando regras abstratas e sistemáticas
— uma habilidade que escapa completamente tanto das redes neurais
artificiais convencionais quanto de outras espécies de primatas.
Composição. Depois de aprender, digamos, a somar dois
números, essa habilidade se torna parte integrante do meu repertório de
talentos: fica imediatamente disponível para atender a todos os meus outros
objetivos. Posso usá-lo como sub-rotina em dezenas de contextos diferentes,
por exemplo, para pagar a conta do restaurante ou para verificar meus
formulários de impostos. Acima de tudo, posso recombiná-lo com outras
habilidades aprendidas - não tenho dificuldade, por exemplo, em seguir um
algoritmo que me pede para pegar um número, adicionar dois e decidir se
agora é maior ou menor que cinco.12 É surpreendente que as redes neurais
atuais ainda não mostram
essa flexibilidade. O conhecimento que eles aprenderam permanece
confinado em conexões ocultas e inacessíveis, tornando muito difícil a
reutilização em outras tarefas mais complexas. A capacidade de compor
habilidades previamente aprendidas, ou seja, de recombiná-las para resolver
novos problemas, está além desses modelos.
A inteligência artificial de hoje resolve apenas problemas extremamente
limitados: o software AlphaGo, que pode derrotar qualquer campeão humano
em Go, é um especialista teimoso, incapaz de generalizar seus talentos
para qualquer outro jogo, mesmo um pouco diferente (incluindo o jogo de
Go em um -quinze tabuleiro em vez do goban padrão de dezenove por
dezenove). No cérebro humano, por outro lado, aprender quase sempre
significa renderizar
conhecimento explícito, para que possa ser reutilizado, recombinado

e explicado a outros. Aqui, novamente, estamos lidando com um
aspecto singular do cérebro humano, ligado à linguagem e que se
mostrou difícil de reproduzir em uma máquina. Já em 1637, em seu
famoso Discurso do Método, Descartes antecipou esta questão:
Se existissem máquinas que se parecessem com nossos

corpos e imitassem nossas ações tanto quanto moralmente
possível, teríamos sempre dois meios muito certos para
reconhecer que elas não são genuinamente humanas. A
primeira é que eles nunca seriam capazes de usar a fala, ou
outros sinais ao compô-los, como fazemos para expressar
nossos pensamentos aos outros. Pois pode-se facilmente
conceber uma máquina feita de tal maneira que emite
palavras. . . mas não poderia arranjar palavras de maneiras
diferentes para responder ao significado de tudo o que é dito
em sua presença, como até os seres humanos menos
inteligentes podem fazer. E o segundo meio é que, mesmo que
eles fizessem muitas coisas tão bem ou, possivelmente,
melhores do que qualquer um de nós, eles infalivelmente
falhariam em outras. Descobriria-se assim que eles não agiam
com base no conhecimento, mas apenas como resultado da
disposição de seus órgãos. Pois enquanto a razão é um
instrumento universal que pode ser usado em todos os tipos de
situações, esses órgãos precisam de uma disposição específica
para cada ação particular.
Razão, instrumento universal da mente. . . . As habilidades

mentais que Descartes lista apontam para um segundo sistema de
aprendizagem, hierarquicamente superior ao anterior, baseado em
regras e símbolos. Em seus estágios iniciais, nosso sistema visual
lembra vagamente as redes neurais artificiais atuais: ele aprende a
filtrar imagens recebidas e a reconhecer configurações frequentes.
Isso basta para reconhecer um rosto, uma palavra ou uma
configuração do jogo Go. Mas então o estilo de processamento muda
radicalmente: o aprendizado começa a se assemelhar ao raciocínio,
uma inferência lógica que tenta capturar as regras de um domínio.
Criar máquinas que atinjam esse segundo nível de inteligência é um grande desafio
para a pesquisa contemporânea em inteligência artificial. Vamos examinar

dois elementos que definem o que os humanos fazem quando aprendem
neste segundo nível e que desafiam os algoritmos de aprendizado de
máquina mais atuais.
APRENDER É INFERIR A GRAMATICA DE UM DOMÍNIO
Característica da espécie humana é a busca incessante por regras

abstratas, conclusões de alto nível que são extraídas de uma situação
específica e posteriormente testadas em novas observações.
Tentar formular tais leis abstratas pode ser uma estratégia de
aprendizado extraordinariamente poderosa, pois as leis mais abstratas são
precisamente aquelas que se aplicam ao maior número de observações.
Encontrar a lei ou regra lógica apropriada que dê conta de todos os dados
disponíveis é o melhor meio de acelerar massivamente o aprendizado – e o
cérebro humano é extremamente bom nesse jogo.
Vamos considerar um exemplo. Imagine que eu lhe mostre uma dúzia de

caixas opacas cheias de bolas de cores diferentes. Seleciono uma caixa ao
acaso, da qual nunca tirei nada antes. Enfio minha mão nela e desenho uma bola
verde. Você pode deduzir alguma coisa sobre o conteúdo da caixa? Qual será a
cor da próxima bola?
A primeira resposta que provavelmente vem à mente é: não faço ideia

— você não me deu praticamente nenhuma informação; como eu poderia
saber a cor da próxima bola? Sim mas . . . imagine que, no passado, eu tirei
algumas bolas das outras caixas e você percebeu a seguinte regra: em uma
determinada caixa, todas as bolas são sempre da mesma cor. O problema torna-
se trivial. Quando eu lhe mostrar uma nova caixa, você só precisa desenhar uma
única bola verde para deduzir que todas as outras bolas serão dessa cor. Com
esta regra geral em mente, torna-se possível aprender em uma única tentativa.
Este exemplo ilustra como o conhecimento de ordem superior,

formulado no que muitas vezes é chamado de nível “meta”, pode guiar todo
um conjunto de observações de nível inferior. A meta-regra abstrata de que “em
uma determinada caixa, todas as bolas são da mesma cor”, uma vez aprendida,
acelera massivamente o aprendizado. Claro, também pode ser falso. Você ficará
então massivamente surpreso (ou devo dizer “meta-
surpreso”) se a décima caixa que você explorar contiver bolas de todas as cores.
Nesse caso, você teria que revisar seu modelo mental e questionar a
suposição de que todas as caixas são semelhantes. Talvez você proponha
uma hipótese de nível ainda mais alto, uma meta-meta hipótese - por
exemplo, você pode supor que as caixas vêm em dois tipos, de cor única e
multicoloridas, caso em que você precisaria de pelo menos dois sorteios por
caixa antes de concluir nada. De qualquer forma, formular uma hierarquia de
regras abstratas economizaria um valioso tempo de aprendizado.
Aprender, nesse sentido, significa, portanto, administrar uma hierarquia

interna de regras e tentar inferir, o quanto antes, as mais gerais que resumam
toda uma série de observações. O cérebro humano parece aplicar esse princípio
hierárquico desde a infância. Pegue uma criança de dois ou três anos andando
em um jardim e aprendendo uma nova palavra de seus pais, digamos, borboleta.
Muitas vezes, basta que a criança ouça a palavra uma ou duas vezes, e voilà:
seu significado é memorizado. Essa velocidade de aprendizado é incrível.
Ele supera todos os sistemas de inteligência artificial conhecidos até o momento.
Por que o problema é difícil? Porque cada enunciado de cada palavra não
restringe totalmente seu significado. A palavra borboleta é tipicamente pronunciada
quando a criança está imersa em uma cena complexa, cheia de flores, árvores,
brinquedos e pessoas; todos esses são candidatos potenciais ao significado dessa
palavra – sem falar nos significados menos óbvios: cada momento que vivemos é
cheio de sons, cheiros, movimentos, ações, mas também de propriedades
abstratas. Pelo que sabemos, borboleta pode significar cor, céu, movimento ou
simetria. A existência de palavras abstratas torna esse problema mais
desconcertante. Como as crianças aprendem os significados das palavras pensar,
acreditar, não, liberdade e morte, se os referentes não podem ser percebidos
ou vivenciados? Como eles entendem o que “eu” significa, quando cada vez que
o ouvem, os falantes estão falando sobre . . . eles mesmos?!
A aprendizagem rápida de palavras abstratas é tão incompatível com

visões ingênuas do aprendizado de palavras como condicionamento
pavloviano ou associação skinneriana. Redes neurais que simplesmente
tentam correlacionar entradas com saídas e imagens com palavras,
normalmente exigem milhares de tentativas antes de começarem a entender que
a palavra borboleta se refere àquele inseto colorido, ali, no canto da imagem. . .
e uma correlação tão superficial de palavras com imagens
nunca descobrirá o significado das palavras sem uma referência fixa, como
nós, sempre, ou cheiro.
A aquisição de palavras representa um enorme desafio para a ciência cognitiva.
No entanto, sabemos que parte da solução está na capacidade da criança de formular
representações não linguísticas, abstratas e lógicas. Mesmo antes de adquirir suas
primeiras palavras, as crianças possuem uma espécie de linguagem de pensamento
dentro da qual podem formular e testar hipóteses abstratas. Seus cérebros não são
lousas em branco, e o conhecimento inato que projetam no mundo externo pode
restringir drasticamente o espaço abstrato dentro do qual aprendem.
Além disso, as crianças aprendem rapidamente o significado das palavras porque

selecionam entre hipóteses usando como guia toda uma panóplia de regras de alto
nível. Essas meta-regras aceleram massivamente o aprendizado, exatamente como no
problema das bolas coloridas nas diferentes caixas.
Uma dessas regras que facilita a aquisição de vocabulário é sempre favorecer
a suposição mais simples e menor compatível com os dados. Por exemplo, quando um
bebê ouve sua mãe dizer: “Olhe para o cachorro”, em teoria, nada impede que a palavra
cachorro se refira a esse cachorro em particular (Snoopy) – ou, inversamente, a
qualquer mamífero, criatura de quatro patas, animal ou animal. ser vivo. Como as
crianças descobrem o verdadeiro significado de uma palavra — aquele cachorro
significa todos os cachorros, mas apenas cachorros? Experimentos sugerem que eles
raciocinam logicamente testando todas as hipóteses, mas mantendo apenas a mais
simples que se encaixa com o que ouviram. Assim, quando as crianças ouvem a palavra
Snoopy, elas sempre a ouvem no contexto daquele animal de estimação específico, e
o menor conjunto compatível com esses observáveis está confinado a esse cão em
particular. E a primeira vez que as crianças ouvem a palavra cachorro, em um único
contexto específico, elas podem temporariamente acreditar que a palavra se refere
apenas àquele animal em particular – mas assim que a ouvem duas vezes, em dois
contextos diferentes, podem inferir que a palavra refere-se a toda uma categoria. Um
modelo matemático desse processo prevê que três ou quatro instâncias são suficientes
para convergir para o significado apropriado.13 Essa é a inferência que as crianças
fazem, mais rápido do que qualquer rede neural artificial atual.
Outros truques permitem que as crianças aprendam a linguagem em tempo

recorde, em comparação com os sistemas de IA atuais. Uma dessas meta-regras
expressa um truísmo: em geral, o falante presta atenção ao que está falando. Uma
vez que os bebês entendem essa regra, eles
podem restringir consideravelmente o espaço abstrato em que buscam significado:

não precisam correlacionar cada palavra com todos os objetos presentes na cena
visual, como faria um computador, até obterem dados suficientes para provar que
cada vez que ouvem falar de um borboleta, o pequeno inseto colorido está presente.
Tudo o que a criança precisa fazer para inferir sobre o que sua mãe está falando é
seguir seu olhar ou a direção de seu dedo: isso se chama “atenção compartilhada” e
é um princípio fundamental do aprendizado da linguagem.
Aqui está um experimento elegante: pegue uma criança de dois ou três anos
criança, mostre-lhe um brinquedo novo e faça um adulto olhar para ele
enquanto diz: “Oh, um wog!” Uma única tentativa é suficiente para a criança descobrir
que wog é o nome desse objeto. Agora repita a situação, exceto que o adulto não
diz uma palavra, mas a criança ouve “Oh, um wog!” pronunciada por um alto-falante
no teto. A criança não aprende estritamente nada, porque não consegue mais
decifrar a intenção do falante.14 Os bebês só aprendem o significado de uma palavra
nova se conseguirem entender a intenção de quem a pronunciou.
Essa habilidade também permite que eles adquiram um léxico de palavras

abstratas: para isso, eles devem se colocar no lugar do falante para entender a qual
pensamento ou palavra o falante pretendia se referir.
As crianças usam muitas outras meta-regras para aprender palavras.
Por exemplo, eles capitalizam no contexto gramatical: quando lhes dizem: “Olhe
para a borboleta”, a presença da palavra determinante the torna muito provável
que a palavra seguinte seja um substantivo. Esta é uma meta-regra que eles
tiveram que aprender – os bebês obviamente não nascem com um conhecimento
inato de todos os artigos possíveis em todos os idiomas.
No entanto, pesquisas mostram que esse tipo de aprendizado é rápido: aos doze
meses, as crianças já registraram os determinantes mais frequentes e outras palavras
funcionais e os utilizam para orientar o aprendizado subsequente.15
Aprender significa tentar selecionar o modelo mais simples que se ajuste aos dados. Suponha que
eu lhe mostre a carta de cima e lhe diga que os três objetos cercados por linhas grossas são “tufas”.
Com tão poucos dados, como você encontra as outras tufas? Seu cérebro faz um modelo de como
essas formas foram geradas, uma árvore hierárquica de suas propriedades, e então seleciona o
menor galho da árvore que seja compatível com todos os dados.
Eles são capazes de fazer isso porque essas palavras gramaticais são
muito frequentes e, sempre que aparecem, quase invariavelmente
preceder um substantivo ou um sintagma nominal. O raciocínio pode parecer

circular, mas não é: os bebês começam a aprender seus primeiros substantivos,
começando pelos extremamente familiares como mamadeira e cadeira, por
volta dos seis meses de idade . . . então eles percebem que essas palavras
são muitas vezes precedidas por uma palavra muito frequente, o artigo o . . .
de onde eles deduzem que todas essas palavras provavelmente pertencem à
mesma categoria, substantivo . . . e que essas palavras muitas vezes se
referem a coisas. . . uma meta-regra que lhes permite, ao ouvir um novo
enunciado, como “a borboleta”, buscar primeiro um possível significado entre
os objetos ao seu redor, ao invés de tratar a palavra como um verbo ou um
adjetivo. Assim, cada episódio de aprendizagem reforça esta regra, que por si
só facilita a aprendizagem posterior, num vasto movimento que se acelera a
cada dia. Psicólogos do desenvolvimento dizem que a criança depende do
bootstrapping sintático: um algoritmo de aprendizado de linguagem infantil
consegue decolar gradualmente, por conta própria, capitalizando uma série de
etapas de inferência pequenas, mas sistemáticas.
Há ainda outra meta-regra que as crianças usam para acelerar o
aprendizado de palavras. É a chamada “suposição de exclusividade mútua” e
pode ser afirmada de forma sucinta: um nome para cada coisa. A lei
basicamente diz que é improvável que duas palavras diferentes se refiram ao
mesmo conceito. Uma nova palavra, portanto, provavelmente se refere a um
novo objeto ou ideia. Com essa regra em mente, assim que as crianças ouvem
uma palavra desconhecida, elas podem restringir sua busca de significado a
coisas cujos nomes ainda não conhecem. E, a partir dos dezesseis meses de
idade, as crianças usam esse truque com bastante astúcia.16 Tente a seguinte
experiência: pegue duas tigelas, uma azul e outra de uma cor incomum –
digamos, verde oliva – e diga à criança: “Dê-me o tigela suja.” A criança lhe
dará a tigela que não é azul (uma palavra que ela já conhece) — ela parece
supor que, se você quisesse falar sobre a tigela azul, teria usado a palavra
azul; logo, você deve estar se referindo ao outro, desconhecido.
Semanas depois, essa única experiência será suficiente para ele lembrar que
essa cor estranha é “desagradável”.
Aqui, novamente, vemos como o domínio de uma meta-regra
pode acelerar massivamente o aprendizado. E é provável que essa meta-
regra em si tenha sido aprendida. De fato, alguns experimentos indicam que
crianças de famílias bilíngues aplicam essa regra muito menos do que bebês
monolíngues .
os pais podem usar palavras diferentes para dizer a mesma coisa. As crianças
monolíngues, por outro lado, dependem muito da regra de exclusividade.
Eles descobriram que sempre que você usa uma nova palavra, é provável que
você queira que eles aprendam um novo objeto ou conceito. Se você disser
"Dê-me o glax" em uma sala cheia de objetos familiares, eles procurarão em
todos os lugares por esse objeto misterioso ao qual você está se referindo - e
não imaginarão que você possa estar se referindo a um dos conhecidos.
Todas essas meta-regras ilustram o que é chamado de “bênção da

abstração”: as meta-regras mais abstratas podem ser as coisas mais fáceis
de aprender, porque cada palavra que a criança ouve fornece evidências para
elas. Assim, a regra gramatical “os substantivos tendem a ser precedidos pelo
artigo the” pode muito bem ser adquirida precocemente e orientar a posterior
aquisição de um vasto repertório de substantivos. Graças à benção da
abstração, por volta dos dois ou três anos de idade, as crianças entram em
um período abençoado legitimamente chamado de “explosão lexical”, durante
o qual aprendem sem esforço entre dez e vinte novas palavras por dia, apenas
com base em pistas tênues que ainda ficam paradas. os melhores algoritmos
do planeta.
A capacidade de usar meta-regras parece exigir uma boa dose de
inteligência. Isso o torna único para a espécie humana? Não inteiramente.
Até certo ponto, outros animais também são capazes de inferência abstrata.
Veja o caso de Rico, um cão pastor que foi treinado para buscar diversos
objetos.18 Basta dizer: “Rico, vá buscar o dinossauro” . . . e o animal entra na
sala de jogos e volta alguns segundos depois com um dinossauro de pelúcia
na boca. Os etólogos que o testaram mostraram que Rico conhece cerca de
duzentas palavras. Mas o mais extraordinário é que ele também usa o princípio
da exclusividade mútua para aprender novas palavras. Se você lhe disser:
“Rico, vá buscar o sikirid” (uma nova palavra), ele sempre volta com um novo
objeto, um cujo nome ele ainda não sabe.
Ele também usa meta-regras como “um nome para cada coisa”.
Matemáticos e cientistas da computação começaram a projetar
algoritmos que permitem que as máquinas aprendam essa hierarquia de
regras, meta-regras e meta-meta-regras, até um nível arbitrário. Nesses
algoritmos de aprendizado hierárquico, cada episódio de aprendizado
restringe não apenas os parâmetros de baixo nível, mas também o
conhecimento do nível mais alto, os hiperparâmetros abstratos que, por sua vez, influenciarã
aprendizado posterior. Embora ainda não imitem a

extraordinária eficiência do aprendizado de idiomas, esses sistemas
alcançam um desempenho notável. Por exemplo, a figura 4 no encarte
colorido mostra como um algoritmo recente se comporta como uma
espécie de cientista artificial que encontra o melhor modelo do mundo
exterior.19 Esse sistema possui um conjunto de primitivas abstratas, bem
como uma gramática que lhe permite gerar uma infinidade de estruturas
de nível superior através da recombinação dessas regras elementares.
Ele pode, por exemplo, definir uma cadeia linear como um conjunto de
pontos intimamente conectados que é caracterizado pela regra “cada
ponto tem dois vizinhos, um à esquerda, um à direita” – e o sistema
consegue descobrir, todos por em si, que tal cadeia é a melhor maneira
de representar o conjunto de inteiros (uma linha que vai de zero ao infinito)
ou políticos (da ultraesquerda à extrema direita). Uma variante da mesma
gramática produz uma árvore binária onde cada nó tem um pai e dois
filhos. Essa estrutura de árvore é selecionada automaticamente quando o
sistema é solicitado a representar seres vivos - a máquina, como um
Darwin artificial, redescobre espontaneamente a árvore da vida!
Outras combinações de regras geram planos, cilindros e
esferas, e o algoritmo descobre como tais estruturas se
aproximam da geografia do nosso planeta. Versões mais
sofisticadas do mesmo algoritmo conseguem expressar ideias
ainda mais abstratas. Por exemplo, os cientistas da computação
americanos Noah Goodman e Josh Tenenbaum projetaram um sistema
capaz de descobrir o princípio da causalidade20 – a própria ideia de
que alguns eventos causam outros. Sua formulação é abstrusa e
matemática: “Em um gráfico direcionado, acíclico, ligando várias variáveis,
existe um subconjunto de variáveis das quais todas as outras dependem”.
Embora essa expressão seja quase incompreensível, cito-a porque ilustra
bem o tipo de fórmulas internas abstratas que essa gramática mental é
capaz de expressar e testar. O sistema testa milhares dessas fórmulas e
mantém apenas aquelas que se ajustam aos dados recebidos. Como
resultado, infere rapidamente o princípio da causalidade (se, de fato,
algumas das experiências sensoriais que recebe são causas e outras são
consequências). Esta é mais uma ilustração da benção da abstração:
entreter uma hipótese de alto nível acelera massivamente o aprendizado,
porque reduz drasticamente o espaço de hipóteses plausíveis dentro
qual pesquisar. E graças a isso, gerações de crianças estão à procura

de explicações, perguntando constantemente “Por quê?” e busca de
causas - alimentando assim a busca incessante de conhecimento
científico de nossa espécie.
De acordo com essa visão, a aprendizagem consiste em selecionar,
de um grande conjunto de expressões na linguagem do pensamento,
aquela que melhor se ajusta aos dados. Veremos em breve que este é um
excelente modelo do que as crianças fazem. Como cientistas iniciantes,
eles formulam teorias e as comparam com o mundo exterior. Isso implica
que as representações mentais das crianças são muito mais estruturadas
do que as das redes neurais artificiais atuais. Desde o nascimento, o
cérebro da criança já deve possuir dois ingredientes fundamentais: todo o
maquinário que permite gerar uma infinidade de fórmulas abstratas (uma
linguagem combinatória do pensamento) e a capacidade de escolher
sabiamente entre essas fórmulas, de acordo com sua plausibilidade dada
a dados.
Tal é a nova visão do cérebro:21 um imenso generativo
massivamente estruturado e capaz de produzir uma miríade de
regras e estruturas hipotéticas – mas que gradativamente se restringe
àquelas que se ajustam à realidade.
APRENDER É RACIOCÍNIO COMO CIENTISTA
Como o cérebro seleciona a hipótese mais adequada? Com que

critérios deve aceitar ou rejeitar um modelo do mundo exterior? Acontece
que existe uma estratégia ideal para fazê-lo. Essa estratégia está no
cerne de uma das mais recentes e produtivas teorias da aprendizagem:
a hipótese de que o cérebro se comporta como um cientista iniciante. De
acordo com essa teoria, aprender é raciocinar como um bom estatístico
que escolhe, entre várias teorias alternativas, aquela que tem maior
probabilidade de estar correta, porque melhor dá conta dos dados
disponíveis.
Como funciona o raciocínio científico? Quando os cientistas formulam
uma teoria, eles não apenas escrevem fórmulas matemáticas – eles fazem
previsões. A força de uma teoria é julgada pela riqueza das previsões
originais que dela emergiram. A confirmação ou refutação subsequente
dessas previsões é o que leva à validação ou queda de uma teoria. Os
pesquisadores aplicam uma
lógica simples: eles afirmam várias teorias, desvendam a teia de previsões

que se seguem e eliminam as teorias cujas previsões são invalidadas por
experimentos e observações. É claro que um único experimento raramente é
suficiente: muitas vezes é necessário replicar o experimento várias vezes, em
diferentes laboratórios, para separar o que é verdadeiro do que é falso.
Parafraseando o filósofo da ciência Karl Popper (1902-1994), a ignorância
recua continuamente à medida que uma série de conjecturas e refutações
permitem o refinamento progressivo de uma teoria.
O processo lento da ciência se assemelha à maneira como aprendemos. Dentro

cada uma de nossas mentes, a ignorância é gradualmente apagada à
medida que nosso cérebro formula com sucesso teorias cada vez mais
precisas do mundo exterior por meio de observações. Mas isso nada mais é
do que uma metáfora vaga? Não — é, de fato, uma afirmação bastante
precisa sobre o que o cérebro deve estar computando. E nos últimos trinta
anos, a hipótese da “criança como cientista” levou a uma série de grandes
descobertas sobre como as crianças raciocinam e aprendem.
Matemáticos e cientistas da computação há muito teorizam
a melhor maneira de raciocinar na presença de incertezas. Essa teoria
sofisticada é chamada de “bayesiana”, em homenagem ao seu descobridor,
o reverendo Thomas Bayes (1702-1761), um pastor e matemático presbiteriano
inglês que se tornou membro da Royal Society.
Mas talvez devêssemos chamá-la de teoria laplaciana, já que foi o grande
matemático francês Pierre-Simon, Marquês de Laplace (1749-1827), quem
lhe deu sua primeira formalização completa.
Apesar de suas raízes antigas, foi apenas nos últimos vinte anos que essa
visão ganhou destaque na ciência cognitiva e no aprendizado de máquina.
Um número crescente de pesquisadores começou a perceber que apenas a
abordagem bayesiana, firmemente fundamentada na teoria das probabilidades,
garante a extração do máximo de informações de cada ponto de dados.
Aprender é ser capaz de tirar o maior número possível de inferências de cada
observação, mesmo as mais incertas — e é exatamente isso que garante a
regra de Bayes.
O que Bayes e Laplace descobriram? Simplificando: a maneira
correta de fazer inferências, raciocinando com probabilidades para rastrear
cada observação, por mais tênue que seja, de volta à sua causa mais
plausível. Voltemos aos fundamentos da lógica. Desde os tempos antigos, a
humanidade entendeu como raciocinar com valores
da verdade, verdadeira ou falsa. Aristóteles introduziu as regras de dedução

que chamamos de silogismos, que todos nós aplicamos mais ou menos intuitivamente.
Por exemplo, a regra chamada “modus tollens” (traduzida literalmente como
“método de negar”) diz que se P implica Q e acontece que Q é falso, então P deve
ser falso. É esta regra que Sherlock Holmes aplicou na famosa história “Silver
Blaze”:
“Existe algum outro ponto para o qual você gostaria de chamar minha
atenção?” pergunta o inspetor Gregory da Scotland Yard.
Holmes: “Ao curioso incidente do cachorro durante a noite.”
Gregory: “O cachorro não fez nada durante a noite.”
Holmes: “Esse foi o incidente curioso.”
Sherlock raciocinou que se o cachorro tivesse visto um estranho, ele teria

latido. Como não o fez, o criminoso deve ter sido uma pessoa familiar. . . raciocínio
que permite ao famoso detetive restringir sua busca e, eventualmente, desmascarar
o culpado.
“O que isso tem a ver com aprendizado?” você pode estar se perguntando.
Pois bem, aprender também é raciocinar como um detetive: sempre se resume a
voltar às causas ocultas dos fenômenos, para deduzir o modelo mais plausível
que os governa. Mas no mundo real, as observações raramente são verdadeiras ou
falsas: são incertas e probabilísticas. E é exatamente aí que entram em jogo as
contribuições fundamentais do reverendo Bayes e do marquês de Laplace: a teoria
bayesiana nos diz como raciocinar com probabilidades, que tipos de silogismos
devemos aplicar quando os dados não são perfeitos, verdadeiros ou falsos, mas
probabilístico.
Probability Theory: The Logic of Science é o título de um livro

fascinante sobre teoria bayesiana do estatístico ET Jaynes (1922-98).22 Nele,
ele mostra que o que chamamos de probabilidade nada mais é do que a expressão
de nossa incerteza. A teoria expressa, com precisão matemática, as leis segundo
as quais a incerteza deve evoluir quando fazemos uma nova observação. É o
extensão perfeita da lógica para o domínio nebuloso de probabilidades e

incertezas.
Tomemos um exemplo, semelhante em espírito àquele em que o
O reverendo Bayes fundou sua teoria no século XVIII.
Suponha que eu veja alguém jogar uma moeda. Se a moeda for honesta, é
igualmente provável que dê cara e coroa: cinquenta por cinquenta. A partir
dessa premissa, a teoria clássica da probabilidade nos diz como calcular as
chances de observar certos resultados (por exemplo, a probabilidade de obter
cinco caudas seguidas). A teoria bayesiana nos permite viajar na direção oposta,
das observações às causas. Ele nos diz, de maneira matematicamente precisa,
como responder a perguntas como “Depois de várias jogadas de moeda, devo
mudar minha opinião sobre a moeda?”
A suposição padrão é que a moeda é imparcial. . . mas se eu a vir dar coroa vinte
vezes, terei que revisar minhas suposições: a moeda certamente é manipulada.
Obviamente, minha hipótese original tornou-se improvável, mas em quanto? A
teoria explica precisamente como atualizar nossas crenças após cada observação.
A cada suposição é atribuído um número que corresponde a um nível de
plausibilidade ou confiança. A cada observação, esse número muda por um valor
que depende do grau de improbabilidade do resultado observado. Assim como na
ciência, quanto mais improvável é uma observação experimental, mais ela viola as
previsões de nossa teoria inicial, e com mais confiança podemos rejeitar essa
teoria e procurar interpretações alternativas.
A teoria bayesiana é notavelmente eficaz. Durante a Segunda Guerra

Mundial, o matemático britânico Alan Turing (1912-1954) usou-o para decifrar o
código Enigma. Na época, as mensagens militares alemãs eram criptografadas
pela máquina Enigma, uma engenhoca complexa de engrenagens, rotores e cabos
elétricos, montada para produzir mais de um bilhão de configurações diferentes
que mudavam a cada letra. Todas as manhãs, o criptógrafo colocava a máquina
na configuração específica planejada para aquele dia. Ele então digitava um texto
e a Enigma cuspia uma sequência aparentemente aleatória de letras, que apenas
o dono da chave de criptografia poderia decodificar.
Para qualquer outra pessoa, o texto parecia totalmente desprovido de

qualquer ordem. Mas aqui está a genialidade de Turing: ele descobriu que se
duas máquinas tivessem sido inicializadas da mesma maneira, isso introduzia um
leve viés na distribuição de letras, de modo que as duas mensagens eram um pouco mais
provavelmente se assemelham. Esse viés era tão pequeno que nenhuma

letra era suficiente para concluir algo com certeza. Ao acumular essas
improbabilidades, no entanto, letra após letra, Turing poderia
progressivamente reunir mais e mais evidências de que a mesma
configuração havia de fato sido usada duas vezes. Com base nisso, e com
a ajuda do que eles chamavam caprichosamente de “a bomba” (uma
grande máquina eletromecânica que prefigurava nossos computadores),
ele e sua equipe quebravam regularmente o código da Enigma.
Novamente, qual é a relevância para nossos cérebros? Bem, o
mesmo tipo de raciocínio parece ocorrer dentro do nosso córtex.23 De
acordo com essa teoria, cada região do cérebro formula uma ou mais
hipóteses e envia as previsões correspondentes para outras regiões.
Dessa forma, cada módulo cerebral restringe as suposições do próximo,
trocando mensagens que transmitem previsões probabilísticas sobre o
mundo exterior. Esses sinais são chamados de “top down” porque
começam em áreas cerebrais de alto nível, como o córtex frontal, e descem
para as áreas sensoriais inferiores, como o córtex visual primário. A teoria
propõe que esses sinais expressam o reino das hipóteses que nosso
cérebro considera plausíveis e deseja testar.
Nas áreas sensoriais, essas suposições de cima para baixo

entram em contato com mensagens “de baixo para cima” do mundo
exterior, por exemplo, da retina. Neste momento, o modelo é confrontado
com a realidade. A teoria diz que o cérebro deve calcular um sinal de erro:
a diferença entre o que o modelo previu e o que foi observado. O algoritmo
Bayesiano indica então como usar este sinal de erro para modificar o
modelo interno do mundo. Se não houver erro, significa que o modelo
estava certo.
Caso contrário, o sinal de erro sobe na cadeia de áreas do cérebro e
ajusta os parâmetros do modelo ao longo do caminho. Relativamente
rápido, o algoritmo converge para um modelo mental que se ajusta ao
mundo exterior.
De acordo com essa visão do cérebro, nossos julgamentos
adultos combinam dois níveis de insights: o conhecimento inato de nossa
espécie (o que os Bayesianos chamam de anteriores, os conjuntos de
hipóteses plausíveis herdadas ao longo da evolução) e nossa experiência
pessoal (o posterior: a revisão daquelas hipóteses, com base em todas
as inferências que pudemos colher ao longo de nossa vida). este
a divisão do trabalho encerra o clássico debate “natureza versus criação”:

nossa organização cerebral nos fornece um poderoso kit de inicialização e
uma máquina de aprendizado igualmente poderosa. Todo conhecimento
deve se basear nestes dois componentes: primeiro, um conjunto de
pressupostos a priori, prévios a qualquer interação com o ambiente, e
segundo, a capacidade de classificá-los de acordo com sua plausibilidade a
posteriori, uma vez que tenhamos encontrado alguns dados reais. .
Pode-se demonstrar matematicamente que a abordagem
bayesiana é a melhor maneira de aprender. Esta é a única maneira de extrair
a essência de um episódio de aprendizagem e tirar o máximo proveito dele.
Mesmo alguns pedaços de informação, como as coincidências suspeitas que
Turing detectou no código da Enigma, podem ser suficientes para aprender.
Uma vez que o sistema os processe, como um bom estatístico acumulando
pacientemente evidências, inevitavelmente acabará com dados suficientes
para refutar certas teorias e validar outras.
É realmente assim que o cérebro funciona? É capaz de gerar, ao
nascer, vastos domínios de hipóteses das quais aprende a escolher? Ela
procede por eliminação, selecionando hipóteses de acordo com quão bem os
dados observados as suportam? Os bebês, desde o nascimento, agem como
estatísticos inteligentes? Eles são capazes de extrair o máximo de informações
possível de cada experiência de aprendizagem? Vamos agora dar uma
olhada nos dados experimentais sobre os cérebros dos bebês.
Parte dois
Como nosso cérebro aprende

O debate entre natureza versus criação dura há milênios. São

bebês comparáveis a uma página em branco, uma lousa em branco ou um vazio
garrafa que a experiência deve encher? Já em 400 aC, em A República,
Platão já rejeitava a ideia de que nossos cérebros entram no mundo desprovidos de
qualquer conhecimento. Desde o nascimento, afirmou ele, toda alma possui dois
mecanismos sofisticados: o poder do conhecimento e o órgão pelo qual adquirimos
instrução.
Como acabamos de ver, dois mil anos depois, um
conclusão semelhante surgiu dos avanços no aprendizado de máquina.
A aprendizagem é muito mais eficaz quando a máquina vem equipada com
dois recursos: um vasto espaço de hipóteses, um conjunto de modelos mentais
com inúmeras configurações para escolher; e algoritmos sofisticados que ajustam
essas configurações de acordo com os dados recebidos do mundo exterior. Como um
dos meus amigos disse uma vez, no debate sobre natureza versus criação,
subestimamos ambos! A aprendizagem requer duas estruturas: um imenso conjunto de
modelos potenciais e um algoritmo eficiente para ajustá-los à realidade.
As redes neurais artificiais fazem isso à sua maneira, confiando a

representação de modelos mentais a milhões de conexões ajustáveis. No
entanto, esses sistemas, ao mesmo tempo em que capturam o reconhecimento
rápido e inconsciente de imagens ou falas, ainda não são capazes de representar
hipóteses mais abstratas, como regras gramaticais ou a lógica das operações
matemáticas.
O cérebro humano parece funcionar de maneira diferente: nosso
conhecimento cresce através da combinação de símbolos. De acordo com essa visão,
viemos ao mundo com um grande número de combinações possíveis de pensamentos
potenciais. Essa linguagem de pensamento, dotada de suposições abstratas e regras
gramaticais, já está em vigor antes do aprendizado. Gera um vasto campo de hipóteses
a serem testadas. E para isso, de acordo com a teoria do cérebro bayesiano, nosso
cérebro deve agir como um cientista, coletando dados estatísticos e usando-os para
selecionar o modelo generativo mais adequado.
Essa visão de aprendizagem pode parecer contra-intuitiva. Sugere

que o cérebro de cada bebê humano contém potencialmente todas as
linguagens do mundo, todos os objetos, todos os rostos e todas as ferramentas
que ele encontrará, além de todas as palavras, todos os fatos e todos os
eventos que ele nunca vai se lembrar. A combinatória do cérebro é tal que
todos esses objetos de pensamento já estão potencialmente lá, junto com
suas respectivas probabilidades a priori, bem como a capacidade de atualizá-
los quando a experiência diz que precisam ser revistos. É assim que um bebê
aprende?
CAPÍTULO 3
Conhecimento invisível dos bebês
Na superfície, o que poderia ser mais destituído de conhecimento

do que um recém-nascido? O que poderia ser mais razoável do que
pensar, como fez Locke, que a mente do bebê é uma “lousa em branco”
simplesmente esperando que o ambiente preencha suas páginas vazias?
Jean-Jacques Rousseau (1712-1778) se esforçou para enfatizar esse
ponto em seu tratado Emílio, ou Da Educação (1762): “Nascemos
capazes de aprender, mas não sabendo nada, não percebendo nada”.
Quase dois séculos depois, Alan Turing, o pai da ciência da computação
contemporânea, assumiu a hipótese: “Presumivelmente, o cérebro da
criança é algo como um caderno que se compra na papelaria. Pouco
mecanismo e muitas folhas em branco.”
Agora sabemos que essa visão está totalmente errada – nada
poderia estar mais longe da verdade. As aparências enganam: apesar
de sua imaturidade, o cérebro nascente já possui um considerável
conhecimento herdado de sua longa história evolutiva. Na maioria das
vezes, no entanto, esse conhecimento permanece invisível, porque não
aparece no comportamento primitivo dos bebês. Portanto, os cientistas
cognitivos exigiram muita engenhosidade e avanços metodológicos
significativos para expor o vasto repertório de habilidades com as quais
todos os bebês nascem. Objetos, números, probabilidades, rostos,
linguagem. . . o alcance do conhecimento prévio dos bebês é extenso.
O CONCEITO DE OBJETO
Todos nós temos a intuição de que o mundo é feito de objetos rígidos. Na

realidade, é feito de átomos, mas na escala em que vivemos, esses
átomos são muitas vezes agrupados em entidades coerentes que
movem-se como uma única bolha e às vezes colidem sem perder sua
coesão. . . . Esses grandes feixes de átomos são o que chamamos de
“objetos”. A existência de objetos é uma propriedade fundamental do nosso
ambiente. Isso é algo que precisamos aprender? Não. Milhões de anos de
evolução parecem ter gravado esse conhecimento no âmago de nossos
cérebros. Com poucos meses de idade, o bebê já sabe que o mundo é feito
de objetos que se movem coerentemente, ocupam espaço, não desaparecem
sem razão e não podem estar em dois lugares diferentes ao mesmo tempo . ,
os cérebros dos bebês já conhecem as leis da física: eles esperam que a
trajetória de um objeto seja contínua no espaço como no tempo, sem nenhum
salto ou desaparecimento súbito.
Como nós sabemos disso? Porque os bebês agem surpresos em

certas situações experimentais que violam as leis da física. Nos laboratórios
de ciências cognitivas de hoje, os experimentadores se tornaram mágicos
(veja a figura 5 no encarte colorido). Em pequenos teatros especialmente
projetados para bebês, eles fazem todo tipo de truques: no palco, objetos
aparecem, desaparecem, se multiplicam, atravessam paredes. . . .
Câmeras ocultas monitoram os olhares dos bebês, e os resultados são
claros: até bebês com algumas semanas de idade são sensíveis à magia.
Eles já possuem intuições profundas do mundo físico e, como todos nós,
ficam atordoados quando suas expectativas se revelam falsas. Ao ampliar os
olhos das crianças - para determinar para onde elas olham e por quanto
tempo - os cientistas cognitivos conseguem medir com precisão seu grau de
surpresa e inferir o que esperavam
Vejo.
Esconda um objeto atrás de um livro e, de repente, esmague-o, como

se o objeto escondido não existisse mais (na verdade, escapou por um
alçapão): os bebês ficam boquiabertos! Eles não conseguem entender que
um objeto sólido pode desaparecer no ar. Eles parecem estarrecidos quando
um objeto desaparece atrás de uma tela e reaparece atrás de outra, sem
nunca ser visto no espaço vazio entre as duas telas. Eles também ficam
surpresos quando um pequeno trem rolando por uma ladeira passa sem
problemas por uma parede rígida. E eles esperam que os objetos formem um
todo coerente: se eles virem duas extremidades de um bastão movendo-se
coerentemente em ambos os lados de uma tela, eles esperam que eles
pertençam a um único bastão e ficam chocados quando a tela abaixa e revela
dois bastões distintos (ver abaixo de).
Os bebês, portanto, possuem um vasto conhecimento do mundo,

mas não sabem tudo desde o início, longe disso. Leva alguns meses para
os bebês entenderem como dois objetos podem se apoiar.2 No início, eles
não sabem que um objeto cai quando você o deixa cair. Só muito
gradualmente eles se conscientizam de todos os fatores que fazem um
objeto cair ou ficar parado. Primeiro, eles percebem que os objetos caem
quando perdem o apoio, mas acham que qualquer tipo de contato é suficiente
para manter um objeto imóvel – por exemplo, quando um brinquedo é
colocado na beirada de uma mesa. Progressivamente, eles percebem que o
brinquedo não deve estar apenas em contato com a mesa, mas em cima
dela, não embaixo ou contra ela. Por fim, demoram mais alguns meses para
perceber que essa regra não é suficiente: no final das contas, é o centro de
gravidade do objeto que deve permanecer acima da mesa.
Os bebês possuem intuições extremamente precoces de aritmética, física e até psicologia. Para
avaliá-los, os pesquisadores avaliam se os bebês observam uma cena surpreendente por mais
tempo do que uma não surpreendente. Quando uma caixa contém a maioria das bolas pretas, os
bebês ficam surpresos ao ver uma branca sair (intuição de números e probabilidades). Se as duas
pontas de uma vara se movem coerentemente, os bebês ficam pasmos quando duas varas
diferentes são reveladas (intuição de objetos). E se os bebês veem uma bola se mover de forma
autônoma e pular um muro antes de escapar para o lado direito, eles deduzem que a bola é um
ser vivo com uma intenção própria, e ficam surpresos se ela continuar pulando uma vez que a
parede desapareceu (intuição da psicologia).
Lembre-se disso da próxima vez que seu bebê deixar cair a colher
da mesa pela décima vez, para seu grande desespero: eles estão apenas
experimentando! Como qualquer cientista, as crianças precisam de toda
uma série de tentativas para rejeitar sucessivamente todas as teorias
erradas, na seguinte ordem: (1) os objetos permanecem no ar; (2) devem
tocar em outro objeto para não cair; (3) devem estar em cima de outro
objeto para não cair; (4) a maior parte de seu volume deve estar acima de
outro objeto para não cair, e assim por diante.
Essa atitude experimental continua até a idade adulta. Todos

somos fascinados por engenhocas que parecem violar as leis usuais da
física (balões de hélio, móbiles em equilíbrio, brinquedos roliços com centro
de gravidade deslocado...), e todos gostamos de shows de mágica em que
coelhos desaparecem dentro de um chapéu e as mulheres são serradas em
dois. Essas situações nos divertem porque violam as intuições que nosso
cérebro manteve desde o nascimento e refinou em nosso primeiro ano de vida.
Josh Tenenbaum, professor de inteligência artificial e ciência cognitiva do MIT,
levanta a hipótese de que os cérebros dos bebês hospedam um motor de jogo,
uma simulação mental do comportamento típico de objetos semelhantes aos
que os videogames usam para simular diferentes realidades virtuais. Ao
executar essas simulações em suas cabeças e comparando as simulações
com a realidade, os bebês descobrem muito cedo o que é fisicamente possível
ou provável.
O SENTIDO DO NÚMERO
Vamos dar um segundo exemplo: aritmética. O que poderia ser mais

óbvio do que os bebês não entenderem matemática?
E, no entanto, desde a década de 1980, os experimentos mostraram
exatamente o contrário.3 Em um experimento, os bebês são repetidamente
apresentados a slides mostrando dois objetos. Depois de um tempo, eles
ficam entediados. . . até verem uma foto com três objetos: de repente, eles
olham por mais tempo para essa nova cena, indicando que detectaram a mudança.
Ao manipular a natureza, tamanho e densidade dos objetos, pode-se provar
que as crianças são genuinamente sensíveis ao próprio número, ou seja, o
cardeal de todo o conjunto, não outro parâmetro físico. A melhor prova de que
os bebês possuem um “senso numérico” abstrato é que eles generalizam de
sons para imagens: se eles ouvem tu tu tu tu – isto é, quatro sons – eles estão
mais interessados em uma imagem que tem um número correspondente de
quatro objetos. nele do que em uma foto que tem doze, e vice-versa.4
Experimentos bem controlados desse tipo são abundantes e mostram de forma
convincente que, ao nascer, os bebês já possuem a capacidade intuitiva de
reconhecer um número aproximado sem contar, independentemente de a
informação é ouvido ou
visto.
Os bebês também podem calcular? Suponha que as crianças vejam um
objeto escondido atrás de uma tela, seguido por um segundo. A tela então
abaixa — vejam só, há apenas um objeto! Os bebês manifestam sua

surpresa em uma investigação prolongada da cena inesperada.5 Se,
porém, vêem os dois objetos esperados, olham para eles apenas por um
breve momento. Esse comportamento de “surpresa cognitiva”, em reação à
violação de um cálculo mental, mostra que, já com poucos meses de idade, as
crianças entendem que 1 + 1 deve dar 2. Elas constroem um modelo interno da
cena oculta e saber manipulá-lo adicionando ou removendo objetos. E tais
experimentos funcionam não apenas para 1 + 1 e 2 ÿ 1, mas também para 5 +
5 e 10 ÿ 5. Desde que o erro seja grande o suficiente, bebês de nove meses
ficam surpresos sempre que uma exibição concreta sugere um erro. cálculo:
eles podem dizer que 5 + 5 não pode ser 5, e que 10 ÿ 5 não pode ser 10.6 Isso
é realmente uma habilidade inata? Os primeiros meses de vida seriam
suficientes para uma criança aprender o comportamento de conjuntos de
objetos? Embora as crianças, sem dúvida, refinam a precisão com que
percebem os números7 ao longo dos primeiros meses de vida, os dados
mostram, com a mesma clareza, que o ponto de partida para as crianças não é
uma folha em branco.
Os recém-nascidos percebem os números dentro de algumas horas de vida

– assim como macacos, pombos, corvos, pintinhos, peixes e até salamandras.
E com os pintinhos, os experimentadores controlaram todas as entradas
sensoriais, certificando-se de que os pintinhos não vissem nem mesmo um
único objeto após a eclosão. . . ainda assim, os filhotes reconheciam números.8
Esses experimentos mostram que a aritmética é uma das habilidades
inatas que a evolução nos concede, assim como a muitas outras espécies.
Circuitos cerebrais para números foram identificados em macacos e até
em corvos. Seus cérebros contêm “neurônios numéricos” que se comportam
de maneira muito semelhante: eles estão sintonizados com números específicos
de objetos. Alguns neurônios preferem ver um objeto, outros dois, três, cinco
ou até trinta objetos - e, crucialmente, essas células estão presentes mesmo
em animais que não receberam nenhum treinamento específico.9 Meu
laboratório usou técnicas de imagem cerebral para mostrar que, em locais
homólogos do cérebro humano, nossos circuitos neuronais também contêm
células semelhantes sintonizadas com o número cardinal de um conjunto
concreto – e recentemente, com os avanços nas técnicas de registro, esses
neurônios foram registrados diretamente no hipocampo humano.10
Aliás, esses resultados derrubam vários princípios de uma teoria central
do desenvolvimento infantil, a do grande psicólogo suíço
Jean Piaget (1896-1980). Piaget pensava que as crianças pequenas não eram dotadas
de “permanência de objeto” – o fato de que os objetos continuam a existir quando não
são mais vistos – até o final do primeiro ano de vida. Ele também achava que o conceito
abstrato de número estava além do alcance das crianças nos primeiros anos de vida, e que
elas o aprendiam lentamente, abstraindo-se progressivamente das medidas mais concretas
de tamanho, comprimento e densidade. Na realidade, o oposto é verdadeiro. Conceitos de
objetos e números são características fundamentais de nossos pensamentos; eles fazem
parte do “conhecimento central” com o qual viemos ao mundo e, quando combinados, nos
permitem formular pensamentos mais complexos.11 O senso numérico é apenas um exemplo
do que chamo de conhecimento invisível dos bebês: as intuições que eles possuem desde o
nascimento e que orientam a sua aprendizagem posterior. Aqui estão mais exemplos das
habilidades que os pesquisadores demonstraram em bebês com apenas algumas
semanas de idade.
A INTUIÇÃO DAS PROBABILIDADES
Passar de números para probabilidades leva apenas um passo. . . um passo que

pesquisadores deram recentemente ao se perguntar se bebês de alguns meses poderiam
prever o resultado de um sorteio de loteria. Neste experimento, os bebês são apresentados
primeiro a uma caixa transparente contendo bolas que se movem aleatoriamente. São
quatro bolas: três vermelhas e uma verde. Na parte inferior, há uma saída. Em algum
momento, o recipiente é ocluído e, em seguida, uma bola verde ou vermelha sai do fundo.
Notavelmente, a surpresa da criança está diretamente relacionada à improbabilidade do
que ela vê: se uma bola vermelha sair – o evento mais provável, já que a maioria das bolas
da caixa são vermelhas – o bebê olha para ela apenas por um breve momento. . . . ao
passo que se ocorrer o resultado mais improvável, ou seja, uma bola verde que teve
apenas uma chance em quatro de sair, o bebê a olha por muito mais tempo.
Os controles subsequentes confirmam que os bebês correm, em seus pequenos

cabeças, uma simulação mental detalhada da situação e as probabilidades
associadas. Assim, se introduzirmos uma divisória que bloqueie as bolas, ou se
aproximarmos ou afastarmos as bolas da saída, ou se variarmos o tempo antes de as
bolas saírem da caixa, teremos
descobrem que os bebês integram todos esses parâmetros em seu cálculo mental
de probabilidade. A duração de seu olhar sempre reflete a improbabilidade da situação
observada, que eles parecem computar com base no número de objetos envolvidos.
Todas essas habilidades superam as habilidades neurais artificiais mais atuais.

redes. De fato, a reação de surpresa dos bebês está longe de ser trivial.
Estar surpreso indica que o cérebro foi capaz de estimar as probabilidades
subjacentes e concluiu que o evento observado tinha apenas uma pequena chance de
ocorrer. Como os olhares dos bebês mostram elaborados sinais de surpresa, seus
cérebros devem ser capazes de cálculos probabilísticos. De fato, uma das teorias atuais
mais populares da função cerebral vê o cérebro como um computador probabilístico que
manipula distribuições de probabilidade e as usa para antecipar eventos futuros.
Experimentos infantis revelam que até os bebês estão equipados com uma calculadora
tão sofisticada.
Uma série de estudos recentes mostra ainda que os bebês vêm equipados
com todos os mecanismos para fazer inferências probabilísticas complexas. Você
se lembra da teoria matemática das probabilidades do reverendo Bayes, que nos
permite rastrear uma observação até suas prováveis causas? Pois bem, até bebês
de alguns meses já parecem raciocinar de acordo com a regra de Bayes . observações
de volta ao conteúdo da caixa (inferência reversa). Em um experimento, primeiro
mostramos aos bebês uma caixa opaca, cujo conteúdo está oculto. Então trazemos
uma pessoa com os olhos vendados, que aleatoriamente tira uma série de bolas. As
bolas aparecem uma após a outra e verifica-se que a maioria é vermelha. Os bebês
podem inferir que a caixa deve conter uma abundância de bolas vermelhas? Sim!
Quando finalmente abrimos a caixa e mostramos que ela contém a maioria das bolas
verdes, eles ficam surpresos e parecem mais compridos do que se a caixa estivesse
cheia de bolas vermelhas. A lógica deles é impecável: se a caixa está cheia
principalmente de bolas verdes, como explicamos que o sorteio aleatório rendeu tantas
bolas vermelhas?
Mais uma vez, esse comportamento pode não parecer muito, mas implica uma
extraordinária capacidade de raciocínio implícito e inconsciente que funciona em ambas
as direções: dada uma amostra, os bebês podem adivinhar as características do
conjunto do qual foi extraída; e vice versa,
dado um conjunto, eles conseguem adivinhar como uma amostra aleatória deve
parecer.
Desde o nascimento, portanto, nosso cérebro já é dotado de uma
lógica intuitiva. Existem agora muitas variações desses experimentos básicos.
Todos eles demonstram até que ponto as crianças se comportam como cientistas
iniciantes que raciocinam como bons estatísticos, eliminando as hipóteses menos
prováveis e procurando as causas ocultas de vários fenômenos.13 Por exemplo, o
psicólogo americano Fei Xu mostrou que, se crianças de onze meses ver uma pessoa
tirar a maioria das bolas vermelhas de um recipiente e descobrir que o recipiente contém
a maioria das bolas amarelas, eles ficam surpresos, é claro, mas também fazem uma
inferência adicional: que a pessoa prefere as bolas vermelhas! 14 E se eles virem que
um sorteio não é aleatório, mas segue um padrão específico, digamos, uma alternância
perfeita de uma bola amarela, uma bola vermelha, uma bola amarela, uma bola vermelha
e assim por diante, então eles deduzem que um humano, não uma máquina, fez o
sorteio.15
Lógica e probabilidade estão intimamente ligadas. Como Sherlock Holmes

coloque: “Quando você elimina o impossível, o que resta, por mais improvável
que seja, deve ser a verdade”. Em outras palavras, pode-se transformar uma
probabilidade em uma certeza usando o raciocínio para eliminar algumas das
possibilidades. Se um bebê pode fazer malabarismos com probabilidades, ele também
deve dominar a lógica, porque o raciocínio lógico é apenas a restrição do raciocínio
probabilístico às probabilidades 0 e 1.16 Foi exatamente isso que o filósofo e psicólogo
do desenvolvimento Luca Bonatti mostrou recentemente. Em seus experimentos, um
bebê de dez meses vê pela primeira vez dois objetos, uma flor e um dinossauro,
escondidos atrás de uma tela. Em seguida, um desses objetos sai da tela, mas é
impossível dizer qual porque está parcialmente escondido em um pote, de modo que
apenas o topo pode ser visto. Mais tarde, o dinossauro sai do outro lado da tela, à
vista. Nesse ponto, a criança pode fazer uma dedução lógica: “Ou é a flor ou o
dinossauro que está escondido no vaso. Mas não pode ser o dinossauro, porque acabei
de vê-lo sair do outro lado.
Então, deve ser a flor.” E funciona: o bebê não fica surpreso se a flor sair do vaso, mas
fica se o dinossauro sair. Além disso, o olhar do bebê reflete a intensidade de seu
raciocínio lógico: como um adulto, suas pupilas se dilatam no exato momento em que a
dedução se torna possível. Um verdadeiro Sherlock
Holmes em fraldas, o bebê parece começar com várias hipóteses (é a flor

ou o dinossauro) e depois elimina algumas delas (não pode ser o dinossauro),
passando da probabilidade à certeza (deve ser a flor) .
“A teoria da probabilidade é a linguagem da ciência”, diz Jaynes—

e os bebês já falam essa língua: muito antes de pronunciar suas
primeiras palavras, eles manipulam probabilidades e as combinam em
silogismos sofisticados. Seu senso de probabilidade lhes permite tirar
conclusões lógicas das observações que fazem. Eles estão
constantemente experimentando, e seus cérebros de cientistas em
desenvolvimento acumulam incessantemente as conclusões de suas
pesquisas.
CONHECIMENTO DE ANIMAIS E PESSOAS
Embora os bebês tenham um bom modelo do comportamento de

objetos inanimados, eles também sabem que existe outra categoria de
entidades que se comportam de maneira totalmente diferente: coisas
animadas. Desde o primeiro ano de vida, os bebês entendem que animais
e pessoas têm um comportamento específico: são autônomos e movidos
por seus próprios movimentos. Portanto, eles não precisam esperar que
outro objeto esbarre neles, como uma bola de bilhar, para se movimentar.
Seu movimento é motivado de dentro, não causado de fora.
Os bebês, portanto, não ficam surpresos ao ver os animais se
moverem sozinhos. De fato, para eles, qualquer objeto que se mova
sozinho, mesmo que seja em forma de triângulo ou quadrado, é
imediatamente rotulado como “animal”, e a partir desse momento tudo
muda. Uma criança pequena sabe que os seres vivos não precisam se
mover de acordo com as leis da física, mas que seus movimentos são
governados por suas intenções e crenças.
Tomemos um exemplo: se mostrarmos aos bebês uma esfera que se
move em linha reta, pula um muro, depois se dirige para a direita, pouco a
pouco, eles vão se cansar dela. Eles estão simplesmente se acostumando
com esse movimento peculiar? Não, na verdade, eles entendem muito mais.
Eles deduzem que este é um ser animado com uma intenção específica: ele
quer se mover para a direita! Além disso, eles podem dizer que o objeto está
altamente motivado, porque ele pula um muro alto para chegar lá. Agora
vamos remover a parede. Nesse cenário, os bebês não são
ficam surpresos se virem a esfera mudar seu movimento e se mover para a

direita em linha reta, sem pular – esta é simplesmente a melhor maneira de
atingir seu objetivo. Por outro lado, os bebês abrem bem os olhos se a esfera
continuar a pular no ar sem motivo específico, já que a parede desapareceu!
Na ausência de uma parede, a mesma trajetória do primeiro cenário deixa os
bebês surpresos, porque eles não entendem que intenção estranha a esfera
pode ter.17 Outros experimentos mostram que as crianças rotineiramente
inferem as intenções e preferências das pessoas. Em particular, eles entendem
que quanto mais alto o muro, maior deve ser a motivação da pessoa para pular
por cima dele. A partir de suas observações, os bebês podem inferir não apenas
os objetivos e intenções daqueles ao seu redor, mas também suas crenças,
habilidades e preferências.18 A noção de seres vivos dos bebês não termina aí.
Por volta dos dez meses, os bebês começam a atribuir personalidades às
pessoas: se veem alguém jogar uma criança no chão, por exemplo,
deduzem que essa pessoa é mal-intencionada e se afastam dela. Eles claramente
preferem uma segunda pessoa que ajude a criança a se levantar.19 Muito antes
de serem capazes de pronunciar as palavras mesquinho e agradável, eles são
capazes de formular esses conceitos em sua linguagem de pensamento. Tal
julgamento é bastante sutil: mesmo um bebê de nove meses pode distinguir entre
alguém que intencionalmente faz mal e alguém que o faz por acidente, ou alguém
que intencionalmente se recusa a ajudar outra pessoa e alguém que não tem a
oportunidade de ajudar .20 Como veremos mais adiante, essa habilidade social
desempenha um papel fundamental na aprendizagem. De fato, até uma criança
de um ano entende se alguém está tentando lhe ensinar alguma coisa.
Ele pode dizer a diferença entre uma ação comum e uma ação com o objetivo
de ensinar algo novo. Nesse sentido, uma criança de um ano já possui, segundo
o psicólogo húngaro György Gergely, um senso inato de pedagogia.
PERCEPÇÃO DA FACE
Uma das primeiras manifestações das habilidades sociais dos bebês é a

percepção de rostos. Para os adultos, o menor indício é suficiente para
desencadear a percepção de um rosto: um desenho animado, um smiley, uma
máscara. . . . Algumas pessoas até detectam o rosto de Jesus Cristo na neve ou em
brinde! Notavelmente, essa hipersensibilidade a rostos já está presente no

nascimento: um bebê de poucas horas vira a cabeça mais rapidamente para
um rosto sorridente do que para uma imagem semelhante virada de cabeça
para baixo (mesmo que o experimentador assegure que o recém-nascido
nunca teve a chance de ver um rosto). Uma equipe ainda conseguiu apresentar
um padrão de luz aos fetos através da parede do útero.21 Surpreendentemente,
os pesquisadores mostraram que três pontos dispostos em forma de rosto ( )
atraíam o feto mais do que três pontos dispostos em forma de um pirâmide
( ). O reconhecimento facial parece começar no útero!
Muitos pesquisadores acreditam que essa atração magnética para rostos
desempenha um papel essencial no desenvolvimento inicial do apego –
especialmente porque um dos primeiros sintomas do autismo é evitar o
contato visual. Ao atrair nossos olhos para os rostos, um viés inato nos
forçaria a aprender a reconhecê-los – e, de fato, já alguns meses após o
nascimento, uma região do córtex visual do hemisfério direito começa a
responder mais aos rostos do que aos outras imagens, como lugares.22 A
especialização para rostos é um dos melhores exemplos da colaboração
harmoniosa entre natureza e criação. Nesse domínio, os bebês exibem
habilidades estritamente inatas (uma atração magnética por imagens
semelhantes a rostos), mas também um instinto extraordinário para aprender
as especificidades da percepção de rostos. É justamente a combinação desses
dois fatores que permite que os bebês, em pouco menos de um ano, deixem
de reagir ingenuamente à mera presença de dois olhos e uma boca e passem
a preferir rostos humanos aos de outros primatas, como macacos e
chimpanzés.23
O INSTINTO DA LINGUAGEM
As habilidades sociais das crianças pequenas se manifestam não apenas

na visão, mas também no domínio auditivo – a linguagem falada chega a
elas tão facilmente quanto a percepção do rosto. Como Steven Pinker
observou em seu livro best-seller The Language Instinct (1994), “Os seres
humanos são tão inatamente conectados à linguagem que não podem
suprimir sua capacidade de aprender e usar a linguagem mais do que
podem suprimir o instinto de puxar a mão para trás. de uma superfície
quente.” Esta afirmação não deve ser mal interpretada: obviamente, os bebês
não nascem com um léxico e uma gramática completos, mas possuem uma
capacidade notável de adquiri-los em tempo recorde. O que é
embutido neles não é tanto a linguagem em si, mas a capacidade de

adquiri-la.
Muitas evidências agora confirmam essa percepção inicial.
Desde o nascimento, os bebês já preferem ouvir sua língua nativa em vez
de uma estrangeira24 – uma descoberta verdadeiramente extraordinária
que implica que o aprendizado da língua começa no útero. De fato, no
terceiro trimestre de gravidez, o feto já é capaz de ouvir. A melodia da
linguagem, filtrada pela parede uterina, passa para os bebês, e eles
começam a memorizá-la. “Assim que o som de sua saudação chegou aos
meus ouvidos, o bebê em meu ventre pulou de alegria”, disse a grávida
Isabel quando Maria a visitou.25 O evangelista não se enganou: nos
últimos meses de gravidez, o feto em crescimento o cérebro já reconhece
certos padrões auditivos e melodias, provavelmente inconscientemente.26
Essa habilidade inata é obviamente mais fácil de estudar em bebês
prematuros do que em fetos. Fora do útero, podemos equipar suas
cabeças minúsculas com eletroencefalografia em miniatura e sensores de
fluxo sanguíneo cerebral e espiar em seus cérebros. Com esse método,
minha esposa, a professora Ghislaine Dehaene-Lambertz, descobriu que
mesmo bebês nascidos dois meses e meio antes do termo respondem à
linguagem falada: seu cérebro, embora imaturo, já reage a mudanças nas
sílabas, bem como nas vozes . Durante muito tempo pensou-se que a
aquisição da linguagem não começa até um ou dois anos de idade. Por
quê? Porque – como sugere seu nome latino, infans – uma criança
recém-nascida não fala e, portanto, esconde seus talentos. E, no entanto,
em termos de compreensão da linguagem, o cérebro de um bebê é um
verdadeiro gênio estatístico. Para mostrar isso, os cientistas tiveram que
empregar toda uma panóplia de métodos originais, incluindo a medição
das preferências dos bebês por estímulos de fala e não fala, suas respostas
a mudanças, a gravação de seus sinais cerebrais. . . . Esses estudos
deram resultados convergentes e revelaram o quanto os bebês já sabem
sobre linguagem. Logo no nascimento, os bebês podem dizer a diferença
entre a maioria das vogais e consoantes em todas as línguas do mundo.
Eles já os percebem como categorias. Tomemos, por exemplo, as sílabas /
ba/, /da/ e /ga/: mesmo que os sons correspondentes variem continuamente,
os cérebros dos bebês as tratam como categorias distintas separadas por
bordas nítidas, assim como os adultos.
Essas habilidades inatas iniciais são moldadas pelo ambiente

linguístico durante o primeiro ano de vida. Os bebês percebem rapidamente
que certos sons não são usados em seu idioma: os falantes de inglês nunca
pronunciam vogais como o francês /u/ e /eu/, e os locutores japoneses não
conseguem diferenciar entre /R/ e /L/. Em apenas alguns meses (seis para
vogais, doze para consoantes), o cérebro do bebê ordena suas hipóteses
iniciais e guarda apenas os fonemas relevantes para as línguas presentes
em seu ambiente.
Mas isso não é tudo: os bebês começam a aprender rapidamente suas primeiras palavras.
Como eles fazem para identificá-los? Primeiro, os bebês contam com
a prosódia, o ritmo e a entonação da fala — a maneira como nossas vozes
sobem, descem ou param, marcando assim os limites entre palavras e
frases. Outro mecanismo identifica quais sons da fala se sucedem. Mais
uma vez, os bebês se comportam como estatísticos iniciantes.
Eles percebem, por exemplo, que a sílaba /bo/ é frequentemente seguida
por /t^l/. Um cálculo rápido de probabilidades lhes diz que isso não pode ser
devido ao acaso: /t^l/ segue /bo/ com uma probabilidade muito alta; essas
sílabas devem formar uma palavra, “garrafa” – e é assim que essa palavra é
adicionada ao vocabulário da criança e pode posteriormente ser relacionada
a um objeto ou conceito específico.28 A partir dos seis meses de idade, as
crianças já extraíram as palavras que se repetem com alta frequência em
seu ambiente, como “bebê”, “papai”, “mamãe”, “mamadeira”, “pé”, “bebida”,
“fralda” e assim por diante. Essas palavras ficam gravadas em sua memória
a tal ponto que, quando adultas, continuam a ter um status especial e são
processadas de forma mais eficaz do que outras palavras de significado,
som e frequência comparáveis adquiridas mais tarde na vida.
A análise estatística também permite que os bebês identifiquem certas

palavras que ocorrem com mais frequência do que outras: pequenas
palavras gramaticais, como artigos (a, an, the) e pronomes (I, you, he, she,
it...). No final do primeiro ano, os bebês já conhecem muitos deles e os usam
para encontrar outras palavras. Se, por exemplo, eles ouvirem um de seus
pais dizer: “Eu fiz um bolo”, eles podem analisar as pequenas palavras
funcionais “I” e “a” e, por eliminação, descobrir que “feito” e “bolo” são
também palavras. Eles já entendem que um substantivo geralmente vem
depois de um artigo e um verbo geralmente vem depois de um pronome – a
tal ponto que, por volta dos vinte meses de idade,
os bebês reagem com total surpresa se ouvirem frases incoerentes como

“eu mamadeira” ou “acabamentos”.
É claro que essa análise probabilística não é totalmente infalível.
Quando as crianças francesas ouvem “un avion” (um avião), que é
pronunciado com uma ligação (o n de “un” se funde com o a de
“avion”), eles inferem indevidamente a existência da palavra navion
(“Regarde le navion !”). Por outro lado, os falantes de inglês importaram a
palavra francesa napperon (lugarista) e, devido à análise incorreta da frase
un napperon, inventaram a palavra avental.
Tais deficiências são raras, no entanto. Em poucos meses,
as crianças rapidamente conseguem superar qualquer algoritmo
de inteligência artificial existente. No momento em que apagam sua primeira
vela, eles já estabeleceram as bases para as principais regras de sua língua
nativa em vários níveis, desde sons elementares (fonemas) até melodia
(prosódia), vocabulário (léxico) e regras gramaticais ( sintaxe).
Nenhuma outra espécie de primata é capaz de tais habilidades. Esta

mesma experiência foi tentada muitas vezes: vários cientistas tentaram
adotar chimpanzés bebês, tratando-os como membros da família, falando
com eles em inglês ou linguagem de sinais ou com símbolos visuais. . .
apenas para descobrir, alguns anos depois, que nenhum desses animais
dominava uma linguagem digna desse nome: eles sabiam, no máximo,
algumas centenas de palavras.30 O linguista Noam Chomsky, portanto,
provavelmente estava certo ao postular que nossa espécie nasce com um
“dispositivo de aquisição de linguagem”, um sistema especializado que é
acionado automaticamente nos primeiros anos de vida. Como Darwin disse
em The Descent of Man (1871), a linguagem “certamente não é um
verdadeiro instinto, pois toda linguagem deve ser aprendida”, mas é “uma
tendência instintiva de adquirir uma arte”. O que é inato em nós é o instinto
de aprender qualquer língua — um instinto tão irreprimível que a linguagem
aparece espontaneamente dentro de algumas gerações em humanos
privados dela. Mesmo nas comunidades surdas, uma língua de sinais
altamente estruturada, com características linguísticas universais, emerge a
partir da segunda geração.31
CAPÍTULO 4
O nascimento de um cérebro
A criança nasce com um cérebro inacabado e não, como afirmava o

postulado da antiga pedagogia, com um cérebro desocupado.
Gaston Bachelard, A filosofia do não: uma filosofia do

Nova Mente Científica (1940)
Gênio sem educação é como prata na mina.
Benjamin Franklin (1706-1790)
O fato de os recém-nascidos apresentarem imediatamente

um conhecimento sofisticado de objetos, números, pessoas e
linguagens refuta a hipótese de que seus cérebros não passam de lousas em
branco, esponjas que absorvem tudo o que o ambiente lhes impõe. Segue-se
uma previsão simples: se pudéssemos dissecar o cérebro de um recém-nascido,
deveríamos observar, ao nascimento e talvez ainda mais cedo, estruturas
neuronais bem organizadas correspondentes a cada um desses grandes
domínios do conhecimento.
Essa ideia tem sido contestada há muito tempo. Até cerca de vinte anos
atrás, o cérebro do recém-nascido era terra incógnita. A imagem cerebral
acabava de ser inventada — ainda não havia sido aplicada a cérebros em
desenvolvimento — e a visão teórica predominante era a do empirismo, a
ideia de que o cérebro nasce vazio de todo conhecimento, influenciado apenas
por seu ambiente. Foi somente com o advento de métodos sofisticados de
ressonância magnética (RM) que finalmente conseguimos visualizar a
organização inicial do cérebro humano e descobrir que, de acordo com nossas
expectativas,
praticamente todos os circuitos do cérebro adulto já estão presentes no de um

bebê recém-nascido.
O CÉREBRO INFANTIL ESTÁ BEM ORGANIZADO
Minha esposa, Ghislaine Dehaene-Lambertz, e eu, juntamente com nossa

colega neurologista Lucie Hertz-Pannier, fomos os primeiros a usar ressonância
magnética funcional em bebês de dois meses . . Quinze anos de experiência clínica
os convenceram de que a ressonância magnética era um exame inofensivo que se
poderia prescrever a indivíduos de qualquer idade, inclusive prematuros. No entanto,
os profissionais recorriam a essa tecnologia apenas para fins diagnósticos, a fim de
detectar lesões precoces. Ninguém havia usado ressonância magnética funcional em
bebês com desenvolvimento normal para ver se seus circuitos cerebrais poderiam ser
ativados seletivamente para certos estímulos. Para conseguir isso, tivemos que
superar toda uma série de dificuldades. Projetamos um capacete redutor de ruído
para proteger os bebês do barulho alto da máquina; nós os mantínhamos parados,
enrolando-os confortavelmente em um berço feito para se ajustar ao formato da bobina
de ressonância magnética; nós os tranquilizamos adaptando-os progressivamente ao
ambiente incomum; e ficamos permanentemente de olho neles de fora da máquina.
No final, nossos esforços foram recompensados com resultados espetaculares.

Escolhemos focar na linguagem porque sabíamos que os bebês começaram a
aprendê-la muito rapidamente ao longo de seu primeiro ano de vida. E, de fato,
observamos que, dois meses após o nascimento, quando os bebês ouviam frases
em sua língua nativa, eles ativavam as mesmas regiões do cérebro que os adultos
(veja a figura 6 na inserção colorida).
Quando ouvimos uma frase, a primeira região do córtex a ser ativada é

a área auditiva primária – este é o ponto de entrada para todas as informações
auditivas no cérebro. Essa área também se iluminou no cérebro infantil assim que a
frase começou. Isso pode parecer óbvio para você, mas na época não era evidente
para bebês muito pequenos. Alguns pesquisadores presumiram que as áreas
sensoriais do cérebro das crianças são tão desorganizadas no nascimento que seus
sentidos tendem a se misturar. De acordo com esses pesquisadores, por várias
semanas, o cérebro de um bebê mistura audição, visão e tato, e leva algum tempo
para
que o bebê aprenda a separar essas modalidades sensoriais.2 Sabemos

hoje que isso é falso – desde o nascimento, a audição ativa as áreas
auditivas, a visão ativa as áreas visuais e o toque ativa as áreas associadas
à sensação tátil, sem que tenhamos que aprenda isto. A subdivisão do córtex
em territórios distintos para cada um dos sentidos nos é dada por nossos
genes. Todos os mamíferos o possuem, e sua origem se perde na
arborescência de nossa evolução (veja a figura 7 no encarte colorido).3 Mas
voltemos ao nosso experimento em que bebês ouviam frases no scanner de
ressonância magnética. Depois de entrar na área auditiva primária, a
atividade se espalhou rapidamente. Uma fração de segundo depois, outras
áreas se iluminaram, em ordem fixa: primeiro, as regiões auditivas
secundárias, adjacentes ao córtex sensorial primário; em seguida, todo um
conjunto de regiões do lobo temporal, formando um fluxo gradual; e
finalmente a área de Broca, na base do lobo frontal esquerdo, simultaneamente
com a ponta do lobo temporal. Essa sofisticada cadeia de processamento de
informações, lateralizada para o hemisfério esquerdo, é notavelmente
semelhante à de um adulto. Aos dois meses, os bebês já ativam a mesma
hierarquia de áreas fonológicas, lexicais, sintáticas e semânticas do cérebro
que os adultos. E, assim como nos adultos, quanto mais o sinal sobe na
hierarquia do córtex, mais lentas são as respostas cerebrais e mais essas
áreas integram informações em um nível cada vez mais alto (veja a figura 6
na inserção colorida).4
É claro que bebês de dois meses ainda não entendem o

frases que ouvem; eles ainda precisam descobrir palavras e regras
gramaticais. No entanto, em seus cérebros, a informação linguística é
canalizada em circuitos altamente especializados semelhantes aos dos
adultos. Os bebês aprendem a entender e a falar tão rapidamente –
enquanto todos os outros primatas são incapazes de fazê-lo – provavelmente
porque seu hemisfério esquerdo vem equipado com uma hierarquia
predeterminada de circuitos especializados em detectar regularidades
estatísticas para todos os aspectos da fala: som, palavra, frase, e texto.
ESTRADAS DE LÍNGUAS
A atividade flui por todas essas áreas do cérebro em uma ordem

específica porque elas estão conectadas umas às outras. Nos adultos,
estamos começando a entender quais vias neuronais se interligam
as regiões linguísticas. Em particular, os neurologistas descobriram que

um grande cabo feito de milhões de fibras nervosas, chamado de “fascículo
arqueado”, conecta as áreas de linguagem temporal e parietal na parte
posterior do cérebro com áreas frontais, notadamente a famosa área de Broca.
Esse feixe de conexões é um marcador da evolução da linguagem. É muito
maior no hemisfério esquerdo, que, em 96% dos destros, é dedicado à
linguagem. Sua assimetria é específica dos humanos e não é observada em
outros primatas, nem mesmo em nossos primos mais próximos, os chimpanzés.
Mais uma vez, essa característica anatômica não é fruto de

aprendizagem: está lá desde o início. De fato, quando examinamos as
conexões do cérebro de um recém-nascido, descobrimos que não apenas
o fascículo arqueado, mas todos os principais feixes de fibras que
conectam as áreas corticais e subcorticais do cérebro estão no lugar no
nascimento (veja a figura 8 no encarte colorido).5 Essas “estradas do
cérebro” são construídas durante o terceiro trimestre da gravidez.
Durante a construção do córtex, cada neurônio excitatório em crescimento
envia seu axônio para explorar as regiões vizinhas, às vezes até vários
centímetros de distância, como um Cristóvão Colombo do cérebro. Essa
exploração é guiada e canalizada por mensagens químicas, moléculas cujas
concentrações variam de uma região para outra e que atuam como rótulos
espaciais. A cabeça do axônio literalmente fareja esse caminho químico
estabelecido por nossos genes e deduz a direção em que ele deve seguir.
Assim, sem qualquer intervenção do mundo exterior, o cérebro se auto-
organiza em uma rede de conexões cruzadas, várias das quais são
específicas da espécie humana. Como veremos em breve, essa rede pode
ser ainda mais refinada por meio do aprendizado – mas o andaime inicial é
inato e construído no útero.
Devemos nos surpreender? Há apenas vinte anos, muitos

pesquisadores consideravam extremamente improvável que o cérebro
fosse outra coisa senão uma massa desorganizada de conexões
aleatórias.6 Eles não podiam imaginar que nosso DNA, que contém
apenas um número limitado de genes, pudesse hospedar um projeto
detalhado do circuitos altamente especializados que suportam a visão, a
linguagem e as habilidades motoras. Mas este é um raciocínio impróprio.
Nosso genoma contém todos os detalhes do nosso corpo: sabe fazer um
coração com quatro câmaras; rotineiramente constrói dois olhos, vinte e quatro vértebras,
a orelha interna e seus três canais perpendiculares, dez dedos e suas

falanges, todos com extrema reprodutibilidade. . . então por que não um
cérebro com múltiplas sub-regiões internas?
Avanços recentes em imagens biológicas revelaram como, já nos
primeiros dois meses de gravidez, quando os dedos da mão ainda são
apenas brotos, eles já são invadidos por três nervos, o radial, o mediano
e o ulnar, cada um direcionado pontos finais específicos (veja a figura 8
no encarte colorido).7 A mesma mecânica de alta precisão pode, portanto,
existir no cérebro: assim como o botão da mão se divide em cinco dedos,
o córtex se subdivide em várias dezenas de regiões altamente
especializadas separadas por bordas nítidas (veja a figura 9 na inserção
colorida).8 Já nos primeiros meses de gravidez, muitos genes são
expressos seletivamente em diferentes pontos do córtex.9 Por volta das
28 semanas de gestação, o cérebro começa a se dobrar e aparecem os
principais sulcos que caracterizam o cérebro humano. Em fetos de 35
semanas de idade, todas as pregas principais do córtex estão bem
formadas, e já pode ser observada a assimetria característica da região
temporal, que abriga as áreas da linguagem.10
A AUTO-ORGANIZAÇÃO DO CORTEX
Ao longo da gravidez, à medida que as conexões corticais se

desenvolvem, o mesmo acontece com as dobras corticais
correspondentes. No segundo trimestre, o córtex é inicialmente liso;
então, surge um primeiro conjunto de cristas, que lembram o cérebro do
macaco; e, finalmente, começamos a ver as dobras secundárias e
terciárias típicas do cérebro humano — dobras sobre dobras sobre
dobras. Sua epigênese gradualmente se torna cada vez mais dependente
da atividade do sistema nervoso. Dependendo do feedback que o cérebro
recebe dos sentidos, alguns circuitos se estabilizam, enquanto outros,
inúteis, degeneram. Assim, o dobramento do córtex motor acaba sendo
um pouco diferente em canhotos e destros. Curiosamente, indivíduos
canhotos que foram forçados a escrever com a mão direita quando
crianças mostram uma espécie de compromisso: a forma de seu córtex
motor é típica de um canhoto, mas seu tamanho exibe a assimetria
esquerda-direita de uma pessoa destra .11 Como concluem os autores deste estudo, “c
A morfologia em adultos mantém um registro acumulado de vieses inatos e

experiências iniciais de desenvolvimento”.
As dobras corticais no cérebro do feto devem sua formação
espontânea a um processo de auto-organização bioquímica que depende tanto
dos genes quanto do ambiente químico das células, exigindo pouquíssima
informação genética e nenhum aprendizado . quase tão paradoxal quanto parece
— na verdade, é onipresente na Terra. Imagine o córtex como uma praia de areia
na qual se formam ondulações e poças, em várias escalas, conforme as marés
vêm e vão. Ou imagine-o como um deserto em que surgem rugas e dunas sob a
ação implacável do vento. De fato, listras, manchas e células hexagonais surgem
em todos os tipos de sistemas biológicos ou físicos em muitas escalas, de
impressões digitais a pele de zebra, manchas de leopardo, colunas de basalto em
vulcões, dunas do deserto e nuvens regularmente espaçadas em um céu de verão.
O matemático britânico Alan Turing foi o primeiro a explicar esse fenômeno: basta
um processo de amplificação local e inibição à distância. Quando o vento sopra
sobre uma praia, à medida que os grãos de areia começam a se acumular, inicia-se
um processo de autoamplificação: a saliência emergente tende a pegar outros grãos
de areia, enquanto atrás dela, o vento rodopia e arranca a areia; depois de algumas
horas, nasce uma duna. Assim que há excitação e inibição local à distância,
podemos ver surgir uma região densa (a duna), cercada por uma região menos
densa (o lado oco), ela própria seguida por outra duna, ad infinitum. Dependendo
das circunstâncias exatas, os padrões que surgem espontaneamente formam
pontos, listras ou hexágonos.
A auto-organização é onipresente no cérebro em desenvolvimento: nossa

o córtex está cheio de colunas, listras e bordas nítidas. A segregação
espacial parece ser um dos mecanismos pelos quais os genes dispõem módulos
neuronais especializados para processar diferentes tipos de informação. O córtex
visual, por exemplo, é coberto por bandas alternadas que processam informações
dos olhos esquerdo e direito – são chamadas de “colunas de dominância ocular” e
emergem espontaneamente no cérebro em desenvolvimento, usando as informações
decorrentes da atividade intrínseca na retina. Mas mecanismos semelhantes de
auto-organização podem ocorrer em um nível superior, não necessariamente para
revestir a superfície do córtex, mas para cobrir um espaço mais abstrato. Um
Um dos exemplos mais espetaculares é a existência de células de grade

— neurônios que codificam a localização de um rato pavimentando o espaço
com uma grade de triângulos e hexágonos (veja a figura 10 no encarte colorido).
As células de grade são neurônios localizados em uma região específica
do cérebro do rato chamada “córtex entorrinal”. Edvard e May-Britt Moser
ganharam o Prêmio Nobel em 2014 por descobrir suas notáveis propriedades
geométricas. Eles foram os primeiros a registrar neurônios no córtex entorrinal
enquanto o animal se movia em uma sala muito grande . o animal estava em um
local específico da sala. A descoberta inovadora do Moser foi que as células da
grade não respondem a apenas um único lugar, mas a todo um conjunto de
posições. Além disso, esses locais privilegiados que faziam uma determinada
célula disparar eram regularmente dispostos: formavam uma rede de triângulos
equiláteros que se agrupavam para formar hexágonos, um pouco como as
manchas na pele de uma girafa ou as colunas de basalto nas rochas vulcânicas!
Sempre que o animal anda, mesmo na escuridão, o disparo de cada célula da
grade diz ao rato onde está em relação a uma rede de triângulos que abrange
todo o espaço. O comitê do Nobel chamou corretamente esse sistema de “GPS
do cérebro”: ele fornece um sistema de coordenadas neuronais altamente
confiável que mapeia o espaço externo.
Mas por que os mapas neuronais usam triângulos e hexágonos, em vez de

do que os retângulos e linhas perpendiculares de nossos gráficos usuais?
Desde Descartes, matemáticos e cartógrafos sempre se basearam em dois
eixos perpendiculares chamados “coordenadas cartesianas” (x e y, abscissa e
ordenada, longitude e latitude). Por que o cérebro do rato prefere confiar em um
conjunto de triângulos e hexágonos? Muito provavelmente porque os neurônios
das células da grade se auto-organizam durante o desenvolvimento – e na
natureza, essa auto-organização frequentemente produz hexágonos, desde pele
de girafa até colméias e colunas vulcânicas. Os físicos agora entendem por que
as formas hexagonais são tão onipresentes: elas emergem espontaneamente
sempre que um sistema parte de um estado “quente” desorganizado e esfria
lentamente, eventualmente congelando em uma estrutura estável (veja a figura
10 na inserção colorida).
Pesquisadores propuseram uma teoria semelhante para o surgimento de
células de grade no córtex entorrinal durante o desenvolvimento do cérebro:
grupos desorganizados de neurônios se estabeleceriam progressivamente
em um conjunto organizado de células de grade, com hexágonos

emergindo como um atrator espontâneo da dinâmica do córtex.14 De acordo
com essa teoria, nenhum sinal de ensino é necessário para o rato desenvolver
uma grade como um mapa. Na verdade, o estabelecimento desse circuito não
envolve nenhum aprendizado: ele emerge naturalmente da dinâmica do córtex
em desenvolvimento.
Essa teoria da auto-organização dos mapas cerebrais está começando a
ser testada com sucesso. Experimentos extraordinários mostram que o GPS
do cérebro realmente surge muito cedo durante o desenvolvimento do rato.
Dois grupos independentes de pesquisadores conseguiram implantar eletrodos
em ratos bebês, recém-nascidos, antes mesmo de começarem a andar.15
Usando essa configuração, eles examinaram se as células da grade já estavam
presentes no córtex entorrinal. Eles também sondaram células de lugar (aquelas
que respondem a um único local) e células de direção da cabeça, um terceiro
tipo de neurônio que funciona como a bússola de um navio: cada neurônio
dispara quando o animal se move em uma determinada direção, por exemplo,
noroeste ou sudeste. O que os pesquisadores descobriram é que todo esse
sistema é praticamente inato: as células de direção da cabeça estão presentes
assim que se pode gravar, e as células do lugar e da grade emergem um ou
dois dias depois que o filhote de rato começa a se mover.
Os dados são adoráveis, mas não deveriam ser surpreendentes: por

Na maioria dos animais, de formigas a pássaros, répteis e mamíferos,
fazer mapas é uma questão importante. Assim que filhotes, gatinhos ou bebês
saem do ninho e exploram o mundo, é crucial para sua sobrevivência que eles
saibam onde estão o tempo todo e possam encontrar o caminho de casa, onde
suas mães os esperam. Eras atrás, a evolução parece ter encontrado uma
maneira de fornecer ao cérebro nascente uma bússola, um mapa e um registro
dos lugares que visita.
De fato, esse GPS neuronal existe no cérebro humano? Sim.
Agora sabemos, por meios indiretos, que o cérebro adulto também contém um
mapa neuronal com simetria hexagonal, exatamente no mesmo lugar que em
ratos (o córtex entorrinal).16 E também sabemos que crianças muito pequenas
já têm uma noção de espaço . As crianças pequenas não têm dificuldade em
se orientar em uma sala: se forem levadas do ponto A ao ponto B, depois ao
ponto C, saberão retornar em linha reta de C a A - e notavelmente o fazem
mesmo que são cegos de nascença. Os jovens da espécie humana possuem
assim,
como ratos, um módulo mental para navegação espacial.17 Ainda não

conseguimos ver esse mapa diretamente no cérebro do bebê, porque continua
extraordinariamente difícil obter imagens de um cérebro em ação nessa idade
muito jovem (tente fazer uma ressonância magnética em um bebê
engatinhando). Mas temos certeza de que o encontraremos um dia, assim que
os métodos móveis de imagem cerebral estiverem disponíveis.
Eu poderia continuar falando sobre os exemplos de outros módulos
especializados no cérebro de um bebê. Sabemos, por exemplo, que desde
alguns meses de idade (embora talvez não no nascimento), o córtex visual
contém uma região que responde preferencialmente a rostos, mais do que a
imagens de casas.18 A formação dessa região parece ser parcialmente o
resultado do aprendizado, mas é fortemente canalizado, guiado e restringido
pela conectividade do cérebro. Essas conexões garantem que o mesmo local,
mais ou menos alguns milímetros, se especialize para rostos em todos os
indivíduos – acaba formando um dos módulos mais específicos do córtex, um
trecho onde até 98% dos neurônios se especializam para rostos e mal responder
a outras fotos.
Para dar outro exemplo, também sabemos que o córtex parietal de um
bebê já responde ao número de objetos,19 em um local que corresponde à
região que é ativada quando um adulto humano calcula 2 + 2, ou quando um
macaco memoriza vários objetos .
Em macacos, o neurocientista alemão Andreas Nieder demonstrou
com sucesso que essa região contém neurônios sensíveis ao número
de objetos: há neurônios especializados para um objeto, outros para dois
objetos, três objetos e assim por diante . . . e esses neurônios estão presentes
mesmo que o macaco em questão nunca tenha sido treinado para realizar uma
tarefa numérica. Pensamos, portanto, que esses módulos surgem inicialmente
de forma inata, mesmo que o ambiente mais tarde os molde. Meus colegas e eu
propusemos um modelo matemático preciso para a auto-organização de
neurônios numéricos, desta vez baseado em uma propagação de atividade
ondulatória ao longo da superfície do córtex em desenvolvimento.
Essa teoria pode explicar as propriedades dos neurônios numéricos em todos

os detalhes. No modelo, essas células acabam formando uma espécie de linha
numérica – uma cadeia linear que emerge espontaneamente de uma rede de
neurônios conectados aleatoriamente em que os números um, dois, três, quatro
e assim por diante ocupam posições sucessivas.20
O conceito de auto-organização afasta-se radicalmente da visão clássica

- mas errada - do cérebro como uma lousa em branco, em grande parte
desprovida de estrutura inicial e dependente do ambiente para configurá-lo.
Ao contrário dessa visão, pouco ou nenhum dado é necessário para o cérebro
desenvolver um mapa ou uma linha numérica. A auto-organização também
diferencia o cérebro das redes neurais artificiais que atualmente dominam as
abordagens de engenharia para a inteligência artificial.
Hoje em dia, a IA se tornou praticamente sinônimo de big data – porque essas
redes são incrivelmente famintas por dados e começam a agir de forma inteligente
somente depois de serem alimentadas com gigabytes de dados.
Ao contrário deles, porém, nosso cérebro não requer tanta experiência.
Muito pelo contrário, os principais nós de nosso cérebro, os módulos onde
nosso conhecimento central está armazenado, parecem se desenvolver em
grande parte espontaneamente, talvez puramente por meio de simulação interna.
Apenas um punhado de cientistas da computação contemporâneos, como
Josh Tenenbaum, professor do MIT, estão tentando seriamente incorporar
esse tipo de auto-organização na inteligência artificial.
Tenenbaum e seus colegas estão trabalhando no “projeto do bebê virtual” –
um sistema que viria ao mundo com a capacidade de autogerar milhões de
pensamentos e imagens. Esses dados gerados internamente serviriam de base
para o aprendizado no restante do sistema, sem a necessidade de fornecer
dados externos adicionais. De acordo com essa visão radical, mesmo antes do
nascimento, as bases de nossos circuitos cerebrais centrais surgem por meio da
auto-organização, auto-organizando-se de um banco de dados gerado dentro do
sistema.21 A maior parte do trabalho inicial ocorre internamente, na ausência de
qualquer interação com o sistema. mundo exterior; apenas os ajustes finais são
deixados para o aprendizado, moldados pelos dados adicionais que recebemos
de nosso ambiente.
A conclusão que emerge dessa linha de pesquisa enfatiza o poder

conjunto dos genes e da auto-organização no desenvolvimento do cérebro
humano. Ao nascer, o córtex do bebê é dobrado quase como o de um adulto.
Já está subdividido em áreas sensoriais e cognitivas especializadas, que são
interligadas por feixes de fibras precisos e reprodutíveis. Ele hospeda uma
coleção de módulos parcialmente especializados, cada um dos quais projeta um
tipo particular de representação no mundo exterior. As células da grade do córtex
entorrinal desenham planos bidimensionais, perfeitos para codificar
e navegando no espaço. Como veremos mais adiante, outras regiões,

como o córtex parietal, desenham linhas, excelentes para codificar quantidades
lineares, incluindo número, tamanho e passagem do tempo; e a área de Broca
projeta estruturas em árvore, ideais para codificar a sintaxe das linguagens.
Da nossa evolução, herdamos um conjunto de regras fundamentais das
quais depois selecionaremos aquelas que melhor representam as situações
e conceitos que teremos que aprender em nossa vida.
AS ORIGENS DA INDIVIDUALIDADE
Ao afirmar a existência de uma natureza humana universal, um circuito cerebral

inato estabelecido por genes e auto-organização, não pretendo negar a
existência de diferenças individuais. Onde quer que ampliemos, cada um de
nossos cérebros exibe características únicas – mesmo desde o início. Por
exemplo, nossas dobras corticais, assim como nossas impressões digitais,
são estabelecidas antes do nascimento e variam de maneiras distintas -
mesmo em gêmeos idênticos. Da mesma forma, a força e a densidade de
nossas conexões corticais de longa distância, e até mesmo suas trajetórias
exatas, variam por um grande fator e tornam cada um de nossos “conectomas”
únicos.
É importante reconhecer, no entanto, que essas variações giram em torno
de um tema comum. O layout do cérebro do Homo sapiens obedece a um
esquema fixo, semelhante à sucessão de acordes que os músicos de jazz
memorizam quando aprendem uma música. É apenas no topo dessa grade
humano-universal que os caprichos de nossos genomas e as peculiaridades
de nossas gestações adicionam suas improvisações pessoais. Nossa
individualidade é real, mas não deve ser exagerada: cada um de nós é apenas
uma variação da linha melódica do Homo sapiens . Em qualquer um de nós,
preto ou branco, asiático ou nativo americano, em qualquer lugar do planeta, a
arquitetura do cérebro humano é sempre óbvia. A esse respeito, o córtex de
qualquer humano difere daquele de nosso parente vivo mais próximo, o
chimpanzé, tanto quanto qualquer improvisação em “My Funny Valentine” parte
de, digamos, uma em “My Romance”.
Como todos compartilhamos a mesma estrutura cerebral inicial, o mesmo
conhecimento básico e os mesmos algoritmos de aprendizado que nos
permitem adquirir talentos adicionais, muitas vezes acabamos compartilhando
os mesmos conceitos. O mesmo potencial humano está presente em todas as
pessoas - seja para leitura, ciências ou matemática, e se somos cegos,
surdo ou mudo. Como o filósofo britânico Roger Bacon (1220-1292)

observou no século XIII: “O conhecimento das coisas matemáticas é quase
inato em nós. . . . Esta é a ciência mais fácil, um fato que é óbvio porque o
cérebro de ninguém a rejeita; pois os leigos e os totalmente analfabetos
sabem contar e calcular”. O mesmo, obviamente, pode ser dito da linguagem
– virtualmente não há criança que não tenha o poderoso impulso inato para
adquirir a linguagem de seu entorno, enquanto, como observado anteriormente,
nenhum chimpanzé, mesmo aqueles adotados por famílias humanas ao
nascer, sempre murmura mais do que algumas palavras ou compõe mais do
que alguns sinais.
Em resumo, as diferenças individuais são reais — mas quase sempre

são de grau e não de tipo. É apenas nos extremos da distribuição normal
da organização cerebral que as variações neurobiológicas acabam fazendo
uma diferença cognitiva real. Cada vez mais, estamos descobrindo que as
crianças com transtornos do desenvolvimento estão nas extremidades dessa
distribuição. Seus cérebros parecem ter tomado um rumo errado no caminho
do desenvolvimento que leva da herança genética à migração neuronal e à
auto-organização do circuito durante a gravidez.
A demonstração científica é cada vez mais sólida no caso da dislexia,

um transtorno específico do desenvolvimento que afeta a capacidade de
aprender a ler, deixando a inteligência e outras faculdades intactas. Se você é
disléxico, então qualquer um de seus irmãos tem 50% de chance de também
sofrer de dislexia, apontando assim para o forte determinismo genético desse
transtorno do desenvolvimento. Pelo menos quatro genes já foram implicados
na dislexia - e, curiosamente, a maioria desses genes afeta a capacidade dos
neurônios de migrar para suas localizações finais no córtex durante a
gravidez.22 A ressonância magnética também mostra anomalias profundas
nas conexões que suportam a leitura no cérebro. esquerdo.23 Crucialmente,
as anomalias podem ser encontradas desde cedo: em crianças com
predisposição genética para a dislexia, aos seis meses de idade, um déficit na
distinção dos fonemas da linguagem falada já separa aqueles que irão
desenvolver dislexia daqueles que irão se transformar em leitores normais.24
De fato, sabe-se que os déficits fonológicos são um fator importante no
surgimento da dislexia — mas não são a única causa: o circuito de leitura é
complicado o suficiente para que haja muitos lugares onde ele pode falhar.
Vários tipos
de dislexias foram descritas, incluindo déficits de atenção que fazem com

que a criança misture as letras em palavras próximas25 e déficits visuais
que causam confusões no espelho . habilidades, que vão da normalidade total
ao déficit severo.27 Todos compartilhamos a mesma composição do Homo
sapiens , mas diferimos ligeiramente na quantidade quantitativa de nossa
herança, provavelmente devido a variações semi-aleatórias no layout inicial de
nossos circuitos neurais.
Praticamente a mesma história poderia ser contada sobre outros déficits

de desenvolvimento. A discalculia, por exemplo, tem sido relacionada a
déficits precoces de substância cinzenta e branca nos circuitos parietal dorsal
e frontal que suportam cálculos e matemática . maior risco de discalculia.29 A
desorganização neurológica precoce pode causar discalculia, seja impactando
diretamente o conhecimento central de conjuntos e quantidades, seja
desconectando-o de outras áreas envolvidas na aquisição de palavras
numéricas e símbolos da aritmética. Em ambos os casos, o resultado é uma
predisposição para dificuldades infantis na aquisição de matemática. Essas
crianças provavelmente precisarão de ajuda específica para fortalecer suas
fracas intuições iniciais de quantidades.
Com nossas mentes em preto e branco, tendemos a exagerar o

consequências dessas descobertas científicas sobre as bases
genéticas dos déficits de desenvolvimento. Nenhum dos genes envolvidos
na dislexia, discalculia ou, aliás, em qualquer outra síndrome do
desenvolvimento, incluindo autismo e esquizofrenia, tem 100% de
determinismo. No máximo, eles influenciam fortemente a balança – mas o
ambiente também tem uma grande participação na trajetória de desenvolvimento
que uma criança acabará por seguir. Meus colegas da educação especial são
positivos: com esforço suficiente, nenhuma dislexia ou discalculia é tão forte a
ponto de estar fora do alcance da reabilitação.
Já é hora de nos voltarmos para este segundo grande ator no
desenvolvimento do cérebro: a plasticidade cerebral.
CAPÍTULO 5
Participação da Nutri
Todo mundo sabe que a habilidade de um pianista. . . requer

muitos anos de ginástica mental e muscular. Para
compreender este importante fenômeno, é necessário aceitar
que, além do reforço de vias orgânicas pré-estabelecidas,
novas vias são criadas pela ramificação e crescimento
progressivo de processos dendríticos e axonais terminais.
Santiago Ramón y Cajal (1904)
Acabo de insistir na contribuição da natureza para a

construção do nosso cérebro — a interação dos genes e a
auto-organização. Mas, é claro, a nutrição é igualmente importante.
A organização inicial do cérebro não permanece inalterada para
sempre: a experiência o refina e enriquece. Este é o outro lado da
moeda: como o aprendizado muda os circuitos no cérebro de uma
criança? Para entender isso, temos que retroceder um século no
relógio, de volta às descobertas fundamentais do grande anatomista
espanhol Santiago Ramón y Cajal (1852-1934).
Cajal é um dos heróis da neurociência. Com seu microscópio
na mão, foi o primeiro a mapear a micro-organização do cérebro.
Um desenhista genial, ele produziu desenhos realistas e
simplificados de circuitos neurais, verdadeiras obras-primas que
figuram entre as principais obras de ilustração científica. Mas, acima
de tudo, ele foi capaz de passar da observação à interpretação e da
anatomia à função com um julgamento impressionante. Embora seu
microscópio lhe mostrasse apenas a anatomia pós-morte dos neurônios e suas
circuitos, ele, no entanto, conseguiu fazer inferências ousadas e precisas

sobre o modo como eles funcionam.
A maior descoberta de Cajal, pela qual ele ganhou um Prêmio Nobel em
1906, foi que o cérebro é constituído por células nervosas distintas
(neurônios) e não por uma rede contínua, um retículo, como se pensava
anteriormente. Ele também percebeu que, ao contrário da maioria das outras
células – como os glóbulos vermelhos, que são aproximadamente redondos e
compactos – os neurônios assumem formas incrivelmente complexas. Cada
neurônio tem uma enorme árvore composta de vários milhares de ramos, cada
um menor que o outro, chamados “dendritos” (dendron significa “árvore” em
grego). Populações de neurônios se reúnem para formar uma floresta
inextricável de arborizações neuronais.
Essa complexidade não desencorajou nosso neurocientista espanhol.
Em diagramas que ficaram famosos na história da neurociência, e
que retratavam a anatomia detalhada do córtex e do hipocampo, Cajal
acrescentou algo eminentemente simples, mas luminoso e de grande significado
teórico: flechas! As setas de Cajal indicam a direção em que os impulsos
nervosos fluem: dos dendritos para o corpo celular do neurônio e, finalmente,
ao longo do axônio. Foi uma especulação ousada, mas acabou dando certo.
Cajal entendeu que a forma dos neurônios corresponde à sua função: com sua
árvore dendrítica, um neurônio coleta informações de outras células, e todas
essas mensagens convergem no corpo da célula, onde o neurônio as compila
para enviar apenas uma única mensagem.
Essa mensagem, chamada de “potencial de ação” ou “pico”, é então

transferida ao longo do axônio, uma longa liana semelhante a uma hera que
alcança milhares de outros neurônios, às vezes a vários centímetros de distância.
Neurônios, sinapses e os microcircuitos que eles formam são o hardware material da plasticidade
cerebral: eles se ajustam cada vez que aprendemos. Cada neurônio é uma célula distinta com “árvores”,
chamadas “dendritos” (canto superior esquerdo), que coletam informações de outros neurônios e um
axônio (canto inferior esquerdo) que envia mensagens para outros neurônios. Um microscópio resolve
facilmente as espinhas dendríticas, que são os corpos em forma de cogumelo que abrigam as sinapses
– os pontos de conexão entre dois neurônios. À medida que aprendemos, todos esses elementos
podem mudar: a presença, o número e a força das sinapses; o tamanho dos espinhos dendríticos; o
número de ramos de dendritos e axônios; e até mesmo o número de folhas de mielina, que isola os
axônios e determina sua velocidade de transmissão.
Cajal conseguiu inferir outro ponto de extrema importância:

que os neurônios se comunicam por meio de sinapses. Ele foi o
primeiro a entender que cada neurônio é uma célula distinta - mas
seu microscópio também revelou que essas células entram em contato em
certos pontos. Essas zonas de junção são o que hoje chamamos

de “sinapses” (Cajal fez a descoberta, mas o nome foi cunhado em 1897
pelo grande fisiologista britânico Charles Sherrington [1857-1952]). Cada
sinapse é o ponto de encontro de dois neurônios ou, mais precisamente, o
local onde o axônio de um neurônio encontra o dendrito de outro neurônio.
Um neurônio “pré-sináptico” envia seu axônio para longe até encontrar o
dendrito de um segundo neurônio “pós-sináptico” e se conectar a ele.
O que acontece em uma sinapse? Outro ganhador do Prêmio Nobel, o

neurofisiologista Thomas Südhof, dedicou toda a sua pesquisa a essa
questão e concluiu que as sinapses são as unidades computacionais do
sistema nervoso – os genuínos nanoprocessadores do cérebro. Tenha em
mente que nosso cérebro contém cerca de mil trilhões de sinapses.
A complexidade de tal maquinaria é verdadeiramente inigualável. Aqui,
posso resumir apenas suas características mais simples. A mensagem que
viaja no axônio é elétrica, mas a maioria das sinapses a transforma em uma
mensagem química. A extremidade do axônio, o “botão terminal” próximo à
sinapse, contém vesículas, pequenas bolsas cheias de moléculas chamadas
“neurotransmissores” (glutamato, por exemplo). Quando o sinal elétrico atinge
o botão terminal de um axônio, as vesículas se abrem e as moléculas fluem
para o espaço sináptico que separa os dois neurônios. É por isso que
chamamos essas moléculas de neurotransmissores: elas transmitem uma
mensagem de um neurônio para outro. Um momento depois de serem
liberadas do terminal pré-sináptico, as moléculas se ligam à membrana do
segundo neurônio pós-sináptico, em pontos específicos chamados “receptores”.
Os neurotransmissores estão para os receptores como as chaves estão para
as fechaduras: eles literalmente abrem portas na membrana do neurônio pós-
sináptico. Íons, átomos carregados positiva ou negativamente, fluem para
esses canais abertos e geram uma corrente elétrica dentro do neurônio pós-
sináptico. O ciclo está completo: a mensagem passou de elétrica para química,
depois de química de volta para elétrica e, no processo, atravessou o espaço
entre as duas
neurônios.
O que isso tem a ver com o aprendizado? Bem, nossas sinapses

estão mudando constantemente, ao longo de nossas vidas, e essas
mudanças refletem o que aprendemos.1 Cada sinapse é uma pequena
planta química, e muitos elementos dessa planta podem mudar no decorrer do aprendizado:
o número de vesículas, seu tamanho, o número de receptores, sua

eficiência e até mesmo o tamanho e a forma da própria sinapse. . . .
Todos esses parâmetros afetam a força com que a mensagem elétrica pré-
sináptica será transmitida ao segundo neurônio pós-sináptico - e eles
fornecem um espaço de armazenamento útil para a informação aprendida.
Além disso, essas mudanças na força sináptica não acontecem no

aleatório: eles tendem a estabilizar a atividade dos neurônios,
reforçando sua capacidade de excitar uns aos outros, se já o fizeram no
passado. A regra básica é tão simples que já foi formulada em 1949 pelo
psicólogo Donald Hebb (1904-1985). Pode ser resumido em uma fórmula
simples: neurônios que disparam juntos, conectam-se. Quando dois
neurônios são ativados ao mesmo tempo ou em curta sucessão, sua conexão
se fortalece. Mais precisamente, se o neurônio pré-sináptico emissor disparar
e o neurônio pós-sináptico disparar alguns milissegundos depois, a sinapse
será fortalecida: no futuro, a transmissão entre esses dois neurônios será
ainda mais eficiente. Se, por outro lado, a sinapse não for ouvida, de modo
que o neurônio pós-sináptico não dispare, então a sinapse enfraquece.
Agora entendemos por que esse fenômeno estabiliza neurônios

atividade: fortalece circuitos que funcionaram bem no passado.
As mudanças sinápticas que seguem a regra de Hebb aumentam a
probabilidade de que o mesmo tipo de atividade ocorra novamente. A
plasticidade sináptica permite que vastas tapeçarias neuronais, cada uma
composta por milhões de neurônios, se sigam em uma ordem precisa e reproduzível.
Um rato que atravessa um labirinto ao longo do caminho ideal, um violinista
que derrama uma fonte de notas de seus dedos ou uma criança que recita
com sucesso um poema. . . cada um desses cenários desperta uma
sinfonia neural na qual cada movimento, nota ou palavra é registrada por
centenas de milhões de sinapses.
É claro que o cérebro não mantém um registro de todos os eventos
de nossas vidas. Apenas os momentos que considera mais importantes
ficam impressos em nossas sinapses. Para isso, a plasticidade sináptica é
modulada por vastas redes de neurotransmissores, particularmente
acetilcolina, dopamina e serotonina, que sinalizam quais episódios são
importantes o suficiente para serem lembrados. A dopamina, por exemplo, é
o neurotransmissor associado à recompensa: comida, sexo, drogas. . . e
caso você esteja se perguntando: sim, até rock 'n' roll!2 O circuito de
dopamina sinaliza tudo o que amamos, cada estímulo em que estamos
"viciados" e sinaliza para o resto do cérebro que o que experimentamos
é positivo e melhor do que nós esperamos. A acetilcolina, por outro lado,
liga-se mais geralmente a todos os momentos importantes. Seus efeitos
são enormes. Por exemplo, você é capaz de se lembrar de detalhes
requintados do que estava fazendo em 11 de setembro de 2001, quando
soube do ataque ao World Trade Center, porque naquele dia um furacão
de neurotransmissores percorreu seus circuitos cerebrais, fazendo com
que suas sinapses ser massivamente alterado. Um circuito é particularmente
crucial: a amígdala, um grupo subcortical de neurônios desencadeados
principalmente por emoções fortes, envia sinais para o hipocampo próximo,
que armazena os principais episódios de nossa existência. Dessa forma,
as modificações sinápticas destacam principalmente os fatos de nossas
vidas que os circuitos emocionais do nosso cérebro consideram os mais
significativos.
A capacidade das sinapses de se modificarem de acordo com a
A atividade de seus neurônios pré e pós-sinápticos foi inicialmente
descoberta em condições artificiais. Os experimentadores tiveram
que tetanizar os neurônios estimulando-os a um ritmo frenético com
uma forte corrente elétrica antes que a força de suas sinapses
mudasse. Após essa experiência traumática, as sinapses permaneceram
modificadas por várias horas, fenômeno chamado de “potenciação de
longo prazo”, que parecia ideal para manter as memórias a longo
prazo.3 Mas esse mecanismo era genuinamente usado pelo cérebro para
armazenar informações em condições normais ? ? A primeira evidência
veio de um animal marinho, Aplysia californica, uma lesma do mar com
neurônios gigantescos. Essa criatura não é dotada de um cérebro no
sentido típico da palavra, mas possui grandes feixes de células nervosas,
chamados de “gânglios”. Nessas estruturas, o ganhador do Prêmio Nobel
Eric Kandel identificou toda uma cascata de modificações sinápticas e
moleculares quando o animal se tornou condicionado a esperar comida,
um pouco como o cachorro de Pavlov . papel da plasticidade sináptica na
aprendizagem. As mudanças sinápticas ocorrem justamente nos
circuitos que o animal usa para aprender. Quando um rato aprende a
evitar um local onde recebeu um pequeno choque elétrico, o
as sinapses do hipocampo, região responsável pela memória espacial

e episódica, alteram:5 as conexões entre o hipocampo e a amígdala
constituem uma experiência tão traumática. Quando o camundongo fica
aterrorizado com um som, as sinapses que conectam a amígdala ao
córtex auditivo sofrem uma mudança semelhante.6 Além disso, essas
mudanças não ocorrem simplesmente durante o aprendizado: na verdade,
elas parecem desempenhar um papel causal nele.
A prova é que se, nos minutos seguintes a um evento traumático,
interferirmos nos mecanismos moleculares que permitem que as sinapses
sofram mudanças relacionadas ao aprendizado, o animal acaba não se
lembrando de nada.7
O RETRATO DE UMA MEMÓRIA
O que é uma memória? E qual é a sua base física no cérebro? A

maioria dos pesquisadores concorda com a seguinte explicação, que
distingue entre períodos de codificação e lembrança.8
Vamos começar com a codificação. Cada uma de nossas percepções,
ações e pensamentos depende da atividade de um subconjunto específico
de neurônios (enquanto outros permanecem inativos ou até inibidos). A
identidade desses neurônios ativos, distribuídos em muitas regiões do
cérebro, define o conteúdo de nossos pensamentos. Quando vejo, digamos,
Donald Trump no Salão Oval, alguns neurônios respondem ao seu rosto (na
região temporal inferior), outros à sua voz (na região temporal superior),
outros ao layout de seu escritório (na região temporal inferior). região
parahipocampal), e assim por diante. Neurônios individuais podem fornecer
algumas informações, mas a memória geral é sempre codificada por vários
grupos de neurônios interconectados. Se eu encontrar uma colega no
escritório, a cascata de atividade de um grupo de neurônios ligeiramente
diferente me permitirá, em princípio, evitar confundi-la com a presidente e
seu escritório com a famosa sala oval. Grupos distintos de neurônios
codificam rostos e lugares diferentes – e como esses neurônios estão
fortemente interconectados, a mera visão da Casa Branca pode evocar o
rosto de Trump, enquanto eu posso ter problemas para reconhecer meu
colega fora de contexto, por exemplo, se eu encontrar ela na academia.
Suponhamos agora que ao ver o presidente no Salão Oval

Office, meus sistemas emocionais julgam essa experiência importante
suficiente para ser armazenado na memória. Como meu cérebro faz

para gravá-lo? Para cimentar o evento, os neurônios que foram ativados
recentemente passam por grandes mudanças físicas. Eles modificam a força
de suas interconexões, aumentando assim o suporte do grupo e tornando
mais provável que esse conjunto de neurônios seja acionado no futuro.
Algumas sinapses tornam-se fisicamente maiores e podem até ser duplicadas.
Os neurônios-alvo às vezes desenvolvem novos espinhos, botões terminais
ou dendritos. Todas essas modificações anatômicas implicam a expressão de
novos genes, ao longo de várias horas ou mesmo dias. Essas mudanças são a
base física da aprendizagem: coletivamente, elas formam um substrato para a
memória.
Uma vez formada uma memória sináptica, os neurônios podem agora
descansar: quando param de disparar, a memória permanece adormecida,
inconsciente, mas inscrita na própria anatomia de meus circuitos neuronais.
No futuro, graças a essas conexões, uma pista externa (digamos, uma foto do
gabinete presidencial) pode ser suficiente para produzir uma cascata de
atividade neuronal no circuito original. Essa cascata restaurará um padrão de
descargas neurais semelhante ao momento em que a memória foi feita,
permitindo que eu reconheça o rosto de Donald Trump. De acordo com essa
teoria, cada memória restaurada é uma reconstrução: lembrar é tentar
reproduzir o mesmo padrão de disparo neuronal que ocorreu nos mesmos
circuitos cerebrais durante uma experiência passada.
A memória, portanto, não pode ser atribuída a uma única região do

cérebro – está distribuído na maioria, se não em todos, os circuitos
cerebrais, porque cada um deles é capaz de alterar suas sinapses em
resposta a um padrão frequente de atividade neural. Mas nem todos os
circuitos desempenham o mesmo papel. Mesmo que a terminologia permaneça
vaga e continue a evoluir, os pesquisadores distinguem entre pelo menos
quatro tipos de memórias.
A memória de trabalho retém uma representação mental em forma

ativa por alguns segundos. Ela se baseia principalmente no disparo
vigoroso de muitos neurônios nos córtices parietal e pré-frontal, que por
sua vez suportam neurônios em outras regiões mais periféricas.9 A
memória de trabalho é tipicamente o que nos permite manter um número
de telefone em mente: durante o tempo para digitá-lo em nosso
smartphone, certos neurônios se apoiam e, assim,
manter as informações em um estado ativo. Esse tipo de memória

baseia-se principalmente na manutenção de um padrão sustentado de
atividade - embora tenha sido descoberto recentemente que
provavelmente também envolve mudanças sinápticas de curta
duração,10 permitindo que os neurônios fiquem brevemente adormecidos
e retornem rapidamente ao seu estado ativo. De qualquer forma, a
memória de trabalho nunca dura mais do que alguns segundos: assim
que nos distraímos com outra coisa, o conjunto de neurônios ativos
desaparece. É o buffer de curto prazo do cérebro, tendo em mente
apenas as informações mais quentes e recentes.
Memória episódica: O hipocampo, uma estrutura localizada nas
profundezas dos hemisférios cerebrais abaixo do córtex, registra os
episódios que se desenrolam em nossas vidas diárias. Neurônios no
hipocampo parecem memorizar o contexto de cada evento: eles
codificam onde, quando, como e com quem as coisas aconteceram.
Eles armazenam cada episódio por meio de mudanças sinápticas, para
que possamos lembrá-lo mais tarde. O famoso paciente HM, cujos
hipocampos em ambos os hemisférios haviam sido obliterados pela
cirurgia, não conseguia mais se lembrar de nada: vivia em um eterno
presente, incapaz de acrescentar a menor lembrança nova à sua
biografia mental. Dados recentes sugerem que o hipocampo está
envolvido em todos os tipos de aprendizado rápido. Desde que a
informação aprendida seja única, seja um evento específico ou uma
nova descoberta digna de interesse, os neurônios no hipocampo
atribuem a ela uma sequência de disparo específica.11 Memória
semântica: as memórias não parecem permanecer no hipocampo para
sempre. À noite, o cérebro os reproduz e os move para um novo local
dentro do córtex. Lá, eles se transformam em conhecimento permanente:
nosso cérebro extrai as informações presentes nas experiências que
vivemos, as generaliza e as integra em nossa vasta biblioteca de
conhecimento do mundo. Depois de alguns dias, ainda podemos lembrar
o nome do presidente, sem ter a menor lembrança de onde ou quando o
ouvimos pela primeira vez: de episódica, a memória agora se tornou
semântica. O que inicialmente era apenas um único episódio foi
transformado em longa duração.
conhecimento duradouro, e seu código neural moveu-se do

hipocampo para os circuitos corticais relevantes.12 Memória
processual: quando repetimos a mesma atividade várias vezes (amarrar
os sapatos, recitar um poema, calcular, fazer malabarismo, tocar violino,
andar de bicicleta. . .), os neurônios do córtex e outros circuitos subcorticais
acabam se modificando para que a informação flua melhor no futuro. O
disparo neuronal torna-se mais eficiente e reprodutível, livre de qualquer
atividade parasitária, desdobrando-se infalivelmente e com a mesma
precisão de um relógio. Esta é a memória processual: o registro compacto
e inconsciente de padrões de atividade rotineira. Aqui, o hipocampo não
intervém: através da prática, a memória é armazenada em um espaço de
armazenamento implícito, envolvendo principalmente um conjunto
subcortical de circuitos neurais chamados de “gânglios basais”. É por isso
que o paciente HM, mesmo sem memória consciente, episódica,
relacionada ao hipocampo, ainda pode aprender novos procedimentos.
Os pesquisadores até o ensinaram a escrever de trás para frente enquanto
olhava para a mão no espelho. Não tendo nenhuma memória das inúmeras
vezes que ele havia praticado isso antes, ele ficou pasmo ao descobrir o
quão bom ele era no que ele acreditava ser um truque completamente
novo!
SINAPSES VERDADEIRAS E MEMÓRIAS FALSAS
No inesquecível filme Brilho Eterno de uma Mente Sem Lembranças (2004),

o diretor francês Michel Gondry imagina uma empresa especializada em
apagar seletivamente memórias do cérebro das pessoas.
Não seria útil apagar as memórias que envenenam nossas vidas, como aquelas
que causam estresse pós-traumático em veteranos de guerra? Ou, pelo
contrário, poderíamos pintar a tela ilusória de uma falsa memória?
O domínio dos neurocientistas sobre os circuitos envolvidos na memória é

de tal forma que já não estamos tão longe do sonho de Michel Gondry.
Ambas as manipulações já foram realizadas em camundongos pela equipe de
outro ganhador do Prêmio Nobel, o professor Susumu Tonegawa. Ele primeiro
colocou um rato em uma sala e deu-lhe pequenos choques elétricos. O rato
então evitou a sala onde esse evento desagradável ocorreu, indicando que
esse episódio estava enraizado em sua memória. De fato, os colegas de
Tonegawa
conseguiu visualizar. Usando um sofisticado microscópio de dois

fótons, eles puderam rastrear quais neurônios estavam ativos a cada
instante e viram que, no hipocampo, diferentes grupos de neurônios foram
ativados para a sala A, que havia sido associada ao choque elétrico, e a sala
B , onde nada havia acontecido.
Em seguida, os pesquisadores testaram se poderiam brincar com
essas memórias episódicas. Enquanto o animal estava fisicamente
localizado na sala A, eles novamente deram pequenos choques elétricos,
mas desta vez eles ativaram artificialmente a população de neurônios que
codificava a sala B. Esse condicionamento artificial foi eficaz: depois,
quando o rato voltou para a sala B, ficou alarmado e congelou de medo. A
memória ruim estava agora ligada à sala B, onde nada havia acontecido.13
A reativação de um grupo significativo de neurônios foi suficiente para
despertar uma memória e vinculá-la a novas informações.
A equipe de Tonegawa então transformou a memória ruim em uma boa.

A memória traumática poderia ser apagada? Sim. Ao reativar os mesmos
neurônios da sala B quando os camundongos foram colocados na
presença de parceiros do sexo oposto – um bom momento garantido – os
pesquisadores conseguiram apagar a associação com o choque elétrico.
Os camundongos, longe de evitar a maldita sala B, começaram a explorá-
la freneticamente como se estivessem procurando os parceiros eróticos
de que se lembravam.14 Outro grupo de pesquisadores adotou uma
estratégia um pouco diferente: eles despertaram o grupo inicial de
neurônios enquanto, ao ao mesmo tempo, enfraquecendo as sinapses que
os ligavam. Mais uma vez, nos dias que se seguiram, o camundongo não
apresentou mais a menor lembrança do trauma inicial.15 Na mesma linha
de pensamento, o pesquisador francês Karim Benchenane conseguiu
implantar uma nova memória no cérebro do camundongo durante o
sono.16 Sempre que um o animal adormece, os neurônios em seu hipocampo
reativam espontaneamente as memórias do dia anterior, especialmente os
lugares para onde o animal foi (voltaremos a isso com mais detalhes no
Capítulo 10). Aproveitando-se desse fato, Benchenane esperou que o
cérebro do camundongo adormecido reativasse os neurônios associados a
um determinado local em seu recinto – e então deu ao animal uma pequena
injeção de dopamina, o neurotransmissor do prazer. Eis que assim que o
rato acordou, correu o mais rápido que pôde em direção a este local!
O que inicialmente era um local neutro ganhou, durante a noite, um lugar
muito especial na memória, tão viciante quanto a doçura da Provence ou o
primeiro lugar pelo qual nos apaixonamos.
Mais perto de nós humanos, alguns experimentos com animais
começaram a imitar os efeitos da escolaridade no cérebro. O que acontece
quando um macaco aprende letras, números ou como usar ferramentas?17
O pesquisador japonês Atsushi Iriki mostrou que um macaco pode aprender
a usar um ancinho para coletar pedaços de comida que foram colocados longe
demais para serem agarrados à mão. Após alguns milhares de testes, o animal
tornou-se tão rápido quanto um experiente croupier de cassino: levou apenas
alguns décimos de segundo para recolher cada pedaço de comida, com um
movimento do pulso. O macaco até descobriu como usar um ancinho de
tamanho médio para puxar um segundo ancinho mais longo para ele, a fim de
alcançar alimentos colocados a uma distância muito maior! Esse tipo de
aprendizado de ferramentas desencadeou toda uma cascata de mudanças no
cérebro. O consumo de energia aumentou em uma área específica do córtex, a
região parietal anterior – a mesma área que os humanos usam para controlar os
movimentos das mãos, escrever, pegar um objeto ou usar um martelo ou um
alicate. Novos genes foram expressos, sinapses floresceram, árvores dendríticas
e axonais se multiplicaram – e todas essas conexões adicionais resultaram em
um aumento de 23% na espessura do córtex neste macaco experiente.
Feixes inteiros de conexões também sofreram alterações
dramáticas: axônios vindos de uma região distante, na junção com o córtex
temporal, cresceram vários milímetros e invadiram uma parte da região
parietal anterior que antes não tinha conexões com esses neurônios.
Esses exemplos ilustram o grau em que os efeitos da plasticidade

cerebral se estendem no tempo e no espaço. Vamos rever os principais
pontos juntos. Um conjunto de neurônios que codifica um evento ou conceito
que desejamos memorizar é ativado em nosso cérebro. Como essa memória é
salva? No início é a sinapse, o ponto microscópico de contato entre dois
neurônios. Sua força aumenta quando os neurônios que ele liga são ativados
conjuntamente em curta sucessão — essa é a famosa regra de Hebb: neurônios
que disparam juntos, conectam-se. Uma sinapse que se fortalece é como uma
fábrica que aumenta sua produtividade: recruta mais neurotransmissores no
lado pré-sináptico e mais moléculas receptoras no lado pós-sináptico. Também

aumenta de tamanho para acomodá-los.
À medida que um neurônio aprende, sua própria forma também muda. Uma
estrutura semelhante a um cogumelo chamada “espinha dendrítica” se forma no
local do dendrito onde a sinapse aterrissa. Se necessário, surge uma segunda
sinapse para duplicar a primeira. Outras sinapses que pousam no mesmo neurônio
também são fortalecidas.18
Assim, quando o aprendizado é prolongado, a própria anatomia do cérebro
acaba mudando. Com os avanços recentes na microscopia – em particular, a
revolução trazida pelos microscópios de dois fótons, baseados em lasers e física
quântica – os botões sinápticos e axonais agora podem ser vistos diretamente
crescendo a cada episódio de aprendizado, assim como uma árvore na primavera.
Quando acumuladas, as alterações dendríticas e axonais podem ser substanciais, da
ordem de milímetros, e começam a se tornar detectáveis em humanos por meio de
ressonância magnética. Aprender a tocar música,19 ler,20 fazer malabarismo21 ou
mesmo dirigir um táxi em uma grande cidade22 resulta em melhorias detectáveis na
espessura do córtex e na força das conexões que ligam as regiões corticais: as
estradas do cérebro melhoram quanto mais nos os utilizamos.
As sinapses são o epítome do aprendizado, mas não o único

mecanismo de mudança no cérebro. Quando aprendemos, a explosão de novas
sinapses muitas vezes força os neurônios a também desenvolver ramos adicionais,
tanto nos axônios quanto nos dendritos. Longe da sinapse, os axônios úteis se cercam
com uma bainha de isolamento – mielina, semelhante à fita adesiva que é enrolada em
fios elétricos para isolá-los. Quanto mais um axônio é usado, mais camadas essa
bainha se desenvolve, isolando-o cada vez melhor, permitindo que ele transmita
informações com maior velocidade.
Os neurônios nem são os únicos jogadores celulares do aprendizado

jogos. À medida que a aprendizagem progride, todo o seu ambiente também
muda, incluindo as células gliais circundantes, que as alimentam e curam, e até
mesmo a rede vascular de veias e artérias que lhes fornece oxigênio, glicose e
nutrientes. Nesta fase, todo um circuito neural e sua estrutura de suporte foram
alterados.
Alguns pesquisadores desafiam o dogma de que as sinapses são o
ator indispensável de toda aprendizagem. Dados recentes sugerem que as
células de Purkinje, um tipo especial de neurônio no cerebelo, podem memorizar
intervalos de tempo, e que as sinapses não desempenham nenhum papel nisso.
processo de aprendizagem: o mecanismo parece ser puramente interno à célula.23

É bem possível que a dimensão do tempo, que é uma especialidade do cerebelo,
seja armazenada na memória usando um truque evolutivo diferente, que não se
baseia em sinapses . Cada neurônio cerebelar, por si só, parece ser capaz de
armazenar vários intervalos de tempo, talvez por meio de mudanças químicas
estáveis em seu DNA.
Outra fronteira de pesquisa consiste em esclarecer como tais mudanças

induzidas pelo aprendizado, sináptico ou não, podem implementar os tipos mais
elaborados de aprendizado de que o cérebro humano é capaz, baseado na
“linguagem do pensamento” e na rápida recombinação de conceitos existentes .
Como vimos, os modelos convencionais de redes neurais artificiais fornecem uma
explicação razoavelmente satisfatória de como milhões de sinapses em mudança
nos permitem aprender a reconhecer um número, um objeto ou um rosto. No
entanto, não existe um modelo verdadeiramente satisfatório de como as mudanças
sinápticas nas redes neurais fundamentam a aquisição da linguagem ou as regras
matemáticas.
Passar do domínio das sinapses para as regras simbólicas que aprendemos nas
aulas de matemática continua sendo um desafio hoje. Vamos manter a mente
aberta, porque estamos longe de entender completamente todos os códigos
biológicos pelos quais nosso cérebro armazena nossas memórias.
A NUTRIÇÃO COMO ELEMENTO CHAVE DA APRENDIZAGEM
O que é certo é que, quando aprendemos, ocorrem mudanças biológicas

maciças: não apenas os neurônios sofrem mudanças em seus andaimes de
dendritos e axônios, mas também as células gliais circundantes. Todas essas
transformações levam tempo. Cada experiência de aprendizagem requer uma
cascata de mudanças biológicas, que podem se estender por vários dias.
Muitos genes especializados em plasticidade devem ser expressos, para que as
células produzam as proteínas e membranas necessárias para estabelecer
novas sinapses, dendritos e axônios. Esse processo absorve muita energia: o
cérebro de uma criança pequena consome até 50% do balanço energético do
corpo. Glicose, oxigênio, vitaminas, ferro, iodo, ácidos graxos . . . uma grande
variedade de nutrientes é essencial para o crescimento bem sucedido do cérebro.
O cérebro não se alimenta apenas de estimulação intelectual. Para fazer e quebrar
alguns milhões de sinapses por segundo, é preciso uma dieta balanceada,
oxigenação e exercícios físicos.24
Um episódio triste ilustra a extrema sensibilidade do cérebro

em desenvolvimento à nutrição adequada. Em novembro de 2003, crianças
em Israel de repente foram afligidas por uma doença desconhecida.25 Da
noite para o dia, dezenas de bebês inundaram hospitais pediátricos em todo
o país. Apresentavam sintomas neurológicos graves: letargia, vômitos,
deficiência visual e problemas de vigilância, às vezes levando ao coma ou,
em dois deles, à morte. Começou uma corrida contra o tempo: o que era
essa nova doença e o que causou seu surgimento abrupto?
A investigação acabou por rastreá-lo até a nutrição. Todos

bebês doentes foram alimentados com mamadeira com o mesmo leite
em pó à base de soja. A análise de sua fórmula confirmou o pior dos
temores: segundo o rótulo, o leite deveria conter 385 miligramas de tiamina,
mais conhecida como vitamina B1. Na realidade, não havia vestígios disso.
Contactado, o fabricante admitiu ter alterado a composição do leite no
início de 2003: por razões económicas, deixou de adicionar tiamina. Esta
vitamina, no entanto, é um nutriente essencial para o cérebro. Pior ainda, o
corpo não armazena tiamina, então sua ausência na dieta leva rapidamente
a uma deficiência grave.
Os neurologistas já sabiam que a deficiência de tiamina em adultos

causa um distúrbio neurológico grave, a síndrome de Wernicke-
Korsakoff, mais frequentemente observada em bebedores pesados. Na
fase aguda, essa deficiência induz a encefalopatia de Wernicke, que pode
ser fatal. Confusão mental, distúrbios dos movimentos oculares, incapacidade
de coordenar os movimentos e estado de alerta deficiente, às vezes levando
ao coma e à morte . . . seus sintomas se assemelhavam aos dos bebês em
Israel em todos os sentidos.
A prova definitiva veio da intervenção terapêutica. Assim que a
vitamina B1 essencial foi restaurada na dieta das crianças, sua condição
melhorou em poucos dias e elas puderam voltar para casa. Estima-se que
entre seiscentos e mil bebês israelenses foram privados de tiamina por duas
a três semanas durante os primeiros meses de suas vidas. A restauração de
uma dieta equilibrada claramente os salvou. No entanto, anos depois, eles
exibiram grandes deficiências de linguagem. A psicóloga israelense Naama
Friedmann testou cerca de sessenta deles quando tinham seis ou sete anos
de idade. A maioria sofria de enormes déficits na linguagem
compreensão e produção. A gramática deles era particularmente anormal

– depois de ler ou ouvir uma frase, eles tinham problemas para descobrir
quem fez o quê a quem. Mesmo a simples tarefa de nomear uma imagem,
como a de uma ovelha, era difícil para alguns deles. No entanto, seu
processamento conceitual parecia intacto: eles sabiam associar, por
exemplo, a imagem de um novelo de lã com a de uma ovelha em vez de um
leão. E em todos os outros aspectos, em particular no que diz respeito à
inteligência (o famoso teste de QI), eles pareciam normais.
Esta triste história ilustra os limites da plasticidade cerebral. Aprendendo

uma linguagem é obviamente baseada na imensa plasticidade do
cérebro do bebê. Qualquer bebê é capaz de aprender qualquer língua do
mundo, desde os tons em chinês até os cliques em bantu da África do Sul,
porque seu cérebro muda adequadamente em resposta à imersão em uma
determinada comunidade. No entanto, essa plasticidade não é infinita nem
mágica: é um processo estritamente material que requer insumos nutricionais
e energéticos específicos, e mesmo algumas semanas de privação podem
levar a déficits permanentes. E como a organização do cérebro é altamente
modular, esses déficits podem estar restritos a um domínio cognitivo
específico, como gramática ou vocabulário. A literatura pediátrica está
repleta de exemplos semelhantes. Eu poderia ter mencionado, por exemplo,
a síndrome alcoólica fetal, que é causada pela exposição do feto ao álcool
ingerido pela mãe. O álcool é um teratógeno, uma substância que causa
malformações embrionárias do corpo e do cérebro: é um verdadeiro veneno
para o sistema nervoso em desenvolvimento, que deve ser claramente
evitado durante a gravidez. Para que as árvores dendríticas prosperem, o
jardim do cérebro deve receber todos os nutrientes de que necessita.
OS PODERES E LIMITES DA PLASTICIDADE SINÁPTICA
Em um cérebro bem alimentado, até onde a plasticidade pode ir? Pode

religar completamente o cérebro? A anatomia do cérebro pode mudar
drasticamente de acordo com a experiência? A resposta é não. A
plasticidade é uma variável de ajuste, fundamental para o aprendizado,
mas restrita e confinada por todos os tipos de restrições genéticas que nos
fazem o que somos: a conjunção de um genoma fixo e experiências únicas.
É hora de contar mais sobre Nico, o jovem artista cuja arte

Eu o apresentei no primeiro capítulo (veja a figura 1 no encarte colorido).
Nico cria suas pinturas esplêndidas usando apenas um único hemisfério cerebral,
o esquerdo. Aos três anos e sete meses, ele passou por um procedimento
cirúrgico chamado “hemisferectomia” – a remoção quase completa de um
hemisfério – para acabar com sua epilepsia devastadora.
Apoiado por sua família, seus médicos e a Harvard School of

O pesquisador educacional Antonio Battro, Nico conseguiu frequentar a
escola primária em Buenos Aires, depois fez o ensino médio em Madri até
os dezoito anos. Hoje em dia, sua linguagem oral e escrita, memória e
habilidades espaciais são excelentes. Ele até conseguiu seu diploma
universitário em TI. Acima de tudo, ele tem esse talento notável para desenhar
e pintar.
Este é um bom caso de plasticidade cerebral no trabalho? Sem dúvida,
considerando que o hemisfério esquerdo de Nico domina muitas
funções que, em uma pessoa normal, são tradicionalmente associadas ao
hemisfério direito. Por exemplo, Nico consegue prestar atenção à totalidade de
uma imagem e pode copiar a disposição espacial de um desenho; ele entende
a ironia e as entonações de uma conversa e pode adivinhar os pensamentos
das pessoas com quem fala. Se a mesma lesão ocorresse em um cérebro
adulto, essas funções provavelmente seriam irremediavelmente danificadas.
No entanto, a plasticidade de Nico era comprovadamente

limitada: era canalizada e amplamente confinada aos circuitos neuronais, que
são os mesmos de todas as outras crianças. Quando examinamos Nico com
toda uma bateria de testes, descobrimos que ele conseguiu encaixar todos os
seus talentos aprendidos em seu hemisfério esquerdo intacto sem alterar sua
organização usual. Na verdade, todas as funções tradicionalmente do lado
direito haviam pousado em locais do hemisfério esquerdo simétricos às suas
posições usuais! Por exemplo, a região cortical que responde aos rostos e que
geralmente está localizada no lobo temporal direito estava agora localizada no
hemisfério esquerdo em Nico - mas em um ponto muito preciso, exatamente
simétrico ao seu local habitual, um local frequentemente ativado (fracamente )
por rostos em crianças normais. Assim, enquanto seu cérebro se reorganizava,
permanecia submetido aos fortes constrangimentos de uma organização
preexistente comum a todos os humanos.
Os grandes feixes de fibras de conexões que, desde o nascimento e até
in utero, percorrida pelos cérebros de todos os bebês, forçou seu aprendizado

a permanecer dentro dos limites estreitos de um mapa cortical universal.
Os poderes e os limites da plasticidade cerebral nunca são tão
óbvios quanto quando consideramos as habilidades visuais. Não
surpreendentemente, Nico é hemianótico, o que significa que sua visão é dividida
em duas: uma metade direita onde ele vê perfeitamente (em ambos os olhos) e
uma metade esquerda onde ele é totalmente cego (novamente em ambos os
olhos). Sempre que ele olha para alguma coisa, a parte direita parece normal,
enquanto a esquerda é invisível – ele precisa desviar os olhos para vê-lo. De fato,
devido ao cruzamento das vias visuais, as entradas do lado esquerdo do campo
visual, que normalmente aterrissariam no hemisfério direito de Nico, agora caem
no vazio e não podem ser processadas. Vinte anos de experiência visual não
permitiram que o cérebro de Nico compensasse esse problema fundamental de
fiação. A plasticidade de suas conexões visuais era obviamente muito modesta, e
o desenvolvimento dessa parte de seu cérebro congelou muito cedo na infância
para impedi-lo de ficar cego em seu campo visual esquerdo.
Agora, deixe-me falar sobre outra jovem paciente: uma menina de dez
anos que conhecemos apenas pelas iniciais, AH26 Esta criança, como Nico,
tem apenas o hemisfério esquerdo, mas ao contrário dele, ela sofria de uma
malformação embrionária que causou o desenvolvimento de seu hemisfério
direito para parar completamente antes de sete semanas de gestação. Em
outras palavras, AH passou praticamente toda a sua vida sem um hemisfério
direito. A plasticidade precoce mudou radicalmente seu cérebro? Não, mas
conseguiu intervir um pouco mais do que poderia para Nico.
Ao contrário dele, ela é capaz de ver alguma luz, forma e movimento em seu
campo visual esquerdo, aquele que deveria ter sido projetado em seu hemisfério
direito ausente. Sua visão está longe de ser perfeita, mas ela detecta luz e
movimento em uma região próxima ao centro de sua visão. Imagens do cérebro
mostram que suas áreas visuais do cérebro são parcialmente remapeadas (veja
a figura 11 na inserção colorida). Na parte de trás de seu hemisfério esquerdo
intacto, dentro do córtex occipital, que abriga a visão, há um mapa perfeitamente
normal da parte direita do mundo — mas também pequenas manchas anormais
que respondem à parte esquerda. Parece que os axônios de metade de sua
retina, que normalmente deveriam ser cegos, foram redirecionados para o outro
lado do cérebro. Este é um caso extremo de plasticidade pré-natal – e mesmo
assim, a reorganização é apenas parcial e bastante insuficiente para restaurar
visão normal. No sistema visual, as restrições genéticas dominam e a plasticidade atua

apenas dentro de seus limites estreitos.
Os cientistas estavam curiosos para ver até onde esses limites genéticos poderiam
ser empurrados. Um experimento é particularmente famoso, no qual o neurocientista do
MIT Mriganka Sur conseguiu transformar o córtex auditivo do furão em um córtex visual .
para o tronco encefálico, depois atinge uma região precisa do tálamo auditivo e, finalmente,
entra no córtex auditivo. Esses furões inevitavelmente acabaram surdos — mas então
ocorreu uma curiosa reorientação e as fibras visuais começaram a invadir esse circuito
auditivo desconectado, como se estivessem substituindo as entradas auditivas que faltavam.
E eis que uma área inteira do córtex que deveria ter sido dedicada à audição agora
respondia à visão. Continha todo um mapa de neurônios sensíveis à luz e às linhas
orientadas, como em qualquer córtex visual. As sinapses se adaptaram a essa nova
configuração e começaram a codificar as correlações entre os neurônios originalmente
destinados à audição, mas que haviam sido reciclados em processadores de visão.
Devemos concluir desses dados que a plasticidade cerebral é “maciça” e que a

experiência é o que “organiza o córtex”, como diriam os mais ardentes defensores da tábula
rasa?28 Essa não é a conclusão de Sur. Ao contrário, ele insiste que se trata de uma
situação patológica e que a reorganização está longe de ser perfeita: no córtex auditivo, os
mapas visuais não são tão diferenciados quanto deveriam. O córtex visual é geneticamente
preparado para suportar a visão. Durante o desenvolvimento normal, cada região cortical
se especializa muito cedo, sob a influência de numerosos genes de desenvolvimento. Os
axônios encontram seu caminho ao longo de vias químicas predeterminadas que traçam
proto-mapas no cérebro em desenvolvimento. Somente no final do caminho eles estão
sujeitos à crescente influência da atividade neuronal que chega e podem então se adaptar
a ela.
A tapeçaria neuronal é fixa e apenas pontos pequenos, mas significativos, podem

ser alterados.
Também é importante entender que quando as sinapses mudam, mesmo sob a
influência da atividade neuronal, não é necessariamente o ambiente que está deixando
uma impressão no cérebro.
Em vez disso, o cérebro pode usar a plasticidade sináptica para se auto-organizar: primeiro
gera padrões de atividade puramente de dentro, na ausência de qualquer

entrada do ambiente, e usa esses padrões de atividade, em combinação com
plasticidade sináptica, para conectar seus circuitos. No útero, mesmo antes de
receber qualquer estímulo sensorial, o cérebro, os músculos e até a retina já
exibem atividade espontânea (é por isso que os fetos se movem no útero).
Neurônios são células excitáveis: eles podem disparar espontaneamente, e seus
potenciais de ação se auto-organizam em ondas maciças que viajam através do
tecido cerebral. Mesmo no útero, ondas aleatórias de picos neuronais fluem pelas
retinas do feto e, ao atingirem o córtex, embora não carreguem nenhuma informação
visual no sentido estrito do termo, essas ondas ajudam a organizar os mapas visuais
corticais.29 Assim, plasticidade sináptica inicialmente age sem exigir qualquer
interação com o mundo exterior. É somente durante o terceiro trimestre de gestação
que a linha entre a natureza e a criação gradualmente se desvanece à medida que
o cérebro, que já está bem formado, começa a se ajustar aos mundos interno e
externo.
Mesmo após o nascimento, disparos neuronais aleatórios não relacionados a

as entradas continuam a fluir através do córtex. Muito lentamente, essa
atividade endógena evolui sob a influência dos órgãos sensoriais. Esse
processo pode receber uma interpretação precisa dentro do arcabouço teórico
do “cérebro bayesiano”.30 A atividade endógena inicial representa o que os
estatísticos chamam de prior: as expectativas do cérebro, seus pressupostos
evolutivos anteriores a qualquer interação com o meio ambiente. Mais tarde, essas
suposições se ajustam gradualmente aos sinais ambientais, de modo que, após
alguns meses de vida, a atividade neuronal espontânea se assemelha ao que os
estatísticos chamam de posterior: as distribuições de probabilidade do cérebro
mudaram para refletir cada vez mais de perto as estatísticas do mundo real.
Durante o desenvolvimento do cérebro, os modelos internos que carregamos em

nossos circuitos neuronais são refinados à medida que cada um deles compila
estatísticas de suas entradas sensoriais. O resultado final é um compromisso, uma
seleção do melhor modelo interno entre aqueles que nossa organização anterior
disponibiliza.
O QUE É UM PERÍODO SENSÍVEL?

Acabamos de ver que a plasticidade cerebral é vasta e limitada. Todos os

pacotes de conexões podem e devem mudar à medida que vivemos,
amadurecemos e aprendemos. No entanto, os principais já existem desde o
nascimento e permanecem essencialmente os mesmos em todos nós. Tudo o
que aprendemos resulta de pequenos ajustes, principalmente ao nível dos
microcircuitos, muitas vezes na escala de alguns milímetros. À medida que os
neurônios amadurecem e seus ramos terminais desenvolvem novos botões
sinápticos em outros neurônios, os circuitos que eles formam permanecem
firmemente enraizados dentro de um envelope genético limitado. Em resposta ao
ambiente, as vias neuronais podem alterar sua conectividade local, sua força e
também sua mielinização, cercando-se de uma bainha isolante de mielina, que
acelera suas mensagens e, assim, facilita a transmissão de informações de uma
região para outra - mas elas não podem se reorientar à vontade.
Essa restrição espacial na conectividade de longa distância é acoplada

com uma restrição temporal: em muitas regiões do cérebro, a plasticidade é
máxima apenas durante um intervalo de tempo limitado, que é chamado de
“período sensível”. Ele se abre na primeira infância, atinge o pico e depois
diminui gradualmente à medida que envelhecemos. Todo o processo leva vários
anos e varia entre as regiões do cérebro: as áreas sensoriais atingem seu pico
de plasticidade por volta de um ou dois anos de idade, enquanto regiões de
ordem superior, como o córtex pré-frontal, atingem o pico muito mais tarde na
infância ou mesmo no início da adolescência. O que é certo, porém, é que à
medida que envelhecemos, a plasticidade diminui e o aprendizado, embora não
completamente congelado, torna-se cada vez mais difícil.31
A razão pela qual afirmo que os bebês são verdadeiras máquinas de
aprendizado é que, durante seus primeiros anos, seus cérebros são a sede de
uma plasticidade sináptica efervescente. Os dendritos de seus neurônios piramidais
se multiplicam a uma velocidade impressionante. Ao nascer, o córtex do bebê
parece uma floresta depois de um furacão, escassamente povoado por troncos de
árvores dispersos e nus. Os primeiros seis meses de vida são literalmente a
primavera para o cérebro recém-nascido, à medida que as conexões e ramificações
neuronais se multiplicam até formar uma selva inextricável.32 Essa complexificação
progressiva das árvores neuronais poderia sugerir que o ambiente deixa sua
impressão no cérebro e o força a cresce à medida que armazena cada vez mais
dados. A realidade, no entanto, é muito mais complicada. No cérebro imaturo, as
sinapses não surgem na proporção direta de quanto aprendizado
ocorre. Em vez disso, eles são criados em número excessivo, e o papel do

ambiente é mantê-los ou podá-los, dependendo de sua utilidade para o
organismo. Durante a primeira infância, a densidade de sinapses atinge o
dobro da de um adulto, e só então diminui lentamente. Em cada região do
córtex, ondas incessantes de superprodução são seguidas por uma retração
seletiva de sinapses inúteis ou, ao contrário, uma multiplicação dessas
sinapses e ramos dendríticos e axonais que provaram seu valor.
Pense nisso da próxima vez que olhar para uma criança pequena: a cada
segundo que passa, vários milhões de sinapses são criadas ou eliminadas
em seu cérebro. Esta efervescência explica em grande parte a existência
de períodos sensíveis. Na primeira infância, toda a folhagem dendrítica e
sináptica ainda é altamente maleável; quanto mais o cérebro amadurece,
mais o aprendizado se limita a mudanças marginais.
Nos primeiros dois anos de vida, as árvores neuronais crescem descontroladamente até formar
arbustos inextricáveis. No cérebro de uma criança de dois anos, o número de sinapses é quase o dobro
do de um adulto. No curso do desenvolvimento, as árvores dendríticas são progressivamente cortadas
sob a influência da atividade neuronal. As sinapses úteis são preservadas e se multiplicam, enquanto as
desnecessárias são eliminadas.
Notavelmente, essas ondas de superprodução sináptica

e poda não ocorrem em todos os lugares ao mesmo tempo.
o córtex visual, como outras regiões sensoriais, amadurece muito mais

rápido do que as áreas corticais de nível superior. O princípio organizador
parece ser o de estabilizar rapidamente as entradas do cérebro, congelando
a organização cortical nas áreas sensoriais iniciais, deixando as áreas de
alto nível abertas à mudança por muito mais tempo. Assim, regiões mais
altas na hierarquia cortical, como o córtex pré-frontal, são as últimas a se
estabilizar: continuam a mudar durante a adolescência e além. Na espécie
humana, o pico de superprodução sináptica termina por volta dos dois anos
de idade no córtex visual, três ou quatro anos de idade no córtex auditivo e
entre cinco e dez anos de idade no córtex pré-frontal.34 A mielinização, o
envoltório de um isolante ao redor dos axônios, segue o mesmo padrão.35
Nos primeiros meses de vida, os neurônios nas áreas sensoriais são os
primeiros a se beneficiar de uma lâmina isolante de mielina. Como resultado,
o processamento da informação visual se acelera drasticamente: o atraso
na transmissão da informação da retina para as áreas visuais cai de um
quarto para um décimo de segundo nas primeiras semanas de vida.36 Esse
isolamento é muito mais lento para atingir os feixes de fibras que se projetam
para o córtex frontal, a sede do pensamento abstrato, atenção e planejamento.
Durante anos, as crianças pequenas possuem um cérebro híbrido: seus
circuitos sensoriais e motores são bastante maduros, enquanto suas áreas
de nível superior continuam a operar na velocidade lenta dos circuitos não
mielinizados. Como resultado, durante o primeiro ano de vida, levam até
quatro vezes mais tempo do que um adulto para tomar consciência de
informações básicas, como a presença de um rosto.37
Em sincronia com essas ondas sucessivas de superprodução sináptica

e mielinização, os períodos sensíveis para o aprendizado abrem e fecham
em momentos diferentes, dependendo das regiões cerebrais envolvidas. As
áreas sensoriais iniciais estão entre as primeiras a perder sua capacidade
de aprender. O exemplo mais bem estudado, tanto em humanos quanto em
animais, é a visão binocular.38 Para calcular a profundidade, o sistema
visual mescla as informações de ambos os olhos. Essa “fusão binocular”,
no entanto, acontece apenas se o córtex visual receber informações de alta
qualidade de ambos os olhos durante um período sensível bem definido,
que dura alguns meses para gatos e alguns anos para humanos. Se, durante
esse período, um olho permanecer fechado, embaçado ou desalinhado
porque a criança sofre de estrábico grave, o circuito cortical responsável
pela fusão dos olhos não se forma,
e a perda resultante é permanente. Essa condição, conhecida como

“ambliopia”, ou “olho preguiçoso”, deve ser corrigida nos primeiros anos de
vida, idealmente antes dos três anos de idade – caso contrário, a fiação do
córtex visual permanece prejudicada para sempre.
Outro exemplo de período sensível é aquele que nos permite dominar os
sons da nossa língua nativa. Os bebês são campeões em aprender línguas:
ao nascer, eles distinguem todos os fonemas de todas as línguas possíveis.
Onde quer que nasça e seja qual for sua origem genética, basta mergulhar em
um banho de línguas (que pode ser monolíngue, bilíngue ou mesmo trilíngue)
e, em poucos meses, sua audição fica sintonizada com a fonologia do linguagem
que os cerca. Como adultos, perdemos essa notável capacidade de aprendizado:
como vimos, indivíduos de língua japonesa podem passar a vida inteira em um
país de língua inglesa sem nunca serem capazes de distinguir o som /R/ do
som /L/, sempre confusos “ direito” com “luz”, “vermelho” com “led” e “eleição”
com “ereção”. Mas, caro leitor britânico ou americano, não sinta uma sensação
de superioridade, porque, como falante nativo de inglês, você nunca será capaz
de distinguir as versões dentárias e retroflexas da consoante /T/ que qualquer
falante de hindi percebe como uma acéfalo, nem as vogais curtas e longas do
finlandês ou japonês, nem os quatro tipos de tons do chinês.
Pesquisas mostram que perdemos essa habilidade no final do

primeiro ano de vida.39 Quando bebês, compilamos inconscientemente
estatísticas sobre o que ouvimos, e nosso cérebro se ajusta à distribuição
de fonemas usados por aqueles ao nosso redor. Por volta dos doze meses
de idade, esse processo converge e algo congela em nosso cérebro: perdemos
a capacidade de aprender. Exceto em circunstâncias extraordinárias, nunca
mais poderemos nos passar por falantes nativos de japonês, finlandês ou
hindi – nossa fonologia é (quase) imutável. É preciso um esforço imenso para
um adulto recuperar a capacidade de discriminar sons em uma língua
estrangeira. Somente com uma reabilitação intensa e focada, primeiro
amplificando as diferenças entre /R/ e /L/ para torná-las audíveis, depois
reduzindo-as gradualmente, um adulto japonês consegue recuperar parcialmente
a discriminação dessas consoantes.40 É por isso que os cientistas falam em
um período sensível em vez de um
período crítico: a capacidade de aprender diminui, mas nunca

chega a zero. Na idade adulta, a capacidade residual de adquirir fonemas

estrangeiros varia significativamente entre as pessoas. Para a maioria de nós,
tentar falar corretamente uma língua estrangeira na idade adulta é um esforço
insondável – e é por isso que a maioria dos visitantes franceses nos Estados
Unidos parece o inspetor Clouseau em The Pink Panther (“Vere iz ze téléfawn?”).
Notavelmente, no entanto, algumas pessoas mantêm a capacidade de aprender
a fonologia de línguas estrangeiras, e essa competência pode ser parcialmente
prevista pelo tamanho, forma e número de conexões de seu córtex auditivo.41
Esses cérebros sortudos aparentemente estabilizaram um conjunto mais flexível
de conexões - mas eles são claramente a exceção e não a regra.
O período sensível para o domínio da fonologia de uma língua estrangeira

a linguagem se fecha rápido: já nos primeiros anos de vida, uma criança já
é muito menos competente do que um bebê de poucos meses.
Hierarquicamente, níveis mais altos de processamento de linguagem,
como aprendizado de gramática, permanecem abertos um pouco mais, mas
começam a se fechar por volta da puberdade. Sabemos disso por estudos de
crianças que chegam a um país estrangeiro como migrantes ou adotadas: elas
podem se destacar em sua nova língua, mas muitas vezes têm um pequeno
sotaque estrangeiro e erros ocasionais de sintaxe que revelam sua verdadeira
origem. Essa lacuna é quase imperceptível em crianças que entraram no país
com três ou quatro anos de idade, mas aumenta massivamente em jovens que
imigraram na adolescência ou na idade adulta.42 Um artigo recente coletou dados
de milhões de segunda língua
aprendizes na internet e os usaram para modelar a curva humana média
de aprendizagem de linguagem.43 Os resultados sugerem que as
habilidades de aprendizagem gramatical declinam lentamente durante a infância
e caem acentuadamente por volta dos dezessete anos. Como leva tempo para
aprender, os pesquisadores recomendam começar bem antes dos dez anos de idade.
Além disso, eles enfatizam o valor de uma estadia imersiva no país de interesse,
porque nada supera a interação social: o sucesso é muito melhor se você precisar
falar uma língua estrangeira para almoçar ou pegar um ônibus do que aprender
em sala de aula ou assistindo TV. Mais uma vez, quanto antes é melhor: a
plasticidade cerebral para o aprendizado da gramática parece encolher
drasticamente no final da puberdade (embora nem toda essa queda possa ser
atribuída a
uma perda de plasticidade cerebral; outros fatores relacionados à motivação e

socialização provavelmente também desempenham um papel).
A capacidade de adquirir uma língua estrangeira diminui drasticamente com a idade, sugerindo o
encerramento de um período sensível para a plasticidade cerebral. Quanto mais tarde você aprender um
idioma, menores serão suas chances de produzi-lo sem sotaque estrangeiro ou erros gramaticais (topo).
Por outro lado, quanto mais tempo as crianças adotadas passam em seu país de origem antes de
partir, mais seus cérebros mantêm um traço adormecido e inconsciente de sua língua de origem
(abaixo).
Até agora, consideramos apenas a segunda língua

aquisição, mas note que esta é uma situação impura – esta
competência declina relativamente lentamente, ao longo de uma
década ou mais, e nunca chega a zero, possivelmente porque depende,
pelo menos em parte, de um cérebro já moldado pela aquisição de um primeiro idioma.
O que aconteceria se uma criança fosse privada de toda exposição a
qualquer idioma durante os primeiros anos de vida? Diz a lenda que o
faraó Psamtik I foi o primeiro a fazer essa pergunta. Ele deixou dois
crianças sob os cuidados de um pastor com proibição estrita de falar com elas
- mas ambos os bebês finalmente falaram. . . em frígio! Este “experimento” foi
alegadamente repetido pelo imperador Frederico II no século XIII, por
Jalaluddin Muhammad Akbar, chefe do Império Mogol, no século XVI, e por
Jalaluddin Muhammad Akbar, no século XVI – e alguns destes crianças,
privadas de qualquer língua, supostamente morreram.
(Os psicanalistas lacanianos enlouquecem com essa história.)

Infelizmente, não há necessidade de espalhar tais fábulas, pois essa
situação ocorre com bastante regularidade em todos os países do mundo:
todos os dias, crianças nascem surdas e, se não forem ajudadas, permanecem
prisioneiras em sua bolha de silêncio. Sabemos agora que é essencial, já no
primeiro ano de vida, dar-lhes uma língua: ou a língua gestual, que é a mais
natural (as línguas gestuais são línguas reais, e as crianças que as falam
desenvolvem-se com bastante normalidade), ou uma língua falada, quando
essas crianças podem receber um implante coclear que restaura parcialmente
sua audição.
Aqui, novamente, a pesquisa mostrou a necessidade de agir muito rapidamente:44
quando as crianças são implantadas após os oito meses de idade, elas já
apresentam déficits permanentes de sintaxe. Eles nunca entendem completamente
frases em que certos elementos são movidos, um fenômeno chamado “movimento
sintático”. Na frase “Mostre-me a garota que a avó penteia”, não é óbvio que o
primeiro sintagma nominal, “a menina”, seja na verdade o objeto do verbo “pente”
e não seu sujeito. Quando uma criança surda recebe um implante coclear após
um ou dois anos de idade, ela continua incapaz de entender tais frases e falha
em um teste que exige a escolha entre uma foto em que a avó penteia o cabelo
da menina e outra em que a menina penteia o cabelo da avó. cabelo.
A primeira infância parece ser uma fase essencial para o

desenvolvimento do movimento sintático: no final do primeiro ano de vida, se
o cérebro é privado de qualquer interação linguística, a plasticidade cerebral
para esse aspecto da sintaxe se fecha. Lembre-se das crianças moribundas
em Israel em 2003: algumas semanas de privação de tiamina, nos primeiros
meses de suas vidas, foram suficientes para fazê-las perder para sempre o
sentido da sintaxe. Esses resultados convergem com outros estudos realizados
com crianças selvagens abandonadas por
suas famílias, como o famoso Victor de Aveyron (c. 1788-1828), e com

pesquisas sobre crianças abusadas, como a garotinha americana
ironicamente chamada Gênio e criada (ou melhor, derrubada) em um armário
por mais de treze anos sem ser falado. Uma vez que Victor e Genie foram
trazidos de volta à civilização depois de tantos anos, eles começaram a falar e
adquirir algum vocabulário, mas sua gramática permaneceu permanentemente
comprometida.
A aprendizagem de línguas, portanto, fornece um excelente exemplo

de períodos sensíveis em humanos, tanto para fonologia quanto para gramática.
É também uma boa ilustração da modularidade do cérebro: enquanto a
gramática e os sons da linguagem congelam, outras funções, como a
capacidade de aprender novas palavras e seus significados, permanecem abertas
ao longo da vida. Essa plasticidade residual é justamente o que nos permite
aprender, em qualquer idade, os significados de novas palavras, como fax, iPad,
meme e geek, ou mesmo neologismos humorísticos como askhole (alguém que
fica fazendo perguntas estúpidas e sem sentido) ou chairdrobe (aquela pilha de
roupas que colocamos em uma cadeira em vez de em um armário ou cômoda).
Para a aquisição de vocabulário, felizmente, nosso cérebro adulto continua a
exibir um certo nível de plasticidade infantil ao longo da vida – embora a razão
biológica pela qual os circuitos lexicais não sofrem de um período sensível seja
atualmente desconhecida.
UMA SINAPSE DEVE SER ABERTA OU FECHADA
Por que a plasticidade sináptica se fecha? Que mecanismos biológicos a

interrompem? A origem da abertura e fechamento dos períodos sensíveis é um
importante tema de pesquisa na neurociência contemporânea.45 O fechamento
do período sensível parece estar relacionado ao equilíbrio entre excitação e
inibição. Em crianças, os neurônios excitatórios são rapidamente eficazes,
enquanto os neurônios inibitórios se desenvolvem mais gradualmente. Alguns
neurônios, que contêm uma proteína chamada “parvalbumina”, cercam-se
progressivamente de uma matriz dura, uma espécie de rede chamada “rede
perineuronal” que se torna cada vez mais apertada e, eventualmente, impede que
as sinapses cresçam ou se movam. Emaranhados nessa rede rígida, os circuitos
neurais não são mais livres para mudar. Se pudéssemos liberar os neurônios
dessa camisa de força, por exemplo, aplicando um agente farmacológico como
como a fluoxetina (mais conhecida como Prozac), a plasticidade sináptica

pode retornar. Esta é uma grande fonte de esperança para o tratamento do
AVC, onde os pacientes precisam reaprender suas habilidades perdidas
usando as áreas preservadas ao redor da lesão cerebral.
Outros fatores também estão em jogo no fechamento de um período
sensível. Por exemplo, existe uma proteína chamada “Lynx1”, que, quando
presente em um neurônio, inibe os efeitos maciços da acetilcolina na plasticidade
sináptica. A acetilcolina, que normalmente sinaliza eventos de interesse e aumenta
a plasticidade sináptica, perde, portanto, seu efeito nos circuitos adultos invadidos
por Lynx1. Alguns pesquisadores tentaram restaurar a plasticidade adulterando
geneticamente o Lynx1 ou farmacologicamente com os mecanismos da acetilcolina
– com algum sucesso promissor em animais.
Outra possibilidade excitante, talvez mais facilmente aplicável a

humanos, consiste na aplicação de uma corrente que despolariza os
neurônios e os aproxima de seu limiar de disparo.46 Como resultado, o circuito
excitável torna-se mais facilmente ativado e modificável.
Essa terapia emergente traz mais uma vez esperança aos pacientes,
principalmente aqueles presos em uma depressão profunda: a aplicação de
uma pequena corrente elétrica no couro cabeludo às vezes é suficiente para
colocá-los de volta no caminho certo.
Pode-se perguntar por que o sistema nervoso persiste em
restringir sua própria plasticidade. Após um estágio inicial de intensa
plasticidade, deve haver alguma vantagem evolutiva em fechar o período
sensível e evitar mais mudanças nos circuitos cerebrais.
Simulações de redes neurais mostram que neurônios de baixo nível, nos estágios
iniciais da hierarquia visual, adquirem rapidamente campos receptivos simples e
reprodutíveis, como detectores de contorno. É provável que, para além dos
primeiros meses de vida, não haja mais ganho associado a continuar a atualizá-
los, uma vez que este tipo de detector já é quase o ideal. Nossos cérebros
também podem economizar o custo de energia associado ao crescimento dos
botões sinápticos e axonais. Além disso, mudar a organização das áreas
sensoriais iniciais, a base sobre a qual repousa toda percepção, corre o risco de
causar estragos em áreas de nível superior. Dessa perspectiva, depois de algum
tempo, provavelmente vale a pena deixar esses neurônios sensoriais em paz –
e é provavelmente por isso que a evolução se estabeleceu em mecanismos que
fecham
fora do período sensível em áreas sensoriais em um ponto mais precoce do

desenvolvimento do que em áreas associativas de nível superior.
O lado bom das coisas é que, como nossos circuitos congelam, conseguimos
manter, por toda a vida, um traço sináptico inconsciente e estável do que
aprendemos quando crianças. Mesmo que essas primeiras aquisições se tornem
obsoletas mais tarde, por exemplo, porque são substituídas por conhecimentos
adquiridos mais recentemente, nossos circuitos cerebrais retêm um traço adormecido
de nossos primórdios. Um exemplo notável é o caso de crianças adotadas após a
infância que precisam aprender uma segunda língua materna. Na segunda metade
do século XX, a Coreia foi um dos países que recorreu massivamente à adoção
internacional. Desde 1958, durante um período de quarenta anos, cerca de 180.000
crianças coreanas foram adotadas, e a grande maioria (cerca de 130.000) partiu para
um país distante, com mais de 10.000 chegando à França. Em nosso centro de
pesquisa em Paris, Christophe Pallier e eu examinamos vinte deles quando adultos.
Tendo chegado à França entre as idades de cinco e nove anos, esses rapazes e
moças praticamente não tinham lembrança consciente de sua terra natal (exceto
algumas lembranças olfativas, especialmente o cheiro de comida!). Nossos exames
mostraram que seus cérebros se comportavam essencialmente como o de uma
criança nascida na França:47 suas áreas de linguagem, no hemisfério esquerdo,
respondiam fortemente a frases em francês, mas não a frases em coreano (em
qualquer caso, não mais do que a qualquer outro idioma desconhecido, como o
japonês). No nível lexical e sintático, portanto, parecia que a nova língua havia
suplantado a antiga.
E ainda . . . com uma abordagem mais sutil, outro grupo de pesquisadores

descobriu que crianças adotivas ainda guardam, no fundo de seu córtex, um traço
adormecido dos padrões sonoros de sua língua original . ano na China antes de
serem adotados no Canadá. E, em vez de simplesmente deixá-los ouvir frases, os
pesquisadores deram a eles a difícil tarefa de discriminar os padrões tonais do
chinês. Imagens do cérebro mostraram que, enquanto adultos canadenses nativos
sem qualquer exposição ao chinês não conseguiam ouvir esses tons como
linguagem, apenas processando-os como uma melodia no hemisfério direito, os
adotados chinês-canadenses, assim como os chineses nativos, os processavam como
sons da linguagem em uma
região fonológica do hemisfério esquerdo chamada de “planum temporale”.

Assim, esse circuito parece ficar gravado com uma língua nativa no primeiro
ano de vida, e nunca se inverte totalmente depois.
Este não é o único exemplo. Eu já expliquei como uma criança

olho preguiçoso pode afetar para sempre os circuitos visuais no cérebro
se o problema for deixado sem vigilância. O etólogo e neurofisiologista Eric
Knudsen estudou um modelo animal desse efeito de período sensível. Ele criou
corujas jovens e as fez usar óculos de prisma que deslocavam todo o campo
visual cerca de vinte graus para a direita. Com suas corujas de óculos, ele
realizou os melhores estudos dos mecanismos neurais do período sensível.49
Apenas as corujas que usavam prismas durante a juventude foram capazes de
se ajustar a essa entrada sensorial incomum: suas respostas auditivas mudaram
para se alinhar com o retina, permitindo-lhes caçar com base em sinais
sincronizados de audição e visão noturna. Corujas mais velhas, no entanto,
mesmo depois de usar prismas por semanas, falharam miseravelmente. O mais
interessante é que os animais treinados durante a juventude abrigaram, pelo
resto de suas vidas, um traço neuronal permanente de sua experiência inicial.
Após o aprendizado, foi observado um circuito de duas vias: alguns axônios dos
neurônios auditivos no colículo inferior mantiveram sua posição normal, enquanto
outros foram reorientados para se alinharem com o mapa visual.
Quando os prismas foram removidos, as corujas rapidamente

aprenderam a se reorientar corretamente; e assim que os óculos foram
recolocados, os animais imediatamente se reajustaram, alterando a cena
auditiva em vinte graus. Como um parfait bilíngue, eles conseguiram mudar de
uma língua para outra. Seus cérebros mantinham um registro permanente dos
dois conjuntos de parâmetros e permitiam que eles mudassem de configuração
em um piscar de olhos – assim como os adotados chineses no Canadá mantinham
um rastro cerebral dos sons de sua língua original.
Também em nossa espécie, o aprendizado precoce – seja praticando

piano, desenvolvendo a visão binocular ou mesmo adquirindo nossas
primeiras palavras – deixa uma marca permanente. Como adultos, somos
mais rápidos em reconhecer as palavras que ouvimos pela primeira vez durante
a infância, como “mamadeira”, “pai” ou “fralda” – a plasticidade sináptica precoce
as gravou para sempre em nossa memória.50 O córtex juvenil aprende
línguas quase sem esforço e armazena esse conhecimento na

geometria permanente de seus axônios e dendritos.
A experiência inicial pode moldar profundamente nossos circuitos cerebrais. Uma coruja pode se
adaptar ao uso de prismas de vidro que mudam sua visão - mas apenas quando essa experiência
anormal ocorre durante sua juventude. Os neurônios auditivos da coruja, que localizam objetos com
base no pequeno atraso entre os sons que chegam aos ouvidos direito e esquerdo, se ajustam para se
alinharem aos sinais visuais. Os axônios podem ser deslocados em cerca de meio milímetro. Após essa
experiência inicial, os dois circuitos — normal e deslocado — permanecem presentes durante toda a vida
da coruja.
UM MILAGRE EM BUCARESTE
A evidência de maior plasticidade cerebral nos primeiros anos significa que

investir na educação infantil deve ser uma prioridade. A primeira infância é um
período altamente sensível, quando muitos dos circuitos cerebrais de uma
criança são mais facilmente transformados. Mais tarde, a perda gradual da
plasticidade sináptica torna o aprendizado cada vez mais difícil — mas não
esqueçamos que esse congelamento progressivo dos circuitos neurais é
precisamente o que permite que nosso cérebro mantenha um rastro estável de
tudo o que aprendemos na infância. Essas marcas sinápticas permanentes
acabam por definir quem somos.
Embora o aprendizado seja mais fácil quando ocorre mais cedo, seria
profundamente errado prestar atenção ao credo do “movimento de zero a
três” dos Estados Unidos e concluir que tudo depende desse período sensível.
Não, a maior parte do aprendizado não acontece antes de três anos.
Felizmente para nós, nossos cérebros permanecem flexíveis por muitos mais
anos. Após o abençoado período da primeira infância, a plasticidade neural
diminui, mas nunca desaparece. Ela enfraquece lentamente ao longo do tempo,
começando pelas áreas sensoriais periféricas, mas as áreas corticais de alto
nível mantêm seu potencial de adaptação ao longo de nossas vidas. É por isso
que muitos adultos aprendem com sucesso a tocar um instrumento ou a falar
uma segunda língua na casa dos cinquenta ou sessenta anos. E é também por
isso que as intervenções educativas às vezes fazem milagres, principalmente
quando são rápidas e intensas. A reabilitação pode não restaurar todas as
sutilezas do movimento sintático ou a percepção dos tons chineses, mas
conseguirá transformar uma criança em risco em um jovem adulto realizado e
responsável.
Os órfãos de Bucareste são um exemplo comovente disso
notável resiliência do cérebro em desenvolvimento. Em dezembro de 1989, a
Romênia subitamente se levantou contra o regime comunista. Em menos de
uma semana, os cidadãos revoltados tiraram do poder o ditador Nicolae
Ceauÿescu (1918–1989) e sua esposa – ambos foram julgados, condenados
e fuzilados às pressas no dia de Natal. Pouco depois, o mundo ficou
horrorizado ao descobrir as terríveis condições de vida dos moradores deste
pequeno canto da Europa. Uma das visões mais insuportáveis foi a das
crianças pequenas, de olhos mortos e emaciadas abandonadas em quase
seiscentos orfanatos romenos. Nessas verdadeiras casas de morte, cerca de
150.000 crianças foram amontoadas e deixadas quase inteiramente sozinhas.
O regime de Ceauÿescu estava tão profundamente convencido
que a força de um país está na juventude que pôs em prática uma

delirante política pró-natalidade. Tudo foi feito para garantir nascimentos
aos milhares, desde a tributação maciça de solteiros e casais sem filhos até
a proibição da contracepção e do aborto, e até a pena de morte para quem
optasse por abortar. . . . Os casais que não podiam sustentar seus filhos não
tinham escolha a não ser entregá-los aos serviços do Estado. Daí as
centenas de orfanatos que, rapidamente sobrecarregados, deixaram de
fornecer higiene, alimentação, aquecimento e o mínimo de contato humano
e estimulação cognitiva essenciais para o desenvolvimento normal da criança.
Essa política desastrosa produziu milhares de crianças negligenciadas

com grandes déficits cognitivos e emocionais em todas as áreas.
Lesões na infância deixam sua marca no cérebro, mas a intervenção precoce pode minimizá-
las. Nos orfanatos romenos durante a ditadura de Ceauÿescu, as crianças eram maltratadas
e privadas de interação com adultos. Aos oito anos, a maioria desses órfãos apresentava
grandes déficits nas habilidades sociais, quer tivessem permanecido em uma instituição ou
sido colocados em uma família após os vinte meses de idade. No entanto, aqueles que foram
colocados em um orfanato antes dos vinte meses de idade exibiram habilidades essencialmente
normais.
Depois que o país abriu suas fronteiras, várias ONGs analisaram

essa catástrofe. Daí nasceu um projeto de pesquisa muito especial,
o Projeto de Intervenção Precoce de Bucareste.51 Com o acordo da
Secretaria de Estado romeno para o bem-estar infantil, o pesquisador
de Harvard Charles Nelson decidiu estudar com rigor científico as
consequências de ter vivido em um orfanato, e a possibilidade de
salvar essas crianças colocando-as em famílias de acolhimento. Como
não havia programa de colocação adequado na Romênia,
ele montou seu próprio sistema de recrutamento e conseguiu encontrar

56 famílias voluntárias que estavam dispostas a adotar 1 ou 2 órfãos cada.
No entanto, esta foi uma mera gota de água nos oceanos escuros
dos orfanatos romenos: apenas 68 crianças puderam sair.
A publicação de Nelson's Science descreve em detalhes o dramático
momento dickensiano quando 136 crianças foram reunidas e
numeradas de 1 a 136, e então esses números foram sorteados
aleatoriamente de um grande chapéu, determinando quem permaneceria
em um orfanato e quem finalmente encontraria uma casa de família . Este
procedimento pode parecer chocante, mas o que mais poderia ter sido
feito? Como os recursos humanos eram limitados, um sorteio aleatório era
provavelmente a solução mais justa. Além disso, a equipe continuou a
arrecadar fundos para tirar cada vez mais crianças de sua miséria, bem
como aconselhar o novo governo romeno sobre como lidar com crianças
institucionalizadas, e um segundo artigo da Science descobriu que o estudo
inicial atendeu aos requisitos éticos critérios para pesquisa científica. 52
O sorteio aleatório, no entanto, permitiu que uma pergunta rigorosa

fosse feita: Todas as outras coisas sendo iguais, a colocação precoce em
uma família adotiva colocou essas crianças de volta em pé? A resposta foi
positiva, mas altamente dependente da idade: apenas as crianças que foram
colocadas em um lar antes dos vinte meses de idade acabaram muito melhor
do que aquelas que permaneceram no orfanato.
Dezenas de estudos anteriores documentaram os efeitos
dramáticos do isolamento emocional e social no desenvolvimento do cérebro,
e o estudo de Bucareste não foi exceção: em comparação com crianças
nascidas em uma família típica, todos os órfãos apresentavam déficits graves
na função cognitiva. Mesmo aspectos fundamentais do funcionamento do
cérebro, como o metabolismo da glicose e o volume total de massa cinzenta,
eram deficientes. Após o acolhimento familiar, no entanto, algumas dessas
medidas aumentaram acentuadamente. Seis anos depois, aos oito anos de
idade, as crianças que haviam sido colocadas em um lar antes dos vinte
meses de idade progrediram significativamente em relação ao grupo de
controle, a tal ponto que já não diferiam das crianças criadas em suas famílias
de nascimento. Várias medidas foram normalizadas, incluindo a força das
ondas alfa de seus cérebros, que é um marcador de atenção e vigilância. As
habilidades sociais e o vocabulário também foram significativamente
melhorados.
Esse progresso dramático não deve obscurecer o fato de que essas

crianças continuaram a ficar para trás em outras medidas, incluindo uma
falta persistente e provavelmente permanente de massa cinzenta. Mais
importante, as crianças que foram adotadas após vinte meses
apresentaram deficiências graves em todos os domínios. Assim, nenhum
apoio familiar pode substituir totalmente vinte meses de amor perdido (e
simples nutrição), e essas crianças sempre carregarão, em seus cérebros,
as cicatrizes da grave privação que sofreram. Mas os órfãos de Bucareste,
como os adotados da Coréia, devem nos lembrar que nunca devemos
perder a esperança. A plasticidade cerebral é certamente mais forte nos
jovens, mas permanece presente em qualquer idade. O trauma precoce
pode ter um impacto severo, mas a resiliência dos circuitos neurais é
igualmente notável. Desde que sejam tratadas o mais cedo possível, muitas
lesões cerebrais estão longe de ser irreversíveis.
CAPÍTULO 6
Recicle seu cérebro
Vamos resumir o que cobrimos até agora. A suposição da lousa em

branco está claramente errada: os bebês nascem com um conhecimento
básico considerável, um rico conjunto de suposições universais sobre o
ambiente que encontrarão mais tarde. Seus circuitos cerebrais são bem
organizados no nascimento e lhes dão fortes intuições em todos os tipos de
domínios: objetos, pessoas, tempo, espaço, números. . . . Suas habilidades
estatísticas são notáveis - eles já atuam como cientistas iniciantes e suas
sofisticadas habilidades de aprendizado permitem que eles convirjam
progressivamente para os modelos mais apropriados do mundo.
Ao nascimento, todos os grandes feixes de fibras do cérebro já estão

Lugar, colocar. A plasticidade cerebral pode, no entanto, reorganizar
suas conexões terminais. Milhões de sinapses sofrem mudanças
plásticas cada vez que adquirimos novos conhecimentos. Enriquecer os
ambientes das crianças, por exemplo, enviando-as para a escola, pode
melhorar profundamente seus cérebros e aumentá-los com habilidades
que eles manterão por toda a vida. Essa plasticidade não é irrestrita, no
entanto. Ele é restrito no espaço (da ordem de alguns milímetros), bem
como no tempo – muitos circuitos começam a se fechar após alguns meses
ou anos.
Neste capítulo, examino o papel que a educação formal desempenha
no desenvolvimento inicial do cérebro. A educação, de fato, levanta um
paradoxo: por que o Homo sapiens pode pegar giz ou teclado e começar a
escrever ou fazer cálculos? Como a espécie humana poderia expandir suas
capacidades em novas direções que antes não desempenhavam nenhum
papel em sua evolução genética? Que o primata humano consiga aprender
a ler ou calcular nunca deve deixar de nos surpreender. Como Vladimir
Nabokov (1899-1977) colocou tão bem: “Estamos absurdamente
acostumados ao milagre de alguns sinais escritos serem capazes

de conter imagens imortais, involuções de pensamento, novos mundos
com pessoas vivas, falando, chorando, rindo. E se acordarmos um dia,
todos nós, e nos encontrarmos totalmente incapazes de ler?”1
Estudei longamente a mente e o cérebro de adultos
analfabetos, seja em Portugal, no Brasil ou na Amazônia – pessoas
que nunca tiveram a chance de ir à escola, simplesmente porque
suas famílias não podiam pagar ou porque não havia escolas.
próximo. Suas habilidades são, de certa forma, profundamente
diferentes:2 não só são incapazes de reconhecer letras, mas também
têm dificuldade em reconhecer formas e distinguir imagens espelhadas,3
prestar atenção a uma parte de um rosto4 e memorizar e distinguir
palavras faladas .5 Tanto para Platão, que ingenuamente acreditava
que aprender a ler arruinaria nossa memória interna, forçando-nos a
confiar na memória externa dos livros. Nada poderia estar mais longe
da verdade. O mito do bardo analfabeto que reúne sem esforço imensos
poderes de memória é apenas isso: um mito. Todos nós precisamos
exercitar nossa memória — e ela fica melhor, não pior, por ter ido à
escola e aprendido a ler.
O impacto da educação é ainda mais marcante na matemática.6
Descobrimos isso estudando os muitos índios da Amazônia que
nunca tiveram a chance de ir à escola. Em primeiro lugar, muitos deles
não sabem contar com precisão uma coleção de itens. Muitos de seus
idiomas nem sequer incluem um sistema de contagem – eles têm apenas
um punhado de palavras para “poucos” versus “muitos” (como o Pirahã),
ou apenas palavras difusas para os números de um a cinco (como o
Munduruku), e se eles aprendem a contar, por exemplo, usando palavras
numéricas em espanhol ou português, é com um atraso enorme (como o
Tsimane) em comparação com as crianças ocidentais . formas
geométricas, entender a organização do espaço, pode navegar em linha
reta, perceber as diferenças entre quantidades como trinta e cinquenta, e
saber que os números podem ser ordenados da esquerda para a direita.
Herdamos essas habilidades de nossa evolução e as compartilhamos
com outros animais tão diversos quanto corvos, macacos e filhotes recém-
nascidos. No entanto, a educação aumenta muito essas habilidades
iniciais. Por exemplo, índios amazônicos sem instrução parecem não
entender que existe o mesmo
intervalo de +1 entre quaisquer dois números consecutivos. A educação

derruba massivamente nosso senso de reta numérica: à medida que
aprendemos a contar e a realizar aritmética exata, descobrimos que todo
número n tem um sucessor n + 1. Eventualmente, entendemos que todos os
números consecutivos são equidistantes e formam uma escala linear—
enquanto crianças muito pequenas e adultos não escolarizados consideram
essa linha comprimida, uma vez que números grandes parecem estar mais
próximos uns dos outros do que os pequenos . de doze. Devemos a precisão
refinada de nosso senso numérico à educação – e sobre esse fundamento
simbólico repousa todo o campo da matemática.
A HIPÓTESE DA RECICLAGEM NEURONAL
Como a educação revoluciona nossas habilidades mentais, transformando-nos

em leitores primatas de Nabokov, Steinbeck, Einstein ou Grothendieck? Como
vimos, tudo o que aprendemos passa pela modificação de circuitos cerebrais
pré-estabelecidos, que são amplamente organizados no nascimento, mas
permanecem capazes de mudar na escala de alguns milímetros. Assim, toda a
diversidade da cultura humana deve se enquadrar nas restrições impostas por
nossa natureza neuronal.
Para resolver esse paradoxo, formulei a hipótese da reciclagem
neuronal.9 A ideia é simples: enquanto a plasticidade sináptica torna o cérebro
maleável – especialmente em humanos, onde a infância dura quinze ou vinte
anos – nossos circuitos cerebrais permanecem sujeitos a fortes restrições
anatômicas, herdado da nossa evolução.
Portanto, cada novo objeto cultural que inventamos, como o alfabeto ou os
algarismos arábicos, deve encontrar seu “nicho neuronal” no cérebro: um
conjunto de circuitos cuja função inicial é suficientemente semelhante ao seu
novo papel cultural, mas também flexível o suficiente para ser convertidos para
este novo uso. Qualquer aprendizado cultural deve depender do reaproveitamento
de uma arquitetura neural preexistente, cujas propriedades ela recicla.
A educação deve, portanto, enquadrar-se nos limites inerentes aos
nossos circuitos neurais, aproveitando sua diversidade, bem como o longo
período de plasticidade neural que é característico de nossa espécie.
De acordo com essa hipótese, educar-se é reciclar os circuitos cerebrais

existentes. Ao longo dos milênios, aprendemos a fazer algo novo a partir de algo
antigo. Tudo o que aprendemos na escola reorienta um circuito neural preexistente
em uma nova direção. Para ler ou calcular, as crianças reaproveitam circuitos
existentes que originalmente evoluíram para outro uso, mas que, por sua
plasticidade, conseguem se adaptar a uma nova função cultural.
Por que eu cunho esse termo estranho, “reciclagem neuronal”?

Porque a palavra francesa correspondente, recyclage, combina
perfeitamente duas ideias que caracterizam o que acontece em nosso cérebro –
um reaproveitamento de algum material com propriedades únicas, e também
uma reorientação para uma nova carreira:
Reciclar um material significa dar-lhe uma segunda vida,

reintroduzindo-o num novo ciclo de produção. Essa reutilização de
materiais, no entanto, é limitada: não se pode construir um carro com
papel reciclado! Cada material possui qualidades intrínsecas que o
tornam mais ou menos adequado para outros usos. Da mesma forma,
cada região do córtex — em virtude de suas propriedades moleculares,
circuitos locais e conexões de longo alcance — possui suas próprias
características desde o nascimento. A aprendizagem deve estar em
conformidade com essas restrições materiais.
Em francês, o termo reciclagem também se aplica a uma pessoa que
está se preparando para um novo emprego: significa receber treinamento
adicional para se adaptar a uma mudança inesperada na carreira.
Isso é exatamente o que acontece com nosso córtex quando aprendemos
a ler ou a fazer contas. A educação concede ao nosso córtex novas
funções que vão além das habilidades normais do cérebro dos primatas.
Com a reciclagem neuronal, eu queria distinguir o rápido aprendizado

de uma nova habilidade cultural de muitas outras situações em que a
biologia, no curso de um lento processo evolutivo, faz algo novo com algo velho.
De fato, no processo darwiniano de evolução por seleção natural, o
reaproveitamento de materiais mais antigos é comum. A recombinação genética
pode enfeitar órgãos antigos e transformá-los em máquinas elegantes e
inovadoras. Penas de pássaros? Antigos reguladores térmicos convertidos em
flaps aerodinâmicos.
Pernas de répteis e mamíferos? Barbatanas antediluvianas. A evolução é

um grande remendo, diz o biólogo francês François Jacob (1920-2013): em
sua oficina, os pulmões se convertem em órgãos flutuantes, um velho
pedaço da mandíbula reptiliana se torna o ouvido interno e até o escárnio do
faminto carnívoros se transforma no sorriso delicado de Mona Lisa.
O cérebro não é exceção. Os circuitos de linguagem, por exemplo, podem

surgiram durante a hominização por meio da duplicação e redirecionamento
de circuitos corticais previamente estabelecidos.10 Mas essas modificações
genéticas lentas não se enquadram na minha definição de reciclagem
neuronal. O termo apropriado é “exaptação”, um neologismo cunhado pelo
evolucionista de Harvard Stephen Jay Gould (1941-2002) e pela paleontóloga
de Yale Elisabeth Vrba e baseado na palavra “adaptação”. Um mecanismo
antigo é exausto quando adquire um uso diferente no curso da evolução
darwiniana. (Um simples mnemônico pode ajudar: a exaptação torna seu ex
apto para uma nova tarefa!) Porque se baseia na disseminação de genes por
uma população; no nível das espécies, a exaptação atua ao longo de dezenas
de milhares de anos. A reciclagem neuronal, por outro lado, ocorre dentro de
um cérebro individual e em um período de tempo muito mais curto, de dias a
anos. Reciclar um circuito cerebral significa reorientar sua função sem
modificação genética, apenas por meio do aprendizado e da educação.
Minha intenção ao formular a hipótese da reciclagem neuronal foi

explicar o talento particular de nossa espécie para ir além de seu nicho
ecológico habitual. Os seres humanos, de fato, são únicos em sua capacidade
de adquirir novas habilidades, como ler, escrever, contar, fazer contas, cantar,
vestir-se, andar a cavalo e dirigir um carro. Nossa plasticidade cerebral
estendida, combinada com novos algoritmos de aprendizado simbólico, nos
deu uma notável capacidade de adaptação – e nossas sociedades descobriram
meios de ampliar ainda mais nossas habilidades sujeitando as crianças, dia
após dia, ao poderoso regime escolar.
Enfatizar a singularidade da espécie humana não é negar, é claro,

que a reciclagem neuronal, em menor escala, também existe em outros
animais. Tecnologias recentes tornaram possível registrar a atividade das
mesmas centenas de neurônios por várias semanas, enquanto os macacos
adquirem uma nova habilidade - e, assim, colocar o
reciclagem vista para um teste forte. Esses experimentos foram capazes

de abordar uma previsão simples, mas profunda da teoria: o aprendizado
pode mudar radicalmente o código neural em um determinado circuito
cerebral ou, como a visão da reciclagem preveria, o aprendizado apenas
redireciona o circuito?
Em um experimento recente, usando uma interface cérebro-
computador, os pesquisadores pediram a um macaco que aprendesse a
controlar seu próprio cérebro. Eles ensinaram ao animal que para fazer um
cursor ir para a direita, ele tinha que ativar dez neurônios específicos; e para
fazer o cursor subir, ele deve ativar outras dez células; e assim por diante.11
Notavelmente, esse procedimento funcionou: em poucas semanas, o animal
aprendeu a dobrar a atividade de dez neurônios escolhidos arbitrariamente para
fazer o cursor se mover à vontade. No entanto - e esta é a chave - o macaco era
capaz de fazer o cursor se mover apenas se a atividade neuronal que foi
solicitada a produzir não se desviasse muito do que seu córtex já estava
produzindo espontaneamente antes do treinamento. Em outras palavras, o que
o macaco foi solicitado a aprender tinha que se encaixar no repertório do circuito
neuronal que foi solicitado a retreinar.
Para apreciar o que os pesquisadores mostraram, é importante
perceber que a dinâmica dos circuitos cerebrais é restrita. O cérebro não
explora todas as configurações de atividade que pode acessar. Em teoria, em
um grupo de cem neurônios, a atividade poderia abranger um espaço de cem
dimensões, produzindo um número insondável de estados (se considerarmos
que cada neurônio pode estar ligado ou desligado, esse número excede 2.100,
ou mais de um bilhão de bilhões de bilhões) . bilhão). No entanto, na realidade,
a atividade cerebral visita apenas uma fração desse universo gigantesco,
normalmente restrito a cerca de dez dimensões. Com essa ideia em mente, a
restrição à aprendizagem pode ser formulada de forma sucinta: um macaco
pode aprender uma nova tarefa apenas se o que pedirmos ao seu córtex
“encaixe” nesse espaço preexistente. Se, por outro lado, pedirmos ao macaco
para ativar uma combinação de neurônios que nunca foi observada em atividade
anterior, ele falha dramaticamente.
Observe que o próprio comportamento aprendido pode ser radicalmente

novo — quem poderia prever que um primata um dia controlaria um cursor
em uma tela de computador? No entanto, os estados neuronais que tornam
esse comportamento possível devem se encaixar no espaço dos padrões de
atividade cortical disponíveis. Este resultado valida diretamente uma chave
previsão da hipótese da reciclagem neuronal – a aquisição de uma nova habilidade

não requer uma reescrita radical dos circuitos corticais como se fossem uma lousa
em branco, mas apenas um redirecionamento de sua organização existente.
Está ficando cada vez mais claro que cada região do cérebro impõe seu
próprio conjunto de restrições ao aprendizado. Em uma região do córtex parietal,
a atividade neural é geralmente confinada a uma única dimensão, uma linha reta
no espaço de alta dimensão.12 Esses neurônios parietais codificam todos os
dados recebidos em um eixo que varia de pequeno a grande – portanto, são ideais
para codificar quantidades e seus tamanhos relativos. Sua dinâmica neural pode
parecer extraordinariamente limitada, mas o que parece ser uma desvantagem
pode, na verdade, ser uma vantagem quando se trata de representar quantidades,
como tamanho, número, área ou qualquer outro parâmetro que possa ser ordenado
de pequeno a grande. Em certo sentido, essa parte do córtex pode ser pré-
programada para codificar quantidades – na verdade, é sistematicamente recrutada
assim que manipulamos quantidades ao longo de um eixo linear, de números a
status social (quem está “acima” de quem no Para outro exemplo, considere o
córtex entorrinal , uma região do córtex temporal que contém as famosas células
da grade que mapeiam o espaço (que descrevi no Capítulo 4). Nesta região, o
código neural é bidimensional: mesmo que existam milhões de neurônios
nesta parte do cérebro, sua atividade não pode deixar de permanecer confinada a
um plano, ou, tecnicamente, uma variedade bidimensional em alta dimensão.
espaço.14 Novamente, essa propriedade, longe de ser uma desvantagem,
obviamente é perfeitamente adequada para formar um mapa do ambiente, visto de
cima - e, de fato, sabemos que essa região hospeda o GPS mental pelo qual um
rato se localiza no espaço. Notavelmente, trabalhos recentes mostraram que essa
mesma região também se ilumina assim que aprendemos a representar quaisquer
dados em um mapa bidimensional, mesmo que esses dados não sejam diretamente
espaciais.15 Em um experimento, por exemplo, pássaros poderiam variam em
duas dimensões: o comprimento do pescoço e o comprimento das pernas.
Uma vez que os participantes humanos aprenderam a representar esse “espaço

de pássaro” incomum, eles usaram seu córtex entorrinal, juntamente com algumas
outras áreas, para navegar mentalmente.
E a lista poderia continuar: o córtex visual ventral se destaca

na representação de linhas e formas visuais, os códigos de área de
Broca para árvores sintáticas,16 e assim por diante. Cada região tem a
sua dinâmica preferida à qual se mantém fiel. Cada um projeta seu próprio
espaço de hipóteses no mundo: um tenta encaixar os dados recebidos em
uma linha reta, outro tenta exibi-los em um mapa, um terceiro em uma
árvore. . . . Esses espaços de hipóteses antecedem a aprendizagem e, de
certa forma, a tornam possível. Podemos, é claro, aprender novos fatos, mas
eles precisam encontrar seu nicho neuronal, um espaço de representação
adaptado à sua organização natural.
Vejamos agora como esta ideia se aplica às áreas mais fundamentais
da aprendizagem escolar: aritmética e leitura.
A MATEMÁTICA RECICLA OS CIRCUITOS PARA UM NÚMERO APROXIMADO
Tomemos primeiro o exemplo da matemática. Como expliquei em meu

livro The Number Sense, 17 agora há evidências consideráveis para
mostrar que a educação matemática (como tantos outros aspectos da
aprendizagem) não fica impressa no cérebro como um selo em cera derretida.
Pelo contrário, a matemática se molda em uma representação preexistente
e inata de quantidades numéricas, que depois amplia e refina.
Tanto em humanos quanto em macacos, os lobos parietal e pré-frontal

contêm um circuito neural que representa números de maneira aproximada.
Antes de qualquer educação formal, esse circuito já inclui neurônios
sensíveis ao número aproximado de objetos em um conjunto concreto.18 O
que a aprendizagem faz? Em animais treinados para comparar quantidades,
a quantidade de neurônios detectores de números cresce no lobo frontal .
esses neurônios tornam-se seletivos a tais dígitos.20 Essa transformação
(parcial) de um circuito para incorporar a invenção cultural dos símbolos
numéricos é um ótimo exemplo de reciclagem neuronal.
Nos humanos, quando aprendemos a realizar aritmética

básica (adição e subtração), continuamos a reciclar essa região, mas
também os circuitos próximos do lobo parietal posterior. Essa região é
usada para mudar nosso olhar e nossa atenção - e parece que
reutilize essas habilidades para se mover no espaço numérico: adicionar

ativa os mesmos circuitos que movem sua atenção para a direita, na direção de
números maiores, enquanto subtrair excita circuitos que deslocam sua atenção
para a esquerda.21 Todos nós possuímos uma espécie de linha numérica em
nossas cabeças, um mapa mental do eixo numérico no qual aprendemos a nos
mover com precisão quando realizamos cálculos.
Recentemente, minha equipe de pesquisa forneceu um teste mais rigoroso
da hipótese de reciclagem. Com Marie Amalric, uma jovem
matemática que se tornou cientista cognitiva, nos perguntamos se os
mesmos circuitos do lobo parietal continuam a ser usados para representar
os conceitos mais abstratos da matemática.22 Recrutamos quinze
matemáticos profissionais e escaneamos seus cérebros com ressonância
magnética funcional enquanto apresentávamos -los com expressões matemáticas
abstrusas que só eles poderiam entender, incluindo fórmulas como ÿs ÿ × F •
dS e declarações como "Qualquer matriz quadrada é equivalente a uma matriz
de permutação." Como previmos, esses objetos matemáticos de alto nível
ativaram a mesma rede cerebral que é ativada quando um bebê vê um, dois ou
três objetos23 ou quando uma criança aprende a contar (veja a figura 12 na
inserção colorida).24 Todos os objetos matemáticos, dos topoi de Grothendieck
às variedades complexas, ou espaços funcionais, encontram suas raízes últimas
na recombinação de circuitos neurais elementares presentes durante a infância.
Todos nós, em qualquer estágio da construção cultural da matemática, desde
alunos do ensino fundamental até vencedores da Medalha Fields, continuamente
refinamos o código neural desse circuito cerebral específico.
E a organização desse circuito está sob fortes restrições hereditárias,

aquelas do dom genético universal que nos torna humanos. Embora o
aprendizado permita acomodar muitos conceitos novos, sua arquitetura geral
permanece a mesma em todos nós, independentemente da experiência. Meus
colegas e eu obtivemos forte apoio para essa afirmação quando estudamos a
organização cerebral de matemáticos cuja experiência sensorial, desde a
infância, tem sido radicalmente diferente: matemáticos cegos.25 Por mais
surpreendente que isso possa parecer, não é incomum que uma pessoa cega
se torne um excelente matemático. Talvez o matemático cego mais conhecido
seja Nicholas Saunderson (1682-1739), que se tornou
cego por volta dos oito anos de idade e era tão brilhante que acabou ocupando a
cadeira de Isaac Newton na Universidade de Cambridge.
Saunderson não está mais disponível para uma varredura cerebral, mas Marie
Amalric e eu conseguimos entrar em contato com três matemáticos cegos
contemporâneos, todos eles ocupando cargos universitários na França.
Um deles, Emmanuel Giroux, é um verdadeiro gigante da matemática e atualmente
dirige um laboratório de sessenta pessoas na École normale supérieure de Lyon. Cego
desde os onze anos, ele é mais conhecido por sua bela prova de um importante
teorema da geometria de contato.
A própria existência de matemáticos cegos refuta a visão empirista de

Alan Turing do cérebro como um “caderno” com “muitas folhas em branco” que a
experiência sensorial preenche progressivamente.
De fato, como os cegos poderiam inferir, de uma experiência tão distinta e
restrita, as mesmas noções abstratas que os matemáticos videntes se não
possuíssem já os circuitos capazes de gerá-las? Como diz Emmanuel Giroux,
parafraseando O Pequeno Príncipe: “Na geometria, o essencial é invisível aos olhos.
É somente com a mente que você pode ver bem.” Em matemática, as experiências
sensoriais não importam muito; são as idéias e conceitos que fazem o trabalho
pesado.
Se a experiência determinasse a organização do córtex, então nossos
matemáticos cegos, que aprenderam sobre o mundo pelo tato e pela audição, ativariam,
quando fazem matemática, áreas cerebrais muito diferentes daquelas dos videntes. A
hipótese da reciclagem neuronal, ao contrário, prevê que os circuitos neurais da
matemática devem ser fixos – apenas um conjunto específico de áreas cerebrais,
presentes no nascimento, deve ser capaz de se adaptar para hospedar tais ideias. E
isso é exatamente o que encontramos quando examinamos nossos três professores
cegos. Como esperávamos, quando eles visualizaram uma afirmação matemática e
avaliaram seu valor de verdade, eles recrutaram as mesmas vias do lobo parietal e
frontal que um matemático com visão (veja a figura 13 na inserção colorida). As
experiências sensoriais eram irrelevantes: somente este circuito poderia acomodar
representações matemáticas.
A única diferença é que, quando nossos três matemáticos

cegos pensaram em seu campo favorito, eles também recrutaram uma
região adicional do cérebro: seu córtex visual inicial,
no pólo occipital, a região do cérebro que, em qualquer pessoa

com visão, processa as imagens que incidem na retina! Na
verdade, este é um resultado que Cédric Villani, outro brilhante
matemático e vencedor da Medalha Fields, previu intuitivamente.
Quando discutimos esse experimento antes de executá-lo, ele me
disse brincando: “Sabe, Emmanuel Giroux é um grande matemático,
mas também é muito afortunado: por ser cego, pode dedicar ainda
mais córtex à matemática!”
Villani estava certo. Em pessoas com visão normal, a região
occipital está muito ocupada com a visão precoce para realizar
qualquer outra função, como matemática. No cego, porém, ele se
liberta desse papel visual e, em vez de permanecer inativo, transforma-
se para realizar tarefas mais abstratas, incluindo cálculo mental e
matemática.26 E em pessoas que nascem cegas, essa reorganização
parece ser ainda mais mais extremo: o córtex visual exibe respostas
totalmente inesperadas, não apenas para números e matemática,
mas também para a gramática da linguagem falada, semelhante à
área de Broca. debate teórico: Essa reorganização total do córtex
representa um caso genuíno de reciclagem neuronal, ou é
apenas uma prova extrema de plasticidade cerebral ? que a
organização preexistente dessa região não seja apagada, como seria
se a plasticidade cerebral atuasse como uma esponja capaz de
limpar o quadro-negro do córtex visual. De fato, o córtex visual dos
cegos parece manter em grande parte sua conectividade normal e
mapas neurais29 enquanto os reutiliza para outras funções cognitivas.
De fato, como essa parte do córtex é muito grande, encontramos
regiões “visuais” no cérebro de pessoas cegas que respondem não
apenas à matemática e à linguagem, mas também a letras e números
(apresentados em Braille), objetos, lugares, e animais.30 O mais
notável, apesar de diferenças tão radicais na experiência sensorial, é
que essas áreas seletivas de categoria tendem a se localizar no
mesmo lugar no córtex de indivíduos cegos e videntes. Por exemplo,
a região do cérebro que responde às palavras escritas está localizada
exatamente no mesmo lugar em uma pessoa cega e em um leitor
vidente – a única diferença é
que responde ao Braille e não às letras impressas. Mais uma vez, a

função dessa região parece ser amplamente determinada por suas conexões
geneticamente controladas com as áreas da linguagem, além, talvez, de
outras propriedades inatas, e, portanto, não muda quando as entradas
sensoriais mudam.31 Os cegos consideram as mesmas categorias . , ideias
e conceitos como pessoas com visão - usando regiões cerebrais muito
semelhantes.
A visão de reciclagem neuronal da matemática não é apoiada apenas
pelo fato de que os conceitos mais elementares (1 + 1 = 2) e as ideias
matemáticas mais avançadas (eÿiÿ + 1 = 0) fazem uso das mesmas regiões
do cérebro. Outras descobertas, de natureza puramente psicológica, indicam
que a matemática que aprendemos na escola se baseia na reciclagem de
antigos circuitos dedicados a quantidades aproximadas.
Pense no número cinco. Neste momento, seu cérebro está se reativando
uma representação de uma quantidade aproximada perto de quatro e seis
e longe de um e nove – você está ativando neurônios numéricos muito
semelhantes aos encontrados em outros primatas, com uma curva de ajuste
que atinge o pico em torno de cinco, mas também com pesos nas
quantidades próximas quatro e seis. A curva de ajuste difusa desses
neurônios é a principal razão pela qual é difícil, à primeira vista, saber se um
conjunto de objetos contém exatamente quatro, cinco ou seis itens. Agora,
por favor, decida se cinco é maior ou menor que seis. Parece instantâneo -
você obtém a resposta correta (menor) em um instante - e, no entanto, os
experimentos realmente mostram que sua resposta é influenciada pelas
quantidades aproximadas: você é muito mais lento quando os números estão
próximos, como cinco e seis, do que quando eles estão mais distantes, como
cinco e nove, e você também comete mais erros. Esse efeito de distância32
é uma das assinaturas de uma antiga representação de números que você
reciclou quando aprendeu a contar e calcular. Não importa o quanto você
tente se concentrar nos próprios símbolos, seu cérebro não pode deixar de
ativar as representações neurais dessas duas quantidades, que se sobrepõem
mais quanto mais próximas estiverem. Embora você esteja tentando pensar
em “exatamente cinco”, usando todo o conhecimento simbólico que adquiriu
na escola, seu comportamento trai o fato de que esse conhecimento recicla
uma representação evolutivamente mais antiga de quantidade aproximada.
Mesmo quando você simplesmente tem que decidir se dois números como
oito e nove são iguais ou diferentes, o que deve ser imediato, você continua
sendo
influenciados pela distância entre eles - e, curiosamente, exatamente a

mesma descoberta se aplica a macacos que aprenderam a reconhecer os
símbolos de algarismos arábicos.33 Quando subtraímos dois números,
digamos, 9 - 6, o tempo que levamos é diretamente proporcional ao
tamanho do número subtraído34 — então leva mais tempo para executar 9 ÿ
6 do que, digamos, 9 ÿ 4 ou 9 ÿ 2.
Tudo acontece como se tivéssemos que nos mover mentalmente ao
longo da reta numérica, partindo do primeiro número e dando tantos
passos quanto o segundo número: quanto mais avançamos, mais
demoramos. Não processamos símbolos como um computador digital; em vez
disso, usamos uma metáfora espacial lenta e serial, movimento ao longo da
linha numérica. Da mesma forma, quando pensamos em um preço, não
podemos deixar de atribuir a ele um valor mais impreciso quando o número
aumenta – um resquício de nosso senso numérico baseado em primatas, cuja
precisão diminui com o tamanho do número.35 É por isso que, contra toda a
racionalidade , quando negociamos, estamos dispostos a abrir mão de alguns
milhares de dólares no preço de um apartamento e, no mesmo dia, barganhar
alguns quartos no preço do pão: o nível de imprecisão que toleramos é
proporcional ao valor de um número , para nós como para os macacos.
E a lista continua: paridade, números negativos, frações. . . todos esses

conceitos são comprovadamente fundamentados na representação de
quantidades que herdamos da evolução.36 Ao contrário de um computador
digital, somos incapazes de manipular símbolos em abstrato: sempre os
trituramos em quantidades concretas e muitas vezes aproximadas.
A persistência de tais efeitos analógicos em um cérebro educado trai as raízes
antigas de nosso conceito de números.
Os números aproximados são um dos antigos pilares sobre os quais
se baseia a construção da matemática. No entanto, a educação também
leva a um enriquecimento considerável desse conceito original de número.
Quando aprendemos a contar e calcular, os símbolos matemáticos que
adquirimos nos permitem realizar cálculos precisos. Isso é uma revolução: por
milhões de anos, a evolução se contentou com quantidades difusas. A
aprendizagem de símbolos é um poderoso fator de mudança: com a educação,
todos os nossos circuitos cerebrais são reaproveitados para permitir a
manipulação de números exatos.
O senso numérico certamente não é o único fundamento da
matemática. Como vimos anteriormente, também herdamos de nossa evolução
uma sensação de espaço, com seus próprios circuitos neurais especializados

contendo células de lugar, grade e direção da cabeça. Também temos um senso de
forma, que permite a qualquer criança distinguir retângulos, quadrados e triângulos.
De uma forma ainda não totalmente compreendida, sob a influência de símbolos
como palavras e números, todos esses conceitos são reciclados quando aprendemos
matemática. O cérebro humano consegue recombiná-los, em uma linguagem de
pensamento, a fim de formar novos conceitos.37 Os blocos de construção básicos
que herdamos de nossa história evolutiva tornam-se os primitivos fundamentais de
uma linguagem nova e produtiva na qual os matemáticos escrevem novas páginas
a cada dia.
A LEITURA RECICLA OS CIRCUITOS DA VISÃO E DA LINGUAGEM FALADA
Que tal aprender a ler? A leitura é mais um exemplo de reciclagem neuronal:

para ler, reutilizamos um vasto conjunto de áreas cerebrais que são inicialmente
dedicadas à visão e à linguagem falada. Em meu livro Reading in the Brain, 38
descrevo, em detalhes, os circuitos da alfabetização.
Quando aprendemos a ler, um subconjunto de nossas regiões visuais se
especializa em reconhecer sequências de letras e as envia para áreas de
linguagem falada. Como resultado, em qualquer bom leitor, as palavras escritas
acabam sendo processadas exatamente como palavras faladas: a alfabetização
cria uma nova porta de entrada visual para nossos circuitos de linguagem.
Muito antes de as crianças aprenderem a ler, elas obviamente possuem
um sistema visual sofisticado que lhes permite reconhecer e nomear objetos,
animais e pessoas. Eles podem reconhecer qualquer imagem, independentemente
de seu tamanho, posição ou orientação no espaço 3D, e sabem como associar um
nome a ela. A leitura recicla parte desse circuito de nomenclatura de imagem
preexistente. A aquisição da alfabetização envolve o surgimento de uma região do
córtex visual que meu colega Laurent Cohen e eu apelidamos de “área visual da
forma da palavra”. Essa região concentra nosso conhecimento aprendido sobre
sequências de letras, a tal ponto que pode ser considerada a “caixa de letras” do
nosso cérebro. É essa área do cérebro, por exemplo, que nos permite reconhecer
uma palavra independentemente de seu tamanho, posição , fonte ou cAsE, seja
MAIÚSCULA ou minúscula.39 Em qualquer pessoa alfabetizada,

localizada
essano
região,
mesmo
ponto da todos nós (mais ou menos alguns milímetros), cumpre um papel duplo:
primeiro identifica uma série de
caracteres aprendidos e, então, por meio de suas conexões diretas com

áreas de linguagem,40 permite que esses caracteres sejam rapidamente
traduzidos em som e significado.
O que aconteceria se escaneássemos uma criança ou um adulto
analfabeto à medida que ela aprendesse progressivamente a ler? Se a teoria
estiver correta, então devemos literalmente ver seu córtex visual se
reorganizar. A teoria da reciclagem neuronal prevê que a leitura deve invadir
uma área do córtex normalmente dedicada a uma função semelhante e
redirecioná-la para essa nova tarefa. No caso da leitura, esperamos uma
competição com a função preexistente do córtex visual, que é reconhecer
todos os tipos de objetos, corpos, rostos, plantas e lugares. Será que perdemos
algumas das funções visuais que herdamos de nossa evolução à medida que
aprendemos a ler? Ou, pelo menos, essas funções são massivamente
reorganizadas?
Essa previsão contraintuitiva é precisamente o que meus colegas e eu
testamos em uma série de experimentos. Para traçar um mapa completo das
regiões do cérebro que são alteradas pela alfabetização, escaneamos adultos
analfabetos em Portugal e no Brasil, e os comparamos com pessoas das
mesmas aldeias que tiveram a sorte de aprender a ler na escola, seja na
infância ou adultos.41 Sem surpresa, talvez, os resultados revelaram que,
com a aquisição da leitura, um extenso mapa de áreas tornou-se responsivo
às palavras escritas (veja a figura 14 no encarte colorido). Mostre uma frase,
palavra por palavra, para um indivíduo analfabeto, e você descobrirá que seu
cérebro não responde muito: a atividade se espalha para as áreas visuais
iniciais, mas para por aí, porque as letras não podem ser reconhecidas.
Apresente a mesma sequência de palavras escritas a um adulto que aprendeu
a ler, e um circuito cortical muito mais extenso agora se acende, em proporção
direta à pontuação de leitura da pessoa. As áreas ativadas incluem a área da
caixa de correio, no córtex occipitotemporal esquerdo, bem como todas as
regiões clássicas da linguagem associadas à compreensão da linguagem.
Mesmo as primeiras áreas visuais aumentam sua resposta: com a aquisição
da leitura, elas parecem se sintonizar com o reconhecimento de letras
pequenas.42 Quanto mais fluente uma pessoa é, mais essas regiões são
ativadas por palavras escritas e mais elas fortalecem seus vínculos. : à medida
que a leitura se torna cada vez mais automática, a tradução de letras em sons
se acelera.
Mas também podemos fazer a pergunta oposta: existem regiões

que são mais ativos entre os maus leitores e cuja atividade diminui
à medida que se aprende a ler? A resposta é positiva: em
analfabetos, as respostas do cérebro aos rostos são mais intensas.
Quanto melhor lemos, mais essa atividade diminui no hemisfério
esquerdo, no local exato do córtex onde as palavras escritas encontram
seu nicho — a área da caixa de correio do cérebro. É como se o cérebro
precisasse abrir espaço para as letras no córtex, então a aquisição da
leitura interfere na função anterior dessa região, que é o reconhecimento
de rostos e objetos. Mas, é claro, como não esquecemos como reconhecer
rostos quando aprendemos a ler, essa função não é apenas expulsa do córtex.
Em vez disso, também observamos que, com a alfabetização, a resposta aos
rostos aumenta no hemisfério direito. Expulsos do hemisfério esquerdo, que é
a sede da linguagem e da leitura para a maioria de nós, os rostos se refugiam
do outro lado.43 Fizemos essa observação pela primeira vez em adultos
alfabetizados e analfabetos, mas rapidamente replicamos nossos resultados
em crianças que eram aprendendo a ler.44 Assim que a criança começa
a ler, a área de forma visual da palavra começa a responder no hemisfério
esquerdo. Enquanto isso, sua contraparte simétrica, no hemisfério direito,
fortalece sua resposta aos rostos (veja a figura 15 no encarte colorido). O
efeito é tão poderoso que, para uma determinada idade, apenas examinando
a atividade cerebral evocada pelos rostos, um algoritmo de computador pode
decidir corretamente se uma criança aprendeu ou não a ler. E quando uma
criança sofre de dislexia, essas regiões não se desenvolvem normalmente —
nem à esquerda, onde a área de forma visual da palavra não aparece, nem à
direita, onde o córtex fusiforme não desenvolve uma resposta forte aos
rostos.45 Reduzida . atividade do córtex occipitotemporal esquerdo para
palavras escritas é um marcador universal de dificuldades de leitura em todos
os países onde foi testado.46
De acordo com a hipótese da reciclagem neuronal, aprender a ler compete com as funções
anteriores do córtex visual – neste caso, o reconhecimento facial. Com níveis crescentes de
alfabetização, de puros analfabetos a leitores experientes, a ativação evocada por palavras
escritas aumenta no hemisfério esquerdo – e a ativação evocada por rostos se move do
hemisfério esquerdo para o direito.
Recentemente, obtivemos permissão para realizar um experimento

ousado. Queríamos ver os circuitos de leitura emergirem em crianças
individuais – e, para isso, trouxemos as mesmas crianças de volta ao nosso
centro de imagens cerebrais a cada dois meses, desde o final do jardim de
infância até o final da primeira série. Os resultados corresponderam ao nosso
expectativas. A primeira vez que examinamos essas crianças, não havia

muito o que ver: enquanto as crianças ainda não tivessem aprendido a ler,
seu córtex respondia seletivamente a objetos, rostos e casas, mas não a
letras. Após dois meses de escolaridade, no entanto, apareceu uma resposta
específica às palavras escritas, na mesma localização exata dos adultos: o
córtex occipitotemporal esquerdo.
Muito lentamente, a representação dos rostos mudou: à medida que as
crianças se tornavam cada vez mais alfabetizadas, as respostas faciais
aumentavam no hemisfério direito, em proporção direta aos escores de
leitura. Mais uma vez, de acordo com a hipótese da reciclagem neuronal,
pudemos ver a aquisição da leitura competir com a função anterior do córtex
occipitotemporal esquerdo, o reconhecimento visual de faces.
Percebemos ao fazer este trabalho que esta competição poderia ser
explicada de duas maneiras diferentes. A primeira possibilidade é o que
chamamos de “modelo nocaute”: desde o nascimento, os rostos se instalam
no córtex visual do hemisfério esquerdo, e aprender a ler depois os empurra
direto para o hemisfério direito. A segunda possibilidade é o que chamamos
de “modelo de bloqueio”: o córtex desenvolve-se lentamente, desenvolvendo
gradualmente manchas especializadas para rostos, lugares e objetos; e
quando as letras entram nessa paisagem em desenvolvimento, tomam parte
do território disponível e impedem a expansão de outras categorias visuais.
Então, a alfabetização leva a um nocaute ou bloqueio do córtex?

Nossos experimentos sugerem o último: aprender a ler bloqueia o
crescimento de áreas de reconhecimento facial no hemisfério esquerdo.
Testemunhamos esse bloqueio graças aos exames de ressonância magnética
que adquirimos a cada dois meses das crianças que estavam aprendendo a
ler.47 Nessa idade, por volta dos seis ou sete anos, a especialização cortical
ainda está longe de ser completa. Algumas manchas já são dedicadas a rostos,
objetos e lugares, mas também existem muitos sítios corticais que ainda não se
especializaram em nenhuma categoria. E podíamos visualizar sua progressiva
especialização: quando as crianças entravam na primeira série e começavam a
ler rapidamente, as letras invadiam uma daquelas regiões mal especificadas e
a reciclavam. Ao contrário do que eu pensava inicialmente, as letras não
ultrapassam completamente um remendo de rosto preexistente; eles se mudam
para a casa ao lado, em um setor livre do córtex, um pouco como um
supermercado agressivo que se instala ao lado de uma pequena mercearia.
A expansão de um impede o outro - e porque as letras se acomodam
para baixo no hemisfério esquerdo, que é dominante para a linguagem, os rostos

não têm escolha a não ser se mover para o lado direito.
A aprendizagem é mais fácil na infância, enquanto o córtex ainda é maleável. Antes de uma
criança ir para a escola, algumas regiões visuais do cérebro já se especializaram em reconhecer
objetos, rostos e lugares – mas ainda existem grandes manchas com pouca ou nenhuma
especialização (simbolizadas por hexágonos vazios). Aprender a ler invade esses circuitos lábeis e
bloqueia o crescimento de outras categorias de objetos. Se uma criança não aprende a ler, essas
regiões se envolvem no reconhecimento de rostos e objetos e, gradualmente, perdem a capacidade
de aprender letras.
Em resumo, o sistema visual ventral ainda está passando por uma

grande reorganização durante os primeiros anos escolares. O fato de que
nossas escolas normalmente ensinam crianças entre seis e oito anos de idade se
encaixa perfeitamente com a evidência de intensa plasticidade cerebral durante
esse período. Organizamos nosso sistema educacional de modo a aproveitar com
eficiência um período sensível em que o córtex visual é particularmente flexível.
Embora sua arquitetura geral seja altamente restrita desde o nascimento, o córtex
inferotemporal humano
possui a notável capacidade de se adaptar a várias formas e aprender todos os

tipos de imagens. Quando exposta a milhares de palavras escritas, essa região se
recicla para essa nova atividade, em um setor específico que passa a estar
intrinsecamente ligado aos circuitos da linguagem.
À medida que envelhecemos, nosso córtex visual parece gradualmente congelar e
perder a capacidade de sintonizar novas imagens. O fechamento progressivo do
período sensível torna cada vez mais difícil para o córtex reconhecer com eficiência as
letras e suas combinações. Meus colegas e eu estudamos duas pessoas que tentaram
aprender a ler quando adultas: uma delas nunca teve a chance de ir à escola, enquanto
a outra sofreu um pequeno derrame na área da forma visual das palavras, tornando-o
totalmente “alexic” -incapaz de ler. Nós os examinamos regularmente por dois anos.48
Seu progresso foi incrivelmente lento. O primeiro participante acabou desenvolvendo
uma região especializada para letras, mas esse crescimento não afetou a área do rosto
– os circuitos de reconhecimento de rostos haviam sido impressos em seu cérebro e
pareciam não conseguir mais se mover. Nosso paciente com derrame, por outro lado,
nunca conseguiu recriar uma nova “caixa de correio” em seu córtex visual. Sua leitura
melhorou, mas permaneceu lenta e semelhante à laboriosa decifração de um leitor
iniciante - sendo um adulto, ele estava perdendo a plasticidade neuronal necessária
para reciclar parte de seu córtex em uma máquina de leitura automática.
MÚSICA, MATEMÁTICA E ROSTOS
A conclusão é simples: para reciclar profundamente nosso córtex visual e nos

tornarmos excelentes leitores, devemos aproveitar o período de máxima plasticidade
que a primeira infância oferece. Nossa pesquisa mostra vários outros exemplos.
Veja a leitura musical: um músico que aprendeu a ler partituras em tenra idade tem
praticamente o dobro da área de superfície de seu córtex visual dedicada a símbolos
musicais, em comparação com alguém que nunca aprendeu música.49 Esse
crescimento maciço ocupa espaço na superfície do o córtex, e parece deslocar a área
de forma visual da palavra de seu lugar habitual: em músicos, a região cortical que
responde às letras, a caixa de correio do cérebro, é deslocada em quase um centímetro
de sua posição normal em não-músicos.
Outro exemplo são nossas habilidades variadas para

decodificar equações matemáticas. Um matemático talentoso deve ser capaz
de reconhecer, de relance, expressões tão obscuras quanto
, ou
, assim como lemos uma frase em um romance. Certa
vez, participei de uma conferência em que o brilhante matemático francês
Alain Connes (outro vencedor da Medalha Fields) exibiu uma equação
extraordinariamente densa com vinte e cinco linhas. Ele explicou que essa
expressão matemática abrangente capturava todos os efeitos físicos de todas
as partículas elementares conhecidas.
Um segundo matemático apontou o dedo e disse: “Não há um erro na linha
treze?” “Não”, respondeu Connes imediatamente sem perder a compostura,
“porque o termo de compensação correspondente está bem ali na linha quatorze!”
Como esse talento notável para fórmulas complexas se reflete em

o cérebro dos matemáticos? Imagens do cérebro mostram que esses
objetos matemáticos invadem as regiões occipitais laterais de ambos os
hemisférios – após o treinamento em matemática, essas regiões respondem
a expressões algébricas muito mais do que em não matemáticos.
E, mais uma vez, testemunhamos uma competição com rostos: desta vez, as
manchas do córtex responsivo ao rosto diminuem em ambos os hemisférios .
No hemisfério direito, a prática intensa com números e equações interfere na
representação de rostos em ambos os lados, levando a um encolhimento global
do circuito de reconhecimento visual de rostos.
É tentador relacionar essa descoberta com o famoso mito do matemático

excêntrico, desinteressado por nada além de suas equações e incapaz de
reconhecer seu vizinho, seu cachorro ou mesmo seu reflexo no espelho. Há,
de fato, uma abundância de anedotas e piadas sobre matemáticos irracionais.
Por exemplo, qual é a diferença entre um matemático introvertido e um
matemático extrovertido? Enquanto ele está falando com você, o introvertido
olha para seus sapatos. Mas o matemático extrovertido olha para seus
sapatos! . . .
Na realidade, ainda não sabemos se a redução da cortical

respostas a rostos em aficionados por matemática está diretamente
relacionada à sua suposta falta de competência social (o que, devo dizer, é mais
um mito do que uma realidade - muitos matemáticos estão maravilhosamente à

vontade na sociedade). Mais crucialmente, a causalidade ainda precisa ser determinada:
passar a vida em fórmulas matemáticas reduz a resposta aos rostos? Ou, ao contrário,
os matemáticos mergulham em um universo de equações porque as acham mais fáceis
do que as interações sociais? Qualquer que seja a resposta, a competição cortical é um
fenômeno genuíno, e a representação de rostos em nossos cérebros acaba sendo
notavelmente sensível à educação e à escolaridade, a ponto de fornecer um marcador
confiável de se uma criança recebeu treinamento em matemática, música ou leitura. A
reciclagem neuronal é uma realidade.
OS BENEFÍCIOS DE UM AMBIENTE ENRIQUECIDO
A mensagem para levar para casa é que ambos os lados do debate natureza-
criação estão certos: o cérebro de uma criança é estruturado e plástico. Ao nascer,
todas as crianças são equipadas com uma panóplia de circuitos especializados,
moldados por genes, eles próprios selecionados por dezenas de milhões de anos de
evolução. Essa auto-organização dá ao cérebro do bebê uma intuição profunda de várias
áreas importantes do conhecimento: um senso da física que governa os objetos e seu
movimento; um talento especial para a navegação espacial; intuições de números,
probabilidade e matemática; uma inclinação para outros seres humanos; e até mesmo
um gênio para línguas — a metáfora da lousa em branco não poderia estar mais errada.
E, no entanto, a evolução também deixou a porta aberta para muitas

oportunidades de aprendizado. Nem tudo é predeterminado no cérebro da criança.
Muito pelo contrário: o detalhe dos circuitos neurais, em escala de poucos milímetros,
é amplamente aberto a interações com o mundo exterior.
Durante os primeiros anos de vida, os genes guiam uma exuberante
superprodução de circuitos neurais: o dobro de sinapses necessárias. De uma
forma que ainda não compreendemos completamente, essa abundância inicial abre
um imenso espaço de modelos mentais do mundo. Os cérebros das crianças estão
repletos de possibilidades e exploram um conjunto muito mais amplo de hipóteses do
que os cérebros dos adultos.
Cada bebê está aberto a todas as línguas, todos os scripts, todas as
matemáticas possíveis – dentro dos limites genéticos de nossa espécie, é claro.
E o cérebro do bebê também vem equipado com outro
presente: algoritmos de aprendizagem poderosos que selecionam os mais úteis
sinapses e circuitos, proporcionando assim uma segunda camada de

adaptação do organismo ao seu ambiente. Graças a eles, já nos primeiros
dias de vida, o cérebro começa a se especializar e se estabelecer em sua
configuração. As primeiras regiões a congelar são as áreas sensoriais: as
áreas visuais iniciais amadurecem em poucos anos, e leva menos de doze
meses para as áreas auditivas convergirem para as vogais e consoantes da
língua nativa da criança. À medida que os períodos sensíveis de plasticidade
cerebral se fecham, um após o outro, alguns anos são suficientes para que
qualquer um de nós se torne um nativo de uma determinada língua, escrita e
cultura. E se formos privados de estímulo em um determinado domínio, sejam
órfãos em Bucareste ou analfabetos nos subúrbios de Brasília, corremos o
risco de perder para sempre nossa flexibilidade mental nesse campo de
conhecimento.
Isso não quer dizer que a intervenção não valha o esforço, em
qualquer idade: o cérebro retém parte de sua plasticidade ao longo da vida,
especialmente em suas regiões de nível mais alto, como o córtex pré-frontal.
No entanto, tudo aponta para a eficácia ideal da intervenção precoce. Se
o objetivo é fazer uma coruja usar óculos, ensinar uma segunda língua a
um filho adotivo ou ajudar uma criança a se adaptar à surdez, cegueira ou à
perda de todo um hemisfério cerebral, quanto mais cedo, melhor.
Nossas escolas são instituições projetadas para aproveitar ao máximo

a plasticidade do cérebro em desenvolvimento. A educação depende muito
da flexibilidade espetacular do cérebro da criança para reciclar alguns de
seus circuitos e reorientá-los para novas atividades, como leitura ou
matemática. Quando a escolaridade começa cedo, ela pode transformar
vidas: vários experimentos mostram que crianças de origens desfavorecidas
que se beneficiam de intervenções educacionais precoces apresentam
melhores resultados, mesmo décadas depois, em muitos domínios – de taxas
de criminalidade mais baixas a QI e renda mais altos e melhor saúde.51 Mas
a escolaridade não é uma pílula mágica. Pais e famílias também têm o
dever de estimular o cérebro das crianças e enriquecer ao máximo seus
ambientes. Todos os bebês são físicos iniciantes que adoram experimentar
gravidade e corpos em queda – contanto que possam mexer, construir, falhar
e começar de novo, em vez de ficarem presos em um assento de carro por
horas. Todas as crianças são matemáticas nascentes que adoram contar,
medir, desenhar linhas e círculos, montar formas – desde que se lhes dê
réguas,
bússolas, papel e quebra-cabeças matemáticos atraentes. Todos os bebês são

linguistas geniais: já aos dezoito meses de idade, eles aprendem facilmente de
dez a vinte palavras por dia - mas apenas se falarem com eles.
Seus familiares e amigos devem alimentar esse apetite pelo conhecimento e nutri-
los com frases bem formadas, sem hesitar em usar um rico léxico. Muitos estudos
mostram que o vocabulário de uma criança de três a quatro anos depende diretamente
da quantidade de fala dirigida à criança que ela recebeu durante seus primeiros anos. A
exposição passiva não é suficiente: interações individuais ativas são essenciais.52
Todos os resultados da pesquisa são notavelmente convergentes: enriquecendo a

ambiente de uma criança ajuda-a a construir um cérebro melhor. Por exemplo, em
crianças que lêem histórias de ninar todas as noites, os circuitos cerebrais para a
linguagem falada são mais fortes do que em outras crianças – e as vias corticais
fortalecidas são precisamente aquelas que mais tarde lhes permitirão entender textos
e formular pensamentos complexos.53 Da mesma forma, crianças que têm a sorte de
nascer em famílias bilíngues, com cada pai dando-lhes o maravilhoso dom de falar em
sua língua nativa, adquirem sem esforço dois léxicos, duas gramáticas e duas culturas
- sem nenhum custo . os cérebros retêm melhores habilidades para o processamento
da linguagem e para a aquisição de uma terceira ou quarta língua. E quando chegam à
velhice, seus cérebros parecem resistir por mais tempo aos estragos da doença de
Alzheimer. Expor o cérebro em desenvolvimento a um ambiente estimulante permite que
ele mantenha mais sinapses, dendritos maiores e circuitos mais flexíveis e redundantes55
– como a coruja que aprendeu a usar óculos de prisma e manteve, por toda a vida,
dendritos mais diversificados e maior capacidade de mudar de um comportamento para
outro. Vamos diversificar o portfólio de aprendizagem precoce de nossos filhos: o
florescimento de seus cérebros depende em parte da riqueza da estimulação que
recebem de seu ambiente.
Parte TRÊS
Os quatro pilares do aprendizado

A mera existência de plasticidade sináptica não é suficiente para

explicar o extraordinário sucesso de nossa espécie. Com efeito, tal
a plasticidade é onipresente no mundo animal: mesmo moscas domésticas,
vermes nematóides e lesmas marinhas têm sinapses modificáveis. Se o Homo
sapiens se tornou o Homo docens, se o aprendizado se tornou nosso nicho
ecológico e a principal razão por trás de nosso sucesso global, é porque o cérebro
humano contém um monte de truques adicionais.
Durante a evolução, surgiram quatro funções principais que
maximizaram a velocidade com que extraímos informações do nosso ambiente.
Eu os chamo de quatro pilares do aprendizado, porque cada um deles
desempenha um papel essencial na estabilidade de nossas construções mentais:
se mesmo um desses pilares estiver faltando ou fraco, toda a estrutura treme e
estremece. Por outro lado, sempre que precisamos aprender, e aprender rápido,
podemos contar com eles para otimizar nossos esforços.
Esses pilares são:
Atenção, que amplifica a informação em que focamos.

Engajamento ativo, um algoritmo também chamado de “curiosidade”,
que incentiva nosso cérebro a testar incessantemente novas hipóteses.
Feedback de erro, que compara nossas previsões com a realidade e corrige

nossos modelos do mundo.
Consolidação, que torna o que aprendemos totalmente automatizado e
envolve o sono como um componente-chave.
Longe de serem exclusivas dos humanos, essas funções são compartilhadas

com muitas outras espécies. No entanto, devido ao nosso cérebro social e
habilidades linguísticas, nós os exploramos de forma mais eficaz do que
qualquer outro animal – especialmente em nossas famílias, escolas e universidades.
Atenção, engajamento ativo, feedback de erros e consolidação
são os ingredientes secretos do aprendizado bem-sucedido. E esses componentes
fundamentais de nossa arquitetura cerebral são implantados tanto em casa quanto
na escola. Os professores que conseguem
mobilizar todas as quatro funções em seus alunos, sem dúvida,

maximizará a velocidade e a eficiência com que suas aulas podem
aprender. Cada um de nós deve, portanto, aprender a dominá-los.
CAPÍTULO 7
Atenção
Imagine chegar ao aeroporto bem a tempo de pegar um avião.

Tudo em seu comportamento trai a concentração elevada de sua atenção.
Com a mente em alerta, você procura o sinal de partida, sem se deixar
distrair pelo fluxo de viajantes; você rola rapidamente pela lista para
encontrar seu voo.
Os anúncios ao redor chamam por você, mas você nem os vê - em vez
disso, você vai direto para o balcão de check-in.
De repente, você se vira: no meio da multidão, um amigo inesperado acaba
de chamar seu primeiro nome. Essa mensagem, que seu cérebro considera
prioritária, toma sua atenção e invade sua consciência. . . fazendo você
esquecer qual balcão de check-in você deveria ir.
No espaço de alguns minutos, seu cérebro passou pela maior parte

os principais estados de atenção: vigilância e alerta, seleção e distração,
orientação e filtragem. Na ciência cognitiva, “atenção” refere-se a todos
os mecanismos pelos quais o cérebro seleciona informações, as amplifica,
as canaliza e aprofunda seu processamento.
Esses são mecanismos antigos em evolução: sempre que um
cachorro reorienta suas orelhas ou um camundongo congela ao ouvir
um estalo, eles estão fazendo uso de circuitos de atenção muito próximos
aos nossos.1 Por que os mecanismos de atenção evoluíram em tantos
animais
espécies? Porque a atenção resolve um problema muito comum:
a saturação da informação. Nosso cérebro é constantemente
bombardeado com estímulos: os sentidos da visão, audição, olfato e tato
transmitem milhões de bits de informação por segundo. Inicialmente,
todas essas mensagens são processadas em paralelo por neurônios
distintos - mas seria impossível digeri-las em profundidade: os recursos do cérebro
não seria suficiente. É por isso que uma pirâmide de mecanismos de atenção,
organizados como um filtro gigantesco, realiza uma triagem seletiva. Em cada
etapa, nosso cérebro decide quanta importância deve atribuir a tal ou qual entrada
e aloca recursos apenas para as informações que considera mais essenciais.
A seleção de informações relevantes é fundamental para o aprendizado. Na

ausência de atenção, descobrir um padrão em uma pilha de dados é como
procurar a lendária agulha no palheiro. Esta é uma das principais razões por trás
da lentidão das redes neurais artificiais convencionais: elas perdem um tempo
considerável analisando todas as combinações possíveis dos dados fornecidos a
elas, em vez de classificar as informações e se concentrar nos bits relevantes. Foi
somente em 2014 que dois pesquisadores, o canadense Yoshua Bengio e o
coreano Kyunghyun Cho, mostraram como integrar a atenção em redes neurais
artificiais.2 Seu primeiro modelo aprendeu a traduzir frases de um idioma para
outro. Eles mostraram que a atenção trouxe imensos benefícios: seu sistema
aprendeu melhor e mais rápido porque conseguiu se concentrar nas palavras
relevantes da frase original em cada etapa.
Muito rapidamente, a ideia de aprender a prestar atenção se espalhou como

incêndio no campo da inteligência artificial. Hoje, se os sistemas artificiais
conseguem rotular com sucesso uma imagem (“Uma mulher jogando um frisbee em
um parque”), é porque eles usam a atenção para canalizar a informação focando
um holofote em cada parte relevante da imagem. Ao descrever o Frisbee, a rede
concentra todos os seus recursos nos pixels correspondentes da imagem e remove
temporariamente todos aqueles que correspondem à pessoa e ao parque – retornará
a eles posteriormente.3 Hoje em dia, qualquer sistema sofisticado de inteligência
artificial não conecta mais todas as entradas com todas as saídas - ele sabe que o
aprendizado será mais rápido se uma rede tão simples, onde cada pixel da entrada
tem a chance de prever qualquer palavra na saída, for substituída por uma arquitetura
organizada onde o aprendizado é dividido em dois módulos : um que aprende a
prestar atenção e outro que aprende a nomear os dados filtrados pelo primeiro.
O primeiro pilar do aprendizado é a atenção, um mecanismo tão fundamental que agora está
sendo integrado à maioria das redes neurais artificiais contemporâneas. Aqui, a máquina aprende
a encontrar as palavras para descrever uma imagem. A atenção seletiva atua como um holofote
que ilumina certas áreas da imagem (em branco à direita) e descarta todo o resto. A qualquer
momento, a atenção concentra todo o poder de aprendizado em um conjunto de dados selecionado.
A atenção é essencial, mas pode resultar em um problema: se a

atenção for mal direcionada, o aprendizado pode ficar preso.4 Se eu não
prestar atenção ao Frisbee, essa parte da imagem é apagada: o
processamento continua como se tivesse não existe. As informações
sobre ele são descartadas desde o início e permanecem confinadas às
primeiras áreas sensoriais. Objetos desacompanhados causam apenas uma
ativação modesta que induz pouco ou nenhum aprendizado.5 Isso é totalmente
diferente da extraordinária amplificação que ocorre em nosso cérebro sempre
que prestamos atenção a um objeto e tomamos consciência dele. Com consciência
atenção, as descargas dos neurônios sensoriais e conceituais que codificam

um objeto são massivamente amplificadas e prolongadas, e suas mensagens se
propagam no córtex pré-frontal, onde populações inteiras de neurônios acendem
e disparam por um longo tempo, muito além da duração original do image.6 Uma
onda tão forte de disparo neural é exatamente o que as sinapses precisam para
mudar sua força – o que os neurocientistas chamam de “potenciação de longo
prazo”. Quando um aluno presta atenção consciente a, digamos, uma palavra de
língua estrangeira que o professor acaba de introduzir, ele permite que essa
palavra se propague profundamente em seus circuitos corticais, até o córtex pré-
frontal. Como resultado, essa palavra tem uma chance muito maior de ser lembrada.
Palavras inconscientes ou desacompanhadas permanecem em grande parte
confinadas aos circuitos sensoriais do cérebro, nunca tendo a chance de alcançar
as representações lexicais e conceituais mais profundas que suportam a
compreensão e a memória semântica.
É por isso que todo aluno deve aprender a prestar atenção - e

também por que os professores devem prestar mais atenção à atenção!
Se os alunos não prestarem atenção às informações corretas, é bastante
improvável que aprendam alguma coisa. O maior talento de um professor consiste
em constantemente canalizar e captar a atenção das crianças para orientá-las
adequadamente.
A atenção desempenha um papel tão fundamental na seleção de
informações relevantes que está presente em muitos circuitos diferentes no
cérebro. O psicólogo americano Michael Posner distingue pelo menos três
grandes sistemas de atenção:
1. Alerta, que indica quando atender e adapta nosso nível de vigilância.
2. Orientação, que sinaliza o que atender e amplifica qualquer objeto de

interesse.
3. Atenção executiva, que decide como processar o
informações atendidas, seleciona os processos que são relevantes para
uma determinada tarefa e controla sua execução.
Esses sistemas modulam massivamente a atividade cerebral e podem

portanto, facilitar a aprendizagem, mas também apontá-la na direção
errada. Vamos examiná-los um por um.
ALERTA: O DESPERTAR DO CÉREBRO
O primeiro sistema de atenção, talvez o mais antigo em evolução, nos diz

quando devemos estar atentos. Ele envia sinais de alerta que mobilizam todo o
corpo quando as circunstâncias o exigem. Quando um predador se aproxima ou
quando uma forte emoção nos domina, toda uma série de núcleos subcorticais
aumenta imediatamente a vigília e a vigilância do córtex. Esse sistema determina
uma liberação maciça e difusa de neuromoduladores, como serotonina,
acetilcolina e dopamina (veja a figura 16 no encarte colorido).
Através de axônios de longo alcance com muitos ramos espalhados, essas

mensagens de alerta atingem praticamente todo o córtex, modulando
grandemente a atividade cortical e o aprendizado. Alguns pesquisadores falam
de um sinal “agora imprima”, como se essas mensagens dissessem diretamente
ao córtex para comprometer o conteúdo atual da atividade neural na memória.
Experimentos com animais mostram que o disparo deste sistema de alerta
pode de fato alterar radicalmente os mapas corticais (veja a figura 16 no
encarte colorido). O neurofisiologista americano Michael Merzenich conduziu
vários experimentos nos quais o sistema de alerta de camundongos foi acionado
pela estimulação elétrica de seus circuitos subcorticais de dopamina ou
acetilcolina. O resultado foi uma mudança maciça nos mapas corticais. Todos os
neurônios que foram ativados naquele momento, mesmo que não tivessem
importância objetiva, estavam sujeitos a intensa amplificação. Quando um som,
por exemplo, um tom agudo, foi sistematicamente associado a um flash de
dopamina ou acetilcolina, o cérebro do camundongo tornou-se fortemente inclinado
a esse estímulo. Como resultado, todo o mapa auditivo foi invadido por essa nota
arbitrária. O mouse tornou-se cada vez melhor em discriminar sons próximos a
essa nota sensível, mas perdeu parcialmente a capacidade de representar outras
frequências.7
É notável que tal plasticidade cortical, induzida pela manipulação

do sistema de alerta, possa ocorrer mesmo em animais adultos. A
análise dos circuitos envolvidos mostra que neuromoduladores como a
serotonina e a acetilcolina - particularmente por meio do receptor nicotínico
(sensível à nicotina, outro ator importante na excitação e no estado de alerta) -
modulam o disparo de interneurônios inibitórios corticais, derrubando o equilíbrio
entre excitação e inibição.8 Lembre-se de que a inibição desempenha um papel
fundamental no fechamento dos períodos sensíveis à plasticidade sináptica.
Desinibido por
os sinais de alerta, os circuitos corticais parecem recuperar parte de sua

plasticidade juvenil, reabrindo assim o período sensível para os sinais que o
cérebro do camundongo rotula como cruciais.
E o Homo sapiens? É tentador pensar que um
reorganização semelhante de mapas corticais ocorre toda vez que um
compositor ou um matemático mergulha apaixonadamente em seu campo
escolhido, especialmente quando sua paixão começa cedo. Um Mozart ou um
Ramanujan talvez esteja tão eletrizado pelo fervor que seus mapas cerebrais são
literalmente invadidos por modelos mentais de música ou matemática. Além disso,
isso pode se aplicar não apenas a gênios, mas a qualquer pessoa apaixonada por
seu trabalho, de um trabalhador manual a um cientista de foguetes. Ao permitir
que os mapas corticais se remodelem massivamente, a paixão gera talento.
Mesmo que nem todo mundo seja um Mozart, os mesmos circuitos cerebrais
de alerta e motivação estão presentes em todas as pessoas. Que
circunstâncias da vida cotidiana mobilizariam esses circuitos? Eles se ativam
apenas em resposta a traumas ou emoções fortes? Talvez não.
Algumas pesquisas sugerem que os videogames, especialmente os jogos de
ação que brincam com a vida e a morte, fornecem um meio particularmente eficaz
de envolver nossos mecanismos de atenção. Ao mobilizar nossos sistemas de
alerta e recompensa, os videogames modulam massivamente o aprendizado.
O circuito de dopamina, por exemplo, dispara quando jogamos um jogo de
ação.9 A psicóloga Daphné Bavelier mostrou que isso se traduz em aprendizado
rápido.10 Os jogos de ação mais violentos parecem ter os efeitos mais intensos,
talvez porque mobilizam mais fortemente o cérebro. circuitos de alerta. Dez horas
de jogo são suficientes para melhorar a detecção visual, refinar a estimativa rápida
do número de objetos na tela e expandir a capacidade de se concentrar em um
alvo sem se distrair. Um jogador de videogame consegue tomar decisões
ultrarrápidas sem comprometer seu desempenho.
Pais e professores reclamam que as crianças de hoje, conectadas a

computadores, tablets, consoles e outros dispositivos, passam constantemente de
uma atividade para outra e perderam a capacidade de concentração – mas isso
não é verdade. Longe de reduzir nossa capacidade de concentração, os videogames
podem realmente aumentá-la. No futuro, eles nos ajudarão a remobilizar a
plasticidade sináptica em adultos e crianças? Sem dúvida, são um poderoso
estimulante da atenção,
é por isso que meu laboratório desenvolveu toda uma gama de

jogos de tablet educativos para matemática e leitura, baseados em
princípios da ciência cognitiva.11 Os videogames também têm seu lado
sombrio: apresentam riscos bem conhecidos de isolamento social, perda
de tempo e vício. Felizmente, existem muitas outras maneiras de desbloquear
os efeitos do sistema de alerta, ao mesmo tempo em que se baseia no senso
social do cérebro. Professores que cativam seus alunos, livros que atraem
seus leitores e filmes e peças que transportam seu público e os mergulham
em experiências da vida real provavelmente fornecem sinais de alerta
igualmente poderosos que estimulam nossa plasticidade cerebral.
ORIENTAÇÃO: O FILTRO DO CÉREBRO
O segundo sistema de atenção no cérebro determina o que devemos

atender. Este sistema de orientação atua como um holofote no mundo
exterior. Dos milhões de estímulos que nos bombardeiam, seleciona
aqueles aos quais devemos alocar nossos recursos mentais, porque são
urgentes, perigosos, atraentes. . . ou meramente relevante para nossos
objetivos atuais.
O fundador da psicologia americana, William James
(1842-1910), em seu The Principles of Psychology (1890), definiu
melhor essa função da atenção: “Milhões de itens da ordem externa estão
presentes aos meus sentidos que nunca entram adequadamente em minha
experiência. Por quê? Porque eles não têm interesse para mim. Minha
experiência é o que eu concordo em atender. Apenas os itens que noto
moldam minha mente.”
A atenção seletiva opera em todos os domínios sensoriais, mesmo
os mais abstratos. Por exemplo, podemos prestar atenção aos sons ao
nosso redor: os cães movem suas orelhas, mas para nós, humanos,
apenas um ponteiro interno em nosso cérebro se move e sintoniza o que
decidimos focar. Em um coquetel barulhento, podemos selecionar uma
em cada dez conversas com base na voz e no significado. Na visão, a
orientação da atenção costuma ser mais óbvia: geralmente movemos a
cabeça e os olhos em direção ao que nos atrai. Ao deslocar nosso olhar,
trazemos o objeto de interesse para nossa fóvea, que é uma área de alta
sensibilidade no centro de nossa retina. No entanto, experimentos mostram
que mesmo sem mover nossos olhos, ainda podemos
preste atenção em qualquer lugar ou objeto, onde quer que esteja, e amplie
suas características.12 Podemos até atender a um dos vários desenhos
sobrepostos, assim como atendemos a uma das várias conversas simultâneas.
E não há nada que impeça você de prestar atenção na cor de uma pintura,
na forma de uma curva, na velocidade de um corredor, no estilo de um escritor
ou na técnica de um pintor. Qualquer representação em nossos cérebros
pode se tornar o foco de atenção.
Em todos esses casos, o efeito é o mesmo: a orientação da
atenção amplifica o que está em seu foco. Os neurônios que codificam a
informação assistida aumentam seus disparos, enquanto a tagarelice
barulhenta de outros neurônios é esmagada. O impacto é duplo: a atenção
torna os neurônios atendidos mais sensíveis às informações que
consideramos relevantes, mas, sobretudo, aumenta sua influência no resto
do cérebro. Os circuitos neurais a jusante ecoam o estímulo ao qual
emprestamos nossos olhos, ouvidos ou mente. Em última análise, vastas
extensões do córtex se reorientam para codificar qualquer informação que
esteja no centro de nossa atenção.13 A atenção age como um amplificador e
um filtro seletivo.
“A arte de prestar atenção, a grande arte”, diz o filósofo
Alain (1868-1951), “supõe a arte de não prestar atenção, que é a arte
real”. De fato, prestar atenção também envolve escolher o que ignorar.
Para que um objeto apareça no centro das atenções, milhares de outros
devem permanecer nas sombras. Dirigir a atenção é escolher, filtrar e
selecionar: é por isso que os cientistas cognitivos falam de atenção seletiva.
Essa forma de atenção amplifica o sinal selecionado, mas também reduz
drasticamente aqueles que são considerados irrelevantes. O termo técnico
para esse mecanismo é “competição tendenciosa”: a qualquer momento,
muitas entradas sensoriais competem pelos recursos do nosso cérebro, e a
atenção influencia essa competição ao fortalecer a representação do item
selecionado enquanto esmaga os outros. É aí que a metáfora do holofote
atinge seus limites: para iluminar melhor uma região do córtex, o holofote
atencional do nosso cérebro também reduz a iluminação de outras regiões. O
mecanismo se baseia em ondas interferentes de atividade elétrica: para
suprimir uma área do cérebro, o cérebro a inunda com ondas lentas na banda
de frequência alfa (entre oito e doze hertz), que inibem um circuito, impedindo-
o de desenvolver atividade neural coerente.
Prestar atenção, portanto, consiste em suprimir as informações

indesejadas – e, ao fazê-lo, nosso cérebro corre o risco de ficar cego para
o que escolhe não ver. Cego, realmente? Sério.
O termo é totalmente apropriado, pois muitos experimentos, incluindo o
famoso experimento do “gorila invisível”,14 demonstram que a desatenção
pode induzir a uma perda completa da visão. Neste experimento clássico,
você é solicitado a assistir a um curta-metragem em que jogadores de
basquete, vestidos de preto e branco, passam uma bola para frente e para
trás. Sua tarefa é contar, com a maior precisão possível, o número de passes
da equipe branca. Um pedaço de bolo, você pensa - e, de fato, trinta
segundos depois, você triunfantemente dá a resposta certa. Mas agora o
experimentador faz uma pergunta estranha: “Você viu o gorila?”
O gorila? Que gorila? Rebobinamos a fita e, para sua surpresa,
você descobre que um ator em uma fantasia de gorila de corpo
inteiro atravessou o palco e até parou no meio para bater em seu peito por
vários segundos. Parece impossível perder. Além disso, experimentos
mostram que, em algum momento, seus olhos olharam diretamente para o
gorila. No entanto, você não viu. A razão é simples: sua atenção estava
totalmente voltada para o time branco e, portanto, inibia ativamente os
jogadores distraídos que estavam vestidos de preto. . . gorila incluído!
Ocupado com a tarefa de contagem, seu espaço de trabalho mental não
conseguiu perceber essa criatura incongruente.
O experimento do gorila invisível é um estudo de referência

na ciência cognitiva e facilmente replicado: em uma grande variedade
de cenários, o mero ato de focalizar nossa atenção nos cega para estímulos
autônomos. Se, por exemplo, eu lhe pedir para julgar se o tom de um som
é alto ou baixo, você pode ficar cego para outro estímulo, como uma palavra
escrita que aparece na próxima fração de segundo. Os psicólogos chamam
esse fenômeno de “piscar de atenção”:15 seus olhos podem permanecer
abertos, mas sua mente “pisca” – por um curto período de tempo, está
totalmente ocupada com sua tarefa principal e totalmente incapaz de
atender a qualquer outra coisa, mesmo algo tão simples como uma única
palavra.
Em tais experimentos, na verdade sofremos de duas ilusões
distintas. Primeiro, deixamos de ver a palavra ou o gorila, o que já é ruim
o suficiente. (Outros experimentos mostram que a desatenção pode nos
levar a perder um sinal vermelho ou atropelar um pedestre - nunca use seu celular
ao volante!) Mas a segunda ilusão é ainda pior: não temos consciência de

nossa própria falta de consciência - e, portanto, estamos absolutamente
convencidos de que vimos tudo o que havia para ver! A maioria das
pessoas que tenta o experimento do gorila invisível não consegue acreditar
em sua própria cegueira. Eles acham que pregamos uma peça neles, por
exemplo, usando dois filmes diferentes. Normalmente, o raciocínio deles é
que, se realmente houvesse um gorila no vídeo, eles o teriam visto. Infelizmente,
isso é falso: nossa atenção é extremamente limitada e, apesar de toda nossa
boa vontade, quando nossos pensamentos estão focados em um objeto, outros
objetos – por mais salientes, divertidos ou importantes – podem nos iludir
completamente e permanecer invisíveis aos nossos olhos. Os limites intrínsecos
de nossa consciência nos levam a superestimar o que nós e os outros podemos
perceber.
O experimento do gorila realmente merece ser conhecido por todos,
principalmente pais e professores. Quando ensinamos, tendemos a esquecer
o que significa ser ignorante. Todos nós pensamos que o que vemos, todos
podem ver. Como resultado, muitas vezes temos dificuldade em entender por
que uma criança, apesar da melhor das intenções, não consegue ver, no
sentido mais literal do termo, o que estamos tentando ensinar a ela. Mas o
gorila ouve uma mensagem clara: ver requer atenção. Se os alunos, por uma
razão ou outra, estão distraídos e não prestam atenção, eles podem estar
totalmente alheios à mensagem de seu professor - e o que eles não podem
perceber, eles não podem aprender.16 Como exemplo, considere um
experimento recentemente realizado pelo americano psicólogo Bruce
McCandliss, que investigou o papel da atenção no aprendizado da
leitura.17 É melhor prestar atenção às letras individuais de uma palavra ou à
forma geral da palavra inteira? Para descobrir, McCandliss e seus colegas
ensinaram aos adultos um sistema de escrita incomum feito de curvas
elegantes. Os sujeitos foram treinados primeiro com dezesseis palavras, então
suas respostas cerebrais foram registradas enquanto tentavam ler essas
dezesseis palavras aprendidas, bem como dezesseis novas palavras no
mesmo script. Sem o conhecimento deles, no entanto, sua atenção também
estava sendo manipulada. Metade dos participantes foi orientado a observar
as curvas como um todo, pois cada uma delas, assim como um caractere
chinês, correspondia a uma palavra. Ao outro grupo foi dito que, na verdade,
as curvas eram compostas por três letras sobrepostas, e que eles aprenderiam
melhor prestando atenção a cada letra. Assim, o primeiro grupo prestou

atenção ao nível da palavra inteira, enquanto o segundo grupo prestou atenção
às letras individuais, que realmente foram usadas para escrever as palavras.
A atenção seletiva pode orientar o aprendizado para o circuito certo ou errado. Neste experimento,
os adultos aprenderam a ler um novo sistema de escrita usando uma abordagem fonética ou uma
abordagem de palavra inteira. Aqueles que prestaram atenção à forma geral das palavras não
perceberam que as palavras eram feitas de letras, mesmo depois de trezentas tentativas. A atenção
da palavra inteira direcionou o aprendizado para um circuito inadequado no hemisfério direito e
impediu que os participantes generalizassem o que haviam aprendido para palavras novas. Quando
se chamou a atenção para a presença de letras, no entanto, as pessoas foram capazes de decifrar o
alfabeto e ler palavras novas, usando o circuito de leitura normal localizado na região visual ventral esquerda.
córtex.
Quais foram os resultados? Ambos os grupos conseguiram se lembrar do

primeiras dezesseis palavras, mas a atenção alterou radicalmente sua
capacidade de decifrar novas palavras. Os participantes do segundo grupo, focados
em letras, descobriram muitas das correspondências entre letras e sons e foram

capazes de ler 79% das novas palavras.
Além disso, um exame de seus cérebros mostrou que eles haviam ativado o
circuito normal de leitura, localizado nas áreas visuais ventrais do hemisfério
esquerdo. No primeiro grupo, no entanto, atender à forma geral das palavras
impediu completamente a capacidade de generalizar para novos itens: esses
voluntários não conseguiam ler nenhuma palavra nova e ativavam um circuito
totalmente inadequado localizado nas áreas visuais do hemisfério direito .
A mensagem é clara: a atenção muda radicalmente a atividade cerebral.

Prestar atenção à forma geral das palavras impede a descoberta do código
alfabético e direciona a atividade cerebral para um circuito inadequado no
hemisfério oposto. Para aprender a ler, o treinamento fonético é essencial.
Somente atendendo à correspondência entre letras e sons o aluno pode ativar
o circuito clássico de leitura, permitindo que o tipo adequado de aprendizagem
ocorra. Todos os professores de primeira série que ensinam leitura devem estar
familiarizados com esses dados: eles mostram como é importante direcionar
adequadamente a atenção das crianças. Muitos dados convergentes demonstram
de forma convincente a superioridade de tal abordagem fonética sobre a leitura
de palavras inteiras.18 Quando uma criança atende ao nível das letras, por
exemplo, acompanhando cada letra com o dedo, da esquerda para a direita, o
aprendizado se torna muito mais fácil. Se, por outro lado, a criança não recebe
nenhuma pista de atenção e examina ingenuamente a palavra escrita como um
todo, sem atentar para sua estrutura interna, nada acontece. A atenção é um
ingrediente chave para uma aprendizagem bem sucedida.
Acima de tudo, portanto, o bom ensino requer atenção permanente

à atenção das crianças. Os professores devem escolher cuidadosamente o
que querem que as crianças atendam, porque apenas os itens que estão no foco
da atenção são representados no cérebro com força suficiente para serem
aprendidos com eficiência. Os outros estímulos, os perdedores da competição
atencional, causam pouca ou nenhuma agitação nas sinapses plásticas da
criança.
O professor eficiente, portanto, presta muita atenção aos estados
mentais de seus alunos. Ao estimular constantemente a curiosidade das
crianças com aulas que chamam a atenção, ele garante que cada aula seja um
experiência memorável. Ao adaptar seu ensino à capacidade de atenção

de cada criança, ele garante que todos os alunos acompanhem toda a aula.
CONTROLE EXECUTIVO: O QUADRO ELÉTRICO DO CÉREBRO
Nosso terceiro e último sistema de atendimento determina como as

informações atendidas são processadas. O sistema de controle executivo,
às vezes chamado de "executivo central", é uma miscelânea de circuitos
que nos permite escolher um curso de ação e segui-lo.19 Envolve toda uma
hierarquia de áreas corticais, localizadas principalmente no córtex frontal - o
enorme massa de córtex que fica abaixo de nossa testa e compreende cerca
de um terço do cérebro humano. Em comparação com outros primatas,
nossos lobos frontais são maiores, mais bem conectados e repletos de um
número maior de neurônios, cada um com uma árvore dendrítica mais ampla
e complexa . de qualquer outro primata — e isso é especialmente verdadeiro
no nível mais alto da hierarquia cognitiva, que nos permite supervisionar
nossas operações mentais e tomar consciência de nossos erros: o sistema
de controle executivo.21 Imagine ter que multiplicar mentalmente 23 por 8. é
o seu sistema de controle executivo que garante que toda a série de
operações mentais relevantes funcione sem problemas do começo ao fim:
primeiro, concentre-se no dígito das unidades (3) e multiplique-o por 8,
depois armazene o resultado (24) na memória; agora foque no algarismo
das dezenas (2) e também multiplique por 8 para obter 16, e lembre-se que
você está trabalhando na coluna das dezenas, portanto corresponde a 160;
e, por fim, some 24 e 160 para chegar ao resultado final: 184.
O controle executivo é o quadro de distribuição do cérebro: ele

orienta, dirige e governa nossos processos mentais, como um jardineiro
de ferrovia que cuida dos interruptores em uma estação de trem
movimentada e consegue levar cada trem ao caminho certo escolhendo
a orientação apropriada para cada interruptor. O executivo central do
cérebro é considerado um dos sistemas de atenção porque, como os
outros, seleciona entre muitas possibilidades - mas desta vez, a partir das
operações mentais disponíveis, e não dos estímulos que nos chegam.
Assim, a atenção espacial e a atenção executiva se complementam.
Quando fazemos aritmética mental,
atenção é o sistema que varre a página do livro didático de matemática e destaca o

problema 23 × 8 – mas é a atenção executiva que guia os holofotes passo a passo,
primeiro selecionando o 3 e o 8, depois os encaminhando para os circuitos cerebrais para
multiplicação, e assim por diante. O executivo central ativa as operações relevantes e inibe
as inapropriadas. Ele garante constantemente que o programa mental funcione sem
problemas e decide quando mudar de estratégia. É também o sistema que, dentro de um
subcircuito especializado do córtex cingulado, detecta quando cometemos um erro, ou
quando nos desviamos da meta, e corrige imediatamente nosso plano de ação.
Existe uma estreita ligação entre o controle executivo e o que os cientistas

cognitivos chamam de memória de trabalho. Para seguir um algoritmo mental e
controlar sua execução, devemos ter constantemente em mente todos os elementos
do programa em andamento: resultados intermediários, etapas já realizadas, operações
ainda a serem executadas. . . . Assim, a atenção executiva controla as entradas e
saídas do que chamei de “espaço de trabalho neural global”: uma memória consciente
temporária dentro da qual podemos manter, por um curto período, praticamente qualquer
informação que nos pareça relevante e retransmiti-la. para qualquer outro módulo.22 O
espaço de trabalho global atua como o roteador do cérebro, o sinalizador que decide
como e em que ordem enviar as informações para os diversos processadores que nosso
cérebro hospeda. Nesse nível, as operações mentais são lentas e seriais: trata-se de um
sistema que processa uma informação de cada vez e, portanto, é incapaz de realizar duas
operações ao mesmo tempo. Os psicólogos também chamam isso de “gargalo central”.
Somos realmente incapazes de executar dois programas mentais ao mesmo tempo?

Às vezes temos a impressão de que podemos realizar duas tarefas
simultaneamente, ou até mesmo seguir duas linhas distintas de pensamento - mas
isso é pura ilusão. Um experimento básico ilustra esse ponto: dê a alguém duas tarefas
muito simples - por exemplo, pressionar uma tecla com a mão esquerda sempre que
ouvir um som agudo e pressionar outra tecla com a mão direita se vir a letra Y. os alvos
ocorrem simultaneamente ou em sucessão próxima, a pessoa executa a primeira tarefa em
uma velocidade normal, mas a execução da segunda tarefa é consideravelmente mais lenta
para baixo, em proporção direta ao tempo gasto na primeira decisão.23 Em

outras palavras, a primeira tarefa atrasa a segunda: enquanto nosso espaço de
trabalho global está ocupado com a primeira decisão, a segunda tem que esperar. E
o atraso é enorme: chega facilmente a algumas centenas de milissegundos. Se você
estiver muito concentrado na primeira tarefa, pode até perder completamente a
segunda tarefa. Notavelmente, no entanto, nenhum de nós está ciente desse grande
atraso de dupla tarefa - porque, por definição, não podemos estar cientes das
informações antes que elas entrem em nosso espaço de trabalho consciente.
Enquanto o primeiro estímulo é processado conscientemente, o segundo tem que
esperar do lado de fora da porta, até que o espaço de trabalho global esteja livre -
mas não temos nenhuma introspecção desse tempo de espera e, se perguntados
sobre isso, achamos que o segundo estímulo apareceu exatamente quando nós
terminamos com o primeiro, e que o processamos em uma velocidade normal.24
Mais uma vez, não temos consciência de nossos limites mentais (de fato, seria
paradoxal se pudéssemos de alguma forma tomar consciência de nossa falta
de consciência!). A única razão pela qual acreditamos que podemos ser multitarefas
é que não temos consciência do enorme atraso que isso causa. Assim, muitos de nós
continuamos a enviar mensagens de texto enquanto dirigimos – apesar de todas as
evidências de que enviar mensagens de texto é uma das atividades mais distrativas
de todos os tempos.
A atração da tela e o mito da multitarefa estão entre as invenções mais perigosas
de nossa sociedade digital.
E quanto ao treinamento? Podemos nos transformar em genuínos
multitarefas que fazem várias coisas ao mesmo tempo? Talvez, mas apenas
com treinamento intenso em uma das duas tarefas. A automatização libera o espaço
de trabalho consciente: ao rotinizar uma atividade, podemos executá-la
inconscientemente, sem comprometer os recursos centrais do cérebro.
Por meio de prática árdua, por exemplo, um pianista profissional pode falar enquanto
toca, ou um datilógrafo pode copiar um documento enquanto ouve rádio. No entanto,
essas são raras exceções, e os psicólogos continuam a debatê-las, porque também
é possível que a atenção executiva mude rapidamente de uma tarefa para outra de
maneira quase indetectável.25 A regra básica permanece: em qualquer situação
multitarefa, sempre que tivermos para realizar múltiplas operações cognitivas sob o
controle da atenção, pelo menos uma das operações é retardada ou completamente
esquecida.
Por causa desse grave efeito de distração, aprender a se concentrar

é um ingrediente essencial do aprendizado. Não podemos esperar
uma criança ou um adulto aprender duas coisas ao mesmo tempo. Ensinar

requer atenção aos limites da atenção e, portanto, priorizar cuidadosamente as
tarefas específicas. Qualquer distração retarda ou desperdiça nossos esforços:
se tentarmos fazer várias coisas ao mesmo tempo, nosso executivo central
rapidamente perde o controle. A esse respeito, os experimentos de ciências
cognitivas no laboratório convergem muito bem com as descobertas educacionais.
Por exemplo, experimentos de campo demonstram que uma sala de
aula excessivamente decorada distrai as crianças e as impede de se
concentrar . conteúdo específico da aula daquele dia.27 Para um aprendizado
ideal, o cérebro deve evitar qualquer distração.
APRENDENDO A PARTICIPAR
A atenção executiva corresponde aproximadamente ao que

chamamos de “concentração” ou “autocontrole”. É importante ressaltar que
esse sistema não está imediatamente disponível para as crianças: levará
quinze ou vinte anos até que seu córtex pré-frontal atinja sua plena maturidade.
O controle executivo emerge lentamente ao longo da infância e
adolescência à medida que nosso cérebro, por meio da experiência e da
educação, gradualmente aprende a se controlar. É necessário muito tempo
para que o executivo central do cérebro selecione sistematicamente as
estratégias apropriadas e iniba as inadequadas, evitando ao mesmo tempo
distrações.
A psicologia cognitiva está cheia de exemplos em que as crianças
corrigem gradualmente seus erros à medida que conseguem cada vez mais
se concentrar e inibir estratégias inadequadas. O psicólogo Jean Piaget foi o
primeiro a notar isso: crianças muito pequenas às vezes cometem erros
aparentemente bobos. Se, por exemplo, você esconde um brinquedo algumas
vezes no local A e depois passa a escondê-lo no local B, os bebês com menos de
um ano de idade continuam a procurá-lo no local A (mesmo que tenham visto
perfeitamente o que aconteceu) . Este é o famoso “erro A-não-B”, que levou Piaget
a concluir que os bebês não têm permanência de objeto – o conhecimento de que
um objeto continua a existir quando está oculto. No entanto, agora sabemos que
esta interpretação está errada. O exame dos olhos dos bebês mostra que
eles sabem onde está o objeto oculto. Mas eles têm problemas
para resolver conflitos mentais: na tarefa A-não-B, a resposta de
rotina que eles aprenderam em tentativas anteriores lhes diz para ir
para o local A, enquanto sua memória de trabalho mais recente lhes
diz que, na presente tentativa, eles deve inibir essa resposta habitual e ir
para o local B. Antes dos dez meses de idade, o hábito prevalece.
Nessa idade, o que falta é o controle executivo, não o
conhecimento do objeto. De fato, o erro A-não-B desaparece por volta
dos doze meses de idade, em relação direta com o desenvolvimento
do córtex pré-frontal.28 Outro erro típico das crianças é a confusão
entre número e tamanho. Aqui, novamente, Piaget fez uma
descoberta essencial, mas errou na interpretação. Ele descobriu que
crianças pequenas, antes dos três anos de idade, tinham dificuldade
em julgar o número de objetos em um grupo. Em seus experimentos
clássicos de conservação de números, Piaget primeiro mostrou às
crianças duas fileiras iguais de bolinhas de gude, em correspondência
um a um, de modo que até as crianças mais novas concordariam que as
fileiras tinham o mesmo número de bolinhas. Ele então espaçaria as
bolinhas de gude em uma das fileiras:
Notavelmente, as crianças agora afirmavam que os dois conjuntos

eram desiguais e que a fileira mais longa tinha mais objetos. Este é um
erro surpreendentemente tolo – mas ao contrário do que Piaget pensava,
isso não significa que as crianças nessa idade sejam incapazes de
“conservar o número”. Como vimos, mesmo os recém-nascidos já possuem
um senso abstrato de número, independente do espaçamento dos itens
ou mesmo da modalidade sensorial em que são apresentados. Não, a
dificuldade surge, mais uma vez, do controle executivo. As crianças devem
aprender a inibir uma característica proeminente (tamanho) e amplificar
uma mais abstrata (número). Mesmo em adultos, essa atenção seletiva
pode falhar. Por exemplo, todos nós temos dificuldade em decidir qual dos
dois conjuntos é maior quando os itens do conjunto menor são maiores e
mais espalhados no espaço; e também temos dificuldade em escolher o
número maior entre 7 e 9. O que se desenvolve com a idade e a educação
não é tanto a precisão intrínseca do número
mas a capacidade de usá-lo com eficiência sem se distrair com pistas irrelevantes,
como densidade ou tamanho.29 Mais uma vez, o progresso em tais tarefas se
correlaciona com o desenvolvimento de respostas neurais no córtex pré-frontal.30
Eu poderia multiplicar os exemplos: em todas as fases da vida e em todas as
domínios do conhecimento, seja cognitivo ou emocional, é principalmente

o desenvolvimento de nossas habilidades de controle executivo que nos permite
evitar erros.31 Vamos tentar em seu próprio cérebro: diga a cor da tinta (preta
ou branca) em que cada das seguintes palavras é impressa:
Quando você chegou à segunda metade da lista, a tarefa ficou mais

difícil? Você desacelerou e cometeu erros? Este efeito clássico (que é ainda
mais marcante quando as palavras são impressas em cores) reflete a
intervenção do seu sistema de controle executivo. Quando as palavras e as
cores entram em conflito, o executivo central deve inibir a leitura das palavras
para manter o foco na tarefa de nomear a cor da tinta.
Agora tente resolver o seguinte problema: “Maria tem vinte e seis bolas
de gude. Isso é quatro a mais do que Gregory. Quantas bolinhas de gude
Gregory tem? Você teve que lutar contra o desejo de somar os dois números?
Você pensou em trinta em vez do resultado correto de vinte e dois? A declaração
do problema usa a palavra “mais” mesmo que você tenha que subtrair – esta é
uma armadilha em que muitas crianças caem antes de conseguir se controlar e
pensar mais profundamente sobre os significados de tais problemas matemáticos
para selecionar a operação aritmética relevante.
A atenção e o controle executivo desenvolvem-se espontaneamente

com o amadurecimento progressivo do córtex pré-frontal, que se estende ao
longo das duas primeiras décadas de nossas vidas. Mas esse circuito, como
todos os outros, é plástico, e muitos estudos mostram que seu desenvolvimento
pode ser potencializado por treinamento e educação.32 Porque esse sistema
intervém em uma grande variedade de tarefas cognitivas, muitas atividades

educativas, inclusive as mais lúdicas, podem efetivamente desenvolver o
controle executivo. O psicólogo americano Michael Posner foi o primeiro a
desenvolver um software educacional que melhora a capacidade de
concentração de crianças pequenas. Um jogo, por exemplo, força o jogador a
prestar atenção à orientação de um peixe no centro da tela.
O peixe alvo está cercado por outros que estão virados na direção oposta.
No decorrer do jogo, que consiste em muitos níveis de dificuldade crescente, a
criança aprende progressivamente a evitar se distrair com os vizinhos do peixe-
alvo – uma tarefa simples que ensina concentração e inibição. Esta é apenas
uma das muitas maneiras de incentivar a reflexão e desencorajar respostas
imediatas e automáticas.
Muito antes de os computadores serem inventados, a médica e

professora italiana Maria Montessori (1870-1952) percebeu como uma
variedade de atividades práticas poderia desenvolver a concentração em crianças pequenas.
Nas escolas Montessori de hoje, por exemplo, as crianças caminham ao longo
de uma elipse desenhada no chão, sem nunca tirar os pés da linha. Uma vez
que eles conseguem, a dificuldade aumenta fazendo-os andar com uma colher
na boca, depois com uma bola de pingue-pongue na colher e assim por diante.
Estudos experimentais sugerem que a abordagem Montessori tem um impacto
positivo em muitos aspectos do desenvolvimento infantil.33 Outros estudos
demonstram os benefícios atencionais de videogames, meditação ou a prática
de um instrumento musical. . . . Para uma criança pequena, controlar seu corpo,
olhar e respiração enquanto coordena as duas mãos pode ser uma tarefa
extremamente difícil – é provavelmente por isso que tocar música em tenra idade
tem um forte impacto nos circuitos de atenção do cérebro, incluindo um aumento
bilateral na espessura do córtex pré-frontal.34
A atenção executiva, a capacidade de se concentrar e se controlar, desenvolve-se com a

idade e a educação. Aprender a tocar um instrumento musical é uma das muitas maneiras de
aumentar a concentração e o autocontrole desde cedo. O córtex é mais espesso em músicos
do que em não músicos, particularmente o córtex pré-frontal dorsolateral, que desempenha
um papel importante no controle executivo.
O treinamento em controle executivo pode até mudar o QI de uma

pessoa. Isso pode ser uma surpresa, porque o QI é muitas vezes visto como
um dado – um determinante fundamental do potencial mental das crianças. No
entanto, o quociente intelectual é apenas uma habilidade comportamental e,
como tal, está longe de ser imutável pela educação. Como qualquer uma de
nossas habilidades, o QI se baseia em circuitos cerebrais específicos cujos
pesos sinápticos podem ser alterados pelo treinamento. O que chamamos de
inteligência fluida – a capacidade de raciocinar e resolver novos problemas – faz
uso maciço do sistema de controle executivo do cérebro: ambos mobilizam um
rede de áreas cerebrais, notadamente o córtex pré-frontal dorsolateral.35

De fato, as medidas padronizadas de inteligência fluida se assemelham
aos testes que os psicólogos cognitivos usam para avaliar o controle
executivo: ambos enfatizam a atenção, a concentração e a capacidade de
passar rapidamente de uma atividade para outra, sem perder de vista o
objetivo geral. E, de fato, os programas de treinamento que se concentram
na memória de trabalho e no controle executivo causam um leve aumento
na inteligência fluida.36 Esses resultados são consistentes com descobertas
anteriores que mostram que, embora a inteligência não seja desprovida de
determinismo genético, ela pode mudar drasticamente em resposta a
fatores ambientais , incluindo a educação. E esses efeitos podem ser
enormes. Em um estudo, crianças de baixo QI entre quatro e seis anos
foram adotadas em famílias com alto ou baixo nível socioeconômico. Na
adolescência, aqueles que chegaram às famílias mais ricas ganharam vinte
pontos de QI, em comparação com apenas oito pontos para os outros.37
Uma meta-análise recente examinou o efeito da educação na inteligência e
concluiu que cada ano adicional na escola produz um ganho de um a cinco
pontos de QI.38
A atual fronteira da pesquisa envolve otimizar os efeitos do treinamento
cognitivo e esclarecer seus limites. Os efeitos podem durar anos? Como
podemos garantir que eles vão muito além das tarefas treinadas, em várias
situações ao longo da vida? Esse é o desafio, pois, por padrão, o cérebro
tende a desenvolver truques específicos para cada tarefa, caso a caso. A
solução provavelmente está na diversificação das experiências de
aprendizagem, e os melhores resultados parecem ser obtidos por programas
educacionais que estimulem as habilidades cognitivas centrais da memória
de trabalho e atenção executiva em uma grande variedade de contextos.
Certas descobertas me deixam particularmente otimista. O

treinamento precoce da memória de trabalho, especialmente se feito
no jardim de infância, parece ter efeitos positivos na concentração e no
sucesso em muitas áreas, incluindo as mais diretamente relevantes
para a escola: leitura e matemática.39 Isso não é surpreendente, pois
sabemos há anos que a memória de trabalho é um dos melhores preditores
de sucesso posterior em aritmética.40 Os efeitos desses exercícios são
multiplicados se combinarmos o treinamento da memória com o ensino
mais direto do conceito de “linha numérica” – a ideia essencial de que os
números são organizados em uma eixo linear onde adicionar ou
subtrair consiste em mover-se para a direita ou para a esquerda.41 Todas essas

intervenções educacionais parecem ser as mais benéficas para crianças de meios
desfavorecidos. Para famílias de baixo nível socioeconômico, a intervenção precoce,
começando no jardim de infância e ensinando os fundamentos da aprendizagem e
da atenção, pode ser um dos melhores investimentos educacionais.
EU VOU PARTICIPAR SE VOCÊ PARTICIPAR
ÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿ ÿÿÿÿ

O homem é por natureza um animal social (ou político).
Aristóteles (350 a.C.)
Todas as espécies de mamíferos — incluindo, é claro, todos os primatas — possuem

sistemas de atenção. Mas a atenção em humanos exibe uma característica única que
acelera ainda mais o aprendizado: o compartilhamento de atenção social.
No Homo sapiens, mais do que em qualquer outro primata, a atenção e o
aprendizado dependem de sinais sociais: eu assisto onde você frequenta e aprendo
com o que você me ensina.
Desde a mais tenra idade, os bebês olham para os rostos e prestam atenção
especial aos olhos das pessoas. Assim que algo lhes é dito, seu primeiro reflexo
não é explorar a cena, mas captar o olhar da pessoa com quem estão interagindo.
Somente quando o contato visual é estabelecido, eles se voltam para o objeto que o
adulto está olhando. Essa notável capacidade de compartilhamento de atenção
social, também chamada de “atenção compartilhada”, determina o que as crianças
aprendem.
Já contei sobre experimentos em que os bebês aprendem o significado de
uma nova palavra, como “wog”. Se os bebês puderem seguir o olhar do falante em
direção ao chamado wog, eles não terão problemas para aprender essa palavra em
apenas algumas tentativas - mas se o wog for emitido repetidamente por um alto-
falante, em relação direta com o mesmo objeto, não ocorre aprendizado. O mesmo
vale para o aprendizado de categorias fonéticas: uma criança americana de nove
meses que interage com uma babá chinesa por apenas algumas semanas adquire
fonemas chineses – mas se receber exatamente a mesma quantidade de estímulo
linguístico de um vídeo de alta qualidade, nenhum aprendizado ocorre. 42
Psicólogos húngaros Gergely Csibra e György Gergely

postulam que ensinar os outros e aprender com os outros são
adaptações evolutivas fundamentais da espécie humana.43 O Homo
sapiens é um animal social cujo cérebro é dotado de circuitos para
“pedagogia natural” que são acionados assim que atendemos ao que os
outros estão tentando ensinar nós. Nosso sucesso global se deve, pelo
menos em parte, a um traço evolutivo específico: a capacidade de
compartilhar atenção com os outros. A maioria das informações que
aprendemos, devemos aos outros, e não à nossa experiência pessoal.
Desta forma, a cultura coletiva da espécie humana pode se elevar muito
acima do que qualquer indivíduo poderia descobrir sozinho. É o que o
psicólogo Michael Tomasello chama de efeito “catraca cultural”: assim como
uma catraca impede que um elevador caia, o compartilhamento social
impede que a cultura regrida. Sempre que uma pessoa faz uma descoberta
útil, ela rapidamente se espalha para todo o grupo.
Graças à aprendizagem social, é muito raro que o elevador cultural desça e
uma grande invenção seja esquecida.
Nosso sistema de atenção se adaptou a esse contexto cultural.
A pesquisa de Gergely e Csibra mostra que, desde cedo, a atenção
das crianças está altamente sintonizada com os sinais dos adultos. A presença
de um tutor humano, que olha para a criança antes de fazer uma demonstração
específica, modula massivamente o aprendizado. O contato visual não só
atrai a atenção da criança, mas também sinaliza que o tutor pretende ensinar
à criança um ponto importante. Até os bebês são sensíveis a isso: o contato
visual os coloca em uma “postura pedagógica” que os encoraja a interpretar
as informações como importantes e generalizáveis.
Tomemos um exemplo: uma jovem se volta para o objeto A com um

grande sorriso, depois para o objeto B com uma careta. Um bebê de dezoito
meses assiste à cena. Que conclusão o bebê vai tirar? Tudo depende dos
sinais que a criança e o adulto trocaram. Se nenhum contato visual foi
estabelecido, a criança simplesmente se lembra de uma informação específica:
essa pessoa gosta do objeto A e não gosta do objeto B. Se, no entanto, o
contato visual foi estabelecido, a criança deduz muito mais: ela acredita que o
adulto foi tentando ensinar-lhe algo importante e, portanto, ele tira a conclusão
mais geral de que o objeto A é agradável e o objeto B é ruim, não apenas para
essa pessoa em particular, mas para todos. As crianças pagam extremo
atenção a qualquer evidência de comunicação voluntária. Quando

alguém dá sinais óbvios de tentar se comunicar com eles, eles inferem
que essa pessoa quer ensinar informações abstratas, não apenas
suas próprias preferências idiossincráticas.
Não é apenas o contato visual que importa: as crianças também
entendem rapidamente a intenção comunicativa que está por trás do ato
de apontar com o dedo (enquanto os chimpanzés nunca entendem
realmente esse gesto). Até os bebês percebem quando alguém está
tentando chamar sua atenção e dar informações importantes.
Por exemplo, quando bebês de nove meses veem alguém tentando
chamar sua atenção e, em seguida, apontando para um objeto, eles
mais tarde se lembram da identidade desse objeto, pois entendem que
essa é a informação que importa para seu interlocutor – enquanto, se
eles vêem a mesma pessoa alcançando o objeto sem olhar para eles,
eles se lembram apenas da posição do objeto, não de sua identidade.44
As interações sociais são um ingrediente essencial do algoritmo de aprendizagem humana. O

que aprendemos depende de nossa compreensão das intenções dos outros. Até os bebês de
dezoito meses entendem que, se você os olhar nos olhos, está tentando transmitir-lhes informações
importantes. Após o contato visual, eles aprendem de forma mais eficaz e conseguem generalizar
mais do que outras pessoas (topo). Já aos quatorze meses de idade, os bebês já conseguem
interpretar as intenções das pessoas: depois de ver uma pessoa acender uma luz com a cabeça,
eles imitam esse gesto de todas as formas, a menos que as mãos da pessoa estejam ocupadas,
caso em que os bebês entendem que podem basta pressionar o botão com as mãos (parte inferior).
Pais e professores, tenham sempre em mente este fato crucial:

sua atitude e seu olhar significam tudo para uma criança. Obtendo um
a atenção da criança por meio de contato visual e verbal garante que ela
compartilhe sua atenção e aumenta a chance de ela reter a informação que
você está tentando transmitir.
ENSINAR É CUIDAR DO CONHECIMENTO DE OUTRA PESSOA
Nenhuma outra espécie pode ensinar como nós. A razão é simples:

provavelmente somos os únicos animais com uma teoria da mente de outras
pessoas, uma capacidade de prestar atenção a elas e imaginar seus
pensamentos – incluindo o que eles pensam que os outros pensam, e assim
por diante, em um loop infinito. Esse tipo de representação recursiva é típico
do cérebro humano e desempenha um papel essencial na relação pedagógica.
Os educadores devem pensar constantemente sobre o que seus alunos não
sabem: os professores adaptam suas palavras e escolhem seus exemplos para
aumentar o conhecimento de seus alunos o mais rápido possível. E os alunos
sabem que o professor sabe que eles não sabem. Uma vez que as crianças
adotam essa postura pedagógica, elas interpretam cada ato do professor como
uma tentativa de transmitir conhecimento a elas. E o loop continua para sempre:
os adultos sabem que as crianças sabem que os adultos sabem que eles não
sabem. . . que permite que os adultos escolham seus exemplos sabendo que
as crianças tentarão generalizá-los.
Essa relação pedagógica pode muito bem ser exclusiva do Homo

sapiens: não parece existir em nenhuma outra espécie. Em 2006, um artigo
marcante45 publicado na Science descreveu uma forma de ensino no
suricato, um pequeno mamífero sul-africano da família dos mangustos –
mas, na minha opinião, o estudo usou mal a própria definição de ensino. O
que foi isso? O maior assunto de família: aprender a preparar comida! Os
mangustos enfrentam um sério desafio culinário: eles se alimentam de presas
extremamente perigosas, escorpiões com ferrões mortais que precisam ser
removidos antes de comer. Sua situação é semelhante à dos cozinheiros
japoneses que preparam o fugu, um peixe cujo fígado, ovários, olhos e pele
contêm doses mortais da droga paralisante tetrodotoxina: um erro na receita e
você está morto.
Os chefs japoneses treinam por três anos antes de serem autorizados a servir
seu primeiro fugu – mas como os suricatos adquirem seu know-how? O artigo
da Science mostrou de forma convincente que os suricatos adultos ajudam
seus filhotes oferecendo-lhes primeiro comida “preparada” composta por
escorpiões com os ferrões removidos. À medida que os suricatos jovens

crescem, os adultos lhes fornecem uma proporção crescente de escorpiões
vivos, e isso obviamente ajuda os jovens a se tornarem caçadores
independentes. Assim, segundo os autores, três critérios de ensino são
atendidos: o adulto realiza um comportamento específico na presença do
jovem; esse comportamento tem um custo para o adulto; e os jovens se
beneficiam adquirindo conhecimento mais rapidamente do que se o adulto
não tivesse intervindo.
O caso dos suricatos é certamente digno de nota: durante o mangusto
evolução, surgiu um mecanismo singular que claramente facilita a
sobrevivência. Mas esse é um ensinamento genuíno? Na minha opinião,
os dados não nos permitem concluir que os suricatos realmente ensinam
seus filhotes, porque falta um ingrediente crucial: atenção compartilhada ao
conhecimento uns dos outros. Não há evidências de que os suricatos adultos
prestem atenção ao que os jovens sabem ou, inversamente, que os jovens
levem em conta a postura pedagógica dos adultos. Os mangustos adultos só
apresentam presas cada vez mais perigosas para seus filhotes à medida que
envelhecem. Até onde sabemos, esse mecanismo pode ser completamente
pré-programado e específico para o consumo de escorpiões – um
comportamento complexo, mas tacanho, comparável à famosa dança das
abelhas ou ao desfile de noivas do flamingo.
Em suma, embora tentemos projetar em mangustos e escorpiões
nossos próprios preconceitos, um olhar mais atento revela o quão distante
o comportamento deles está do nosso. Com suas limitações óbvias, a
história do mangusto ensinante realmente nos ensina, como em uma
imagem negativa, o que é verdadeiramente único e precioso em nossa
espécie. As relações pedagógicas genuínas que acontecem em nossas
escolas e universidades envolvem fortes laços mentais entre professores e
alunos. Um bom professor constrói um modelo mental de seus alunos, suas
habilidades e seus erros, e toma todas as medidas para enriquecer a mente
de seus alunos. Esta definição ideal, portanto, exclui qualquer professor
(humano ou computador) que meramente fornece mecanicamente uma lição
estereotipada, sem adequá-la ao conhecimento prévio e às expectativas de
seu público – tal ensino irracional e unidirecional é ineficiente. Por outro lado,
o ensino só é eficiente quando os alunos, por sua vez, têm boas razões para
serem persuadidos de que os professores fazem o possível para transmitir
seus conhecimentos.
Qualquer relação pedagógica saudável deve basear-se na
fluxos bidirecionais de atenção, escuta, respeito e confiança mútua. Atualmente,

não há evidências de que tal “teoria da mente” – a capacidade de alunos e
professores de atender aos estados mentais uns dos outros – exista em qualquer
animal que não seja a espécie humana.
A pedagogia modesta do meerkat também não faz justiça à
papel que a educação desempenha nas sociedades humanas. “Todo
homem é uma humanidade, uma história universal”, diz Jules Michelet (1798-1874).
Através da educação, transmitimos aos outros os melhores pensamentos das
milhares de gerações humanas que nos precederam. Cada palavra, cada
conceito que aprendemos é uma pequena conquista que nossos ancestrais
nos transmitiram. Sem linguagem, sem transmissão cultural, sem educação
comunitária, nenhum de nós poderia ter descoberto, sozinho, todas as
ferramentas que atualmente ampliam nossas capacidades físicas e mentais. A
pedagogia e a cultura fazem de cada um de nós herdeiro de uma extensa
corrente de sabedoria humana.
Mas a dependência do Homo sapiens da comunicação social e da
educação é tanto uma maldição quanto uma dádiva. Por outro lado, é culpa da
educação que os mitos religiosos e as notícias falsas se propaguem tão
facilmente nas sociedades humanas. Desde a mais tenra idade, nossos cérebros
absorvem com confiança as histórias que nos são contadas, sejam elas
verdadeiras ou falsas. Em um contexto social, nossos cérebros baixam a guarda;
paramos de agir como cientistas iniciantes e nos tornamos lemingues irracionais.
Isso pode ser bom — como quando confiamos no conhecimento de nossos
professores de ciências e, assim, evitamos ter que replicar todos os experimentos
desde o tempo de Galileu! Mas também pode ser prejudicial, como quando
propagamos coletivamente uma peça não confiável de “sabedoria” herdada de
nossos antepassados. É com base nisso que os médicos praticaram tolamente as
terapias de sangria e ventosa durante séculos, sem nunca testar seu impacto real.
(Caso você esteja se perguntando, ambos são realmente prejudiciais na grande
maioria das doenças.)
Um experimento famoso demonstra até que ponto o aprendizado social
pode transformar crianças inteligentes em imitadores impensados. Já aos
quatorze meses de idade, os bebês imitam prontamente a ação de uma pessoa,
mesmo que não faça sentido para eles - ou talvez especialmente quando não
faz.46 Nesse experimento, os bebês veem um adulto com as mãos amarradas por
um xale, apertando um botão com a cabeça. Os bebês inferem que podem
simplesmente apertar o botão com as mãos livres, e é assim que acabam imitando
a ação, em vez de
copiando-o em todos os detalhes. Se, no entanto, eles virem a mesma

pessoa pressionando um botão com a cabeça sem motivo específico,
mãos completamente livres e perfeitamente visíveis, então os bebês
parecem abandonar todo o raciocínio e confiar cegamente no adulto - eles
imitam fielmente a ação com uma reverência de a cabeça, embora este
movimento não tenha sentido. A inclinação da cabeça dos bebês parece ser
um precursor dos milhares de gestos arbitrários e convenções que as
sociedades e religiões humanas perpetuam. Na idade adulta, esse
conformismo social persiste e cresce. Mesmo as mais triviais de nossas
decisões perceptivas, como julgar o comprimento de uma linha, são
influenciadas pelo contexto social: quando nossos vizinhos chegam a uma
conclusão diferente da nossa, frequentemente revisamos nosso julgamento
para alinhá-lo com o deles, mesmo quando sua resposta parece implausível.47
Nesses casos, o animal social em nós supera o animal racional.
Em suma, nosso cérebro Homo sapiens está equipado com dois modos
de aprendizagem: um modo ativo, no qual testamos hipóteses contra o
mundo exterior como bons cientistas, e um modo receptivo, no qual
absorvemos o que os outros nos transmitem sem verificá-lo pessoalmente.
O segundo modo, por um efeito de catraca cultural, é o que permitiu a
extraordinária expansão das sociedades humanas nos últimos cinquenta mil
anos. Mas sem o pensamento crítico que caracteriza a primeira modalidade,
a segunda torna-se vulnerável à disseminação de fake news. A verificação
ativa do conhecimento, a rejeição do simples boato e a construção pessoal
do significado são filtros essenciais para nos proteger de lendas e gurus
enganosos. Devemos, portanto, encontrar um compromisso entre nossos
dois modos de aprendizagem: nossos alunos devem estar atentos e
confiantes no conhecimento de seus professores, mas também pensadores
autônomos e críticos, atores de sua própria aprendizagem.
Estamos agora tocando no segundo pilar da aprendizagem:

engajamento ativo.
CAPÍTULO 8
Engajamento ativo
Pegue dois gatinhos. Coloque uma coleira e trela no primeiro.

Coloque o segundo em um arnês. Finalmente, conecte-os a um aparelho
de carrossel que garanta que os movimentos dos dois gatinhos estejam
estritamente ligados. A ideia é que os dois animais recebam entradas
visuais idênticas, mas um é ativo enquanto o outro é passivo.
O primeiro explora o ambiente por conta própria, enquanto o segundo
se move exatamente da mesma maneira, mas sem controle.
Este é o experimento clássico de carrossel que Richard Held
(1922-2016) e Alan Hein realizaram em 1963 – uma época em que a
ética da experimentação animal claramente não era tão desenvolvida
quanto hoje! Esse experimento muito simples levou a uma descoberta
importante: a exploração ativa do mundo é essencial para o desenvolvimento
adequado da visão. Durante algumas semanas, durante três horas por dia,
os dois gatinhos viveram em um grande cilindro forrado de barras verticais.
Embora suas entradas visuais fossem muito semelhantes, eles
desenvolveram sistemas visuais dramaticamente diferentes.1 Apesar do
ambiente empobrecido consistindo apenas de barras verticais, o gatinho
ativo desenvolveu visão normal. O gatinho passivo, por outro lado, perdeu
suas habilidades visuais e, ao final do experimento, falhou nos testes
básicos de exploração visual. No teste da falésia, por exemplo, o animal foi
colocado em uma ponte que poderia sair tanto do lado de um penhasco
alto quanto do lado mais raso. Um animal normal não hesita um segundo e
salta para o lado fácil.
O animal passivo, no entanto, escolheu ao acaso. Outros testes mostraram
que o animal passivo não conseguiu desenvolver um modelo adequado de
espaço visual e não sentiu o ambiente com as patas como os gatos normais.
UM ORGANISMO PASSIVO NÃO APRENDE
O experimento carrossel de Held e Hein é a metáfora para nosso segundo

pilar de aprendizado: engajamento ativo. Resultados convergentes de diversos
campos sugerem que um organismo passivo aprende pouco ou nada. Aprendizagem
eficiente significa recusar a passividade, envolver, explorar e gerar ativamente
hipóteses e testá-las no mundo exterior.
Para aprender, nosso cérebro deve primeiro formar um modelo mental hipotético
do mundo exterior, que depois projeta em seu ambiente e põe à prova comparando
suas previsões com o que recebe dos sentidos. Este algoritmo implica uma
postura ativa, engajada e atenta. A motivação é essencial: só aprendemos bem
se tivermos um objetivo claro e nos comprometermos totalmente a alcançá-lo.
Não me entenda mal: engajamento ativo não significa que as crianças

devam ser encorajadas a se mexer na aula o dia todo! Certa vez, visitei uma escola
onde o diretor me contou, com certo orgulho, como aplicou minhas ideias: ele havia
equipado as carteiras de seus alunos com pedais para que seus alunos pudessem
permanecer ativos durante as aulas de matemática. . . . Ele havia perdido totalmente
o meu ponto (e me mostrou os limites da metáfora do experimento em carrossel).
Ser ativo e engajado não significa que o corpo deva se mover. O engajamento ativo
ocorre em nossos cérebros, não em nossos pés. O cérebro aprende com eficiência
apenas se estiver atento, focado e ativo na geração de modelos mentais. Para digerir
melhor os novos conceitos, os alunos ativos constantemente os reformulam em
palavras ou pensamentos próprios.
Alunos passivos ou, pior ainda, distraídos não se beneficiarão de nenhuma

aula, porque seus cérebros não atualizam seus modelos mentais do mundo. Isso
não tem nada a ver com o movimento real. Dois alunos podem estar muito quietos,
mas diferem dramaticamente nos movimentos internos de seus pensamentos: um
segue ativamente o curso, enquanto o outro se desengaja e se torna passivo ou
distraído.
Experimentos mostram que raramente aprendemos apenas acumulando
estatísticas sensoriais de maneira passiva. Isso pode acontecer, mas principalmente
nos níveis inferiores de nossos sistemas sensoriais e motores. Lembra daqueles
experimentos em que uma criança ouve centenas de sílabas, calcula as probabilidades
de transição entre sílabas (como /bo/ e /t^l/) e acaba detectando a presença de
palavras (“garrafa”)? Esse tipo de aprendizado implícito parece persistir mesmo
quando os bebês estão dormindo.2 No entanto, é a exceção que confirma a

regra: na grande maioria dos casos, e assim que o aprendizado diz respeito a
propriedades cognitivas de alto nível, como a memória explícita dos significados
das palavras em vez de sua mera forma, a aprendizagem parece ocorrer
apenas se o aprendiz prestar atenção, pensar, antecipar e formular hipóteses
com o risco de cometer erros. Sem atenção, esforço e reflexão profunda, a
lição desaparece, sem deixar vestígios no cérebro.
PROCESSAMENTO MAIS PROFUNDO, MELHOR APRENDIZADO
Tomemos um exemplo clássico da psicologia cognitiva: o efeito da profundidade

do processamento de texto. Imagine que eu apresente uma lista de sessenta
palavras a três grupos de alunos. Peço ao primeiro grupo que decida se as letras
das palavras são maiúsculas ou minúsculas; o segundo grupo, se as palavras
rimam com “cadeira”; e o terceiro, sejam nomes de animais ou não. Quando os
alunos terminarem, eu lhes dou um teste de memória. Qual grupo se lembra
melhor das palavras? A memória acaba por ser muito melhor no terceiro grupo,
que processou as palavras em profundidade, ao nível do significado (75 por
cento de sucesso), do que nos outros dois grupos, que processaram os aspectos
sensoriais mais superficiais das palavras, quer ao nível do nível da letra (33% de
sucesso) ou o nível da rima (52% de sucesso).3 Encontramos um fraco traço
implícito e inconsciente das palavras em todos os grupos: o aprendizado deixa
sua marca subliminar nos sistemas ortográfico e fonológico. No entanto, apenas
o processamento semântico aprofundado garante a memória explícita e detalhada
das palavras. O mesmo fenômeno ocorre no nível das frases: os alunos que se
esforçam para entender as frases por conta própria, sem orientação do professor,
apresentam uma retenção muito melhor da informação.4 Essa é uma regra geral,
que o psicólogo americano Henry Roediger afirma a seguir: “Tornar as condições
de aprendizagem mais difíceis, exigindo assim que os alunos se envolvam mais
no esforço cognitivo, muitas vezes leva a uma maior retenção.”5
A imagem cerebral está começando a esclarecer as origens desse

efeito de profundidade de processamento.6 O processamento mais profundo
deixa uma marca mais forte na memória porque ativa áreas do córtex pré-frontal
que estão associadas ao processamento consciente de palavras e porque essas
áreas formam laços poderosos com o hipocampo, que armazena

informações na forma de memórias episódicas explícitas.
No filme cult La Jetée (1962), do diretor francês Chris Marker
(1921-2012), uma voz off afirma o seguinte aforismo, que soa como
uma verdade profunda: se conheceram, por suas cicatrizes.” Um belo
ditado. . . mas um provérbio falso, porque a imagem cerebral mostra
que, no início da codificação da memória, os eventos de nossa vida
que permanecerão gravados em nossa memória já podem ser
distinguidos daqueles que não deixarão vestígios: os primeiros foram
processados em um nível mais profundo .7 Ao examinar uma pessoa
enquanto ela está meramente exposta a uma lista de palavras e imagens,
podemos prever quais desses estímulos individuais serão posteriormente
esquecidos e quais serão retidos. O principal preditor é se eles induziram
atividade no córtex frontal, no hipocampo e nas regiões vizinhas do
córtex parahipocampal. O engajamento ativo dessas regiões é um reflexo
direto da profundidade a que essas palavras e imagens viajaram no
cérebro e prediz a força do rastro que elas deixam na memória.
Uma imagem inconsciente penetra nas áreas sensoriais, mas cria

apenas uma modesta onda de atividade no córtex pré-frontal.
Atenção, concentração, profundidade de processamento e
percepção consciente transformam essa pequena onda em um tsunami
neuronal que invade o córtex pré-frontal e maximiza a memorização
subsequente.8 O papel do engajamento ativo e da profundidade de
processamento é confirmado pela convergência de evidências de
estudos pedagógicos em um contexto escolar— por exemplo, aprender
física no nível de graduação. Os alunos devem aprender os conceitos
abstratos de momento angular e torque do motor. Dividimos os alunos
em dois grupos: um grupo recebe dez minutos para experimentar uma
roda de bicicleta e o outro grupo, dez minutos de explicação verbal e
observação de outros alunos. O resultado é claro: o aprendizado é muito
melhor no grupo que se beneficiou da interação ativa com o objeto
físico.9 Tornar um curso mais profundo e envolvente facilita a retenção
posterior de informações.
Esta conclusão recebe apoio de uma revisão recente de mais
mais de duzentos estudos pedagógicos em cursos de graduação
STEM: aulas tradicionais, onde os alunos permanecem passivos enquanto
o professor prega por cinqüenta minutos, é ineficiente.10 Comparado com

métodos de ensino que promovem o engajamento ativo, a palestra sistematicamente
produz desempenhos inferiores. Em todas as disciplinas, da matemática à
psicologia, da biologia à ciência da computação, um aluno ativo obtém mais
sucesso. Com o envolvimento ativo, as pontuações dos exames progridem em
meio desvio padrão, o que é considerável, e a taxa de reprovação diminui em mais
de 10%. Mas quais são as estratégias que mais envolvem os alunos? Não existe
um único método milagroso, mas sim toda uma gama de abordagens que forçam
os alunos a pensar por si mesmos, como atividades práticas, discussões em que
todos participam, trabalhos em pequenos grupos ou professores que interrompem
a aula para fazer uma pergunta difícil e deixe os alunos pensarem sobre isso por
um tempo. Todas as soluções que forçam os alunos a desistir do conforto da
passividade são eficazes.
O FRACASSO DO ENSINO BASEADO NA DESCOBERTA
Nada disso é novo, você pode estar pensando, e muitos professores já

aplicam essas ideias. No entanto, no domínio pedagógico, nem a tradição nem
a intuição são confiáveis: precisamos verificar cientificamente quais pedagogias
realmente melhoram a compreensão e a retenção dos alunos e quais não. E
esta é uma oportunidade para eu esclarecer uma distinção muito importante. A
visão fundamentalmente correta de que as crianças devem estar atenta e
ativamente engajadas em sua própria aprendizagem não deve ser confundida
com o construtivismo clássico ou métodos de aprendizagem por descoberta –
que são ideias sedutoras cuja ineficácia tem, infelizmente, sido repetidamente
demonstrada . raramente é compreendido, em parte porque as últimas pedagogias
são também conhecidas como pedagogias ativas, o que é uma grande fonte de
confusão.
Quando falamos de aprendizagem por descoberta, o que queremos dizer? este

A nebulosa de visões pedagógicas remonta a Jean-Jacques Rousseau e
chegou até nós através de educadores famosos como John Dewey (1859-1952),
Ovide Decroly (1871-1932), Célestin Freinet (1896-1966), Maria Montessori e ,
mais recentemente, Jean Piaget e Seymour Papert (1928-2016). “Ouso expor
aqui”, escreve Rousseau em Emílio, ou Sobre a educação, “a regra mais
importante e útil de toda a educação? Não é para salvar
tempo, mas desperdiçá-lo”. Para Rousseau e seus sucessores, é sempre

melhor deixar as crianças descobrirem por si mesmas e construírem seu
próprio conhecimento, mesmo que isso implique que elas possam perder
horas mexendo e explorando. . . . Esse tempo nunca é perdido, acreditava
Rousseau, porque eventualmente produz mentes autônomas, capazes não
apenas de pensar por si mesmas, mas também de resolver problemas reais,
em vez de receber passivamente conhecimento e cuspir soluções mecânicas
e prontas. “Ensine seu aluno a observar os fenômenos da natureza”, diz
Rousseau, “e logo você despertará sua curiosidade; mas se você quer que a
curiosidade dele cresça, não tenha pressa em satisfazê-la. Coloque os
problemas diante dele e deixe que ele mesmo os resolva.”
A teoria é atraente. . . . Infelizmente, vários estudos, espalhados por

várias décadas, demonstram que seu valor pedagógico é próximo de zero – e
essa descoberta foi replicada com tanta frequência que um pesquisador
intitulou seu artigo de revisão “Deve haver uma regra de três ataques contra o
aprendizado por descoberta pura?” Quando as crianças são deixadas a si
mesmas, elas têm grande dificuldade em descobrir as regras abstratas que
governam um domínio, e aprendem muito menos, se é que aprendem alguma
coisa. Devemos nos surpreender com isso? Como poderíamos imaginar que
as crianças redescobririam, em poucas horas e sem nenhuma orientação
externa, o que a humanidade levou séculos para discernir? De qualquer forma,
as falhas são retumbantes em todas as áreas:
Na leitura: A mera exposição a palavras escritas geralmente não leva

a nada, a menos que as crianças sejam explicitamente informadas
sobre a presença de letras e sua correspondência com os sons da
fala. Poucas crianças conseguem correlacionar a linguagem escrita e
falada sozinhas. Imagine os poderes intelectuais que nosso jovem
Champollion precisaria para descobrir que todas as palavras que
começam com o som /R/ também trazem a marca “R” ou “r” em sua
extremidade esquerda. . . . A tarefa estaria fora de alcance se os
professores não guiassem cuidadosamente as crianças por meio de
um conjunto ordenado de exemplos bem escolhidos, palavras simples
e letras isoladas.
Em matemática: Diz-se que aos sete anos de idade, o brilhante
matemático Carl Gauss (1777-1855) descobriu, sozinho, como somar
rapidamente os números de um para um
cem (pense nisso - eu dou a solução nas notas12).

O que funcionou para Gauss, no entanto, pode não se aplicar a outras
crianças. A pesquisa é clara neste ponto: o aprendizado funciona melhor
quando os professores de matemática passam pela primeira vez por um
exemplo, com algum detalhe, antes de deixar seus alunos resolverem problemas
semelhantes por conta própria. Mesmo que as crianças sejam inteligentes o
suficiente para descobrir a solução por si mesmas, elas acabam tendo um
desempenho pior do que outras crianças que foram mostradas pela primeira vez
como resolver um problema antes de serem deixadas por conta própria.
Em ciência da computação: Em seu livro Mindstorms (1980), o
cientista da computação Seymour Papert explica por que inventou a linguagem
de computador Logo (famosa por sua tartaruga computadorizada que desenha
padrões na tela). A ideia de Papert era permitir que as crianças explorassem
computadores por conta própria, sem instrução, adquirindo experiência prática.
No entanto, o experimento foi um fracasso: depois de alguns meses, as crianças
só conseguiam escrever programas pequenos e simples. Os conceitos abstratos
da ciência da computação os iludiram e, em um teste de resolução de problemas,
eles não se saíram melhor do que crianças não treinadas: o pouco conhecimento
em informática que aprenderam não se espalhou para outras áreas. A pesquisa
mostra que o ensino explícito, com períodos alternados de explicação e testes
práticos, permite que as crianças desenvolvam uma compreensão muito mais
profunda da linguagem Logo e da ciência da computação.
Experimentei diretamente o nascimento do computador pessoal doméstico — eu

tinha quinze anos quando meu pai nos comprou um Tandy TRS-80 com dezesseis
kilobytes de memória e gráficos de 48 por 128 pixels.
Como outros da minha geração, aprendi a codificar na linguagem de programação
BASIC sem professor ou aula – embora não estivesse sozinho: meu irmão e eu
devoramos todas as revistas, livros e exemplos que pudemos encontrar. Acabei me
tornando um programador razoavelmente eficaz. . . mas quando entrei em um programa
de mestrado em ciência da computação, percebi a enormidade de minhas deficiências:
eu estava mexendo todo esse tempo sem entender a estrutura lógica e profunda dos
programas, nem as práticas adequadas que os tornavam claros e legíveis. E este é
talvez o pior efeito da aprendizagem por descoberta: deixa os alunos
sob a ilusão de que dominaram um determinado tópico, sem nunca lhes dar os
meios para acessar os conceitos mais profundos de uma disciplina.
Em resumo, embora seja crucial que os alunos estejam motivados,

ativos e engajados, isso não significa que eles devam ser deixados por conta
própria. O fracasso do construtivismo mostra que a orientação pedagógica
explícita é essencial. Os professores devem fornecer a seus alunos um ambiente
de aprendizado estruturado projetado para guiá-los progressivamente ao topo o
mais rápido possível. As estratégias de ensino mais eficientes são aquelas que
induzem os alunos a se envolverem ativamente, proporcionando-lhes uma
progressão pedagógica ponderada e estreitamente canalizada pelo professor.
Nas palavras do psicólogo Richard Mayer, que revisou esse campo, o melhor
sucesso é alcançado por “métodos de instrução que envolvem atividade cognitiva
em vez de atividade comportamental, orientação instrucional em vez de pura
descoberta e foco curricular em vez de exploração não estruturada”. os
professores fornecem uma sequência clara e rigorosa que começa com o básico.
Eles avaliam constantemente o domínio de seus alunos e permitem que eles
construam uma pirâmide de significados.
E isso é de fato o que a maioria das escolas inspiradas em Montessori

fazem hoje: não deixam as crianças “marinar” sem fazer nada; em vez
disso, eles propõem toda uma série de atividades racionais e hierárquicas,
cuja finalidade é primeiro cuidadosamente demonstrada pelos professores
antes de ser realizada de forma independente pelas crianças. Engajamento
ativo, prazer e autonomia, sob a orientação de um método de ensino explícito e
com materiais pedagógicos estimulantes: esses são os ingredientes para uma
receita vencedora cuja eficácia tem sido repetidamente demonstrada.
A aprendizagem por descoberta pura, a ideia de que as crianças

podem aprender sozinhas, é um dos muitos mitos educacionais que
foram desmascarados, mas ainda permanecem curiosamente populares.
Pertence a uma coleção de lendas urbanas que maculam o campo
educacional, e pelo menos dois outros grandes equívocos estão ligados a ela:14
O mito do nativo digital: as crianças da nova geração, ao

contrário de seus pais, foram banhadas em computadores e
eletrônicos desde os primeiros anos. Como um
resultado, de acordo com esse mito, esses Homo zappiens nativos são
campeões do mundo digital, para quem bits e bytes são completamente
transparentes, e que navegam e alternam entre mídias digitais com incrível
facilidade. Nada poderia estar mais longe da verdade: pesquisas mostram
que o domínio da tecnologia dessas crianças é muitas vezes superficial e que
elas são tão ruins quanto qualquer um de nós em multitarefas. (Como vimos,
o gargalo central que nos impede de fazer duas coisas ao mesmo tempo é
uma propriedade fundamental de nossa arquitetura cerebral, presente em
todos nós.)
O mito dos estilos de aprendizagem: de acordo com essa ideia, cada

aluno tem seu próprio estilo de aprendizagem preferido – alguns são
principalmente aprendizes visuais, outros auditivos, outros ainda aprendem
melhor com a experiência prática e assim por diante. A educação deve,
portanto, ser adaptada ao modo favorito de aquisição de conhecimento de
cada aluno. Isso também é patentemente falso:15 por incrível que pareça,
não há pesquisas que apoiem a noção de que as crianças diferem
radicalmente em sua modalidade de aprendizagem preferida. O que é verdade
é que algumas estratégias de ensino funcionam melhor do que outras — mas
quando funcionam, essa superioridade se aplica a todos nós, não apenas a
um subgrupo. Por exemplo, experimentos mostram que todos nós temos mais
facilidade em lembrar uma imagem do que uma palavra falada, e que nossa
memória é ainda melhor quando a informação é transmitida por ambas as
modalidades – uma experiência audiovisual. Novamente, este é o caso de
todas as crianças.
Simplesmente não há evidências a favor da existência de subtipos
de crianças com estilos de aprendizagem radicalmente diferentes, de
modo que as crianças do tipo A aprendem melhor com a estratégia A e as
crianças do tipo B com a estratégia B. Pelo que sabemos, todos os humanos
compartilham o mesmo aprendizado algoritmo.
E quanto a todos os livros e softwares de educação especial que afirmam

adaptar a educação às necessidades de cada criança? Eles são inúteis?
Não necessariamente. As crianças variam drasticamente, não no estilo de
aprendizagem, mas na velocidade, facilidade e motivação com que aprendem.
Na primeira série, por exemplo, os 10% superiores das crianças já leem mais de
quatro milhões de palavras por ano, enquanto os 10% inferiores lêem menos de
sessenta mil16 – e as crianças disléxicas podem
não ler em tudo. Déficits de desenvolvimento, como dislexia e discalculia, podem

ocorrer em diversas variedades, e muitas vezes é útil diagnosticar cuidadosamente a natureza
exata da deficiência para adaptar as lições. As crianças beneficiam de intervenções
pedagógicas cujos conteúdos são adaptados às suas dificuldades específicas. Por exemplo,
muitas crianças, mesmo em matemática avançada, não conseguem entender como as
frações funcionam – neste caso, o professor deve abandonar o currículo atual e retornar ao
básico de números e aritmética. No entanto, todo professor também deve ter em mente que
todas as crianças aprendem usando o mesmo mecanismo básico – um que prefere atenção
focada em tarefas duplas, envolvimento ativo em palestras passivas, correção detalhada de

erros em elogios falsos e ensino explícito sobre construtivismo ou aprendizado por descoberta.
CURIOSIDADE E COMO ATIVAR
Todos os homens, por natureza, desejam saber.
Aristóteles, Metafísica (c. 335 aC)
Não tenho talento especial. Eu sou apenas apaixonadamente

curioso.
Albert Einstein (1952)
Um dos fundamentos do engajamento ativo é a curiosidade – o desejo de aprender ou

a sede de conhecimento. Despertar a curiosidade das crianças é metade da batalha.
Uma vez que sua atenção esteja mobilizada e sua mente em busca de uma explicação,
tudo o que resta a fazer é orientá-los. Começando no jardim de infância, os alunos mais
curiosos são também aqueles que se saem melhor em leitura e matemática.17 Manter as
crianças curiosas é, portanto, um dos fatores-chave para uma educação bem-sucedida.
Mas o que é exatamente curiosidade? A que necessidade darwiniana ela responde, e a que
tipo de algoritmo ela corresponde?
Rousseau escreveu em Emílio, ou Sobre a Educação: “Só somos curiosos na
medida em que somos educados”. Aqui, novamente, ele estava errado: a curiosidade não é um
efeito de instrução, uma função que devemos adquirir. Já está presente desde cedo e é parte
integrante
do nosso circuito cerebral humano, um ingrediente chave do nosso algoritmo

de aprendizagem. Não esperamos passivamente que novas informações cheguem
até nós – como fazem, tolamente, a maioria das redes neurais artificiais atuais, que
são simples funções de entrada-saída submetidas passivamente ao seu ambiente.
Como observou Aristóteles, nós, humanos, nascemos com uma paixão por
conhecer e buscamos constantemente novidades, explorando ativamente nosso
ambiente para descobrir coisas que podemos aprender.
A curiosidade é um impulso fundamental do organismo: um impulso propulsor
força que nos impele a agir, assim como a fome, a sede, a necessidade de
segurança ou o desejo de reproduzir. Que papel desempenha na sobrevivência?
É do interesse da maioria das espécies animais (mamíferos, mas também muitas
aves e peixes) explorar o seu ambiente para melhor o monitorizar. Seria arriscado
montar um ninho, covil, toca, toca, buraco ou casa sem verificar os arredores. Em
um universo instável povoado por predadores, a curiosidade pode fazer toda a
diferença entre a vida e a morte – e é por isso que a maioria dos animais faz visitas
regulares de segurança ao seu território, verificando cuidadosamente qualquer coisa
incomum e investigando novos sons ou visões. . . . A curiosidade é a determinação
que tira os animais de suas zonas de conforto para adquirir conhecimento. Em um
mundo incerto, o valor da informação é alto e, em última análise, deve ser pago na
própria moeda de Darwin: a sobrevivência.
A curiosidade é, portanto, uma força que nos estimula a explorar.

Nessa perspectiva, assemelha-se ao impulso por comida ou parceiros sexuais,
exceto que é motivado por um valor intangível: a aquisição de informações.
De fato, estudos neurobiológicos mostram que, em nossos cérebros, a descoberta
de informações anteriormente desconhecidas traz sua própria recompensa: ativa
o circuito da dopamina. Lembre-se, este é o circuito que dispara em resposta à
comida, drogas e sexo. Em primatas, e provavelmente em todos os mamíferos,
esse circuito responde não apenas a recompensas materiais, mas também a novas
informações. Alguns neurônios dopaminérgicos sinalizam um ganho futuro de
informações, como se a antecipação de novas informações trouxesse sua própria
gratificação . que contêm novos objetos e, assim, satisfazem sua curiosidade, em
oposição a lugares monótonos onde nada acontece.19 Não agimos de forma
diferente quando
nos mudamos para uma cidade grande para uma mudança de cenário ou quando,
ansiosos pelas últimas fofocas, percorremos freneticamente o Facebook ou o Twitter.
O apetite humano pelo conhecimento passa pelo circuito da dopamina mesmo
quando envolve uma curiosidade puramente intelectual. Imagine se deitar em uma
ressonância magnética e ouvir perguntas do Trivial Pursuit, como: “Quem era o presidente
dos Estados Unidos quando o Tio Sam fez a barba pela primeira vez?”20 Para cada
pergunta, antes de satisfazer sua curiosidade, o pesquisador pergunta o quanto você está
ansioso para saber a resposta. Quais são os correlatos neuronais desse sentimento
subjetivo de ser curioso? O grau de curiosidade que você relata se correlaciona fortemente
com a atividade do núcleo accumbens e da área tegmental ventral, duas regiões
essenciais do circuito cerebral da dopamina.
Quanto mais curioso você for, mais essas regiões se iluminarão. Seus sinais surgem
em antecipação à resposta: antes mesmo que sua curiosidade seja satisfeita, o
simples fato de saber que em breve você saberá a resposta excita seus circuitos
dopaminérgicos. A expectativa de um evento positivo traz sua própria recompensa.
Esses sinais de curiosidade são obviamente úteis, porque predizem o

quanto você aprende. Memória e curiosidade estão ligadas – quanto mais curioso você
estiver sobre algo, maior a probabilidade de se lembrar dele. A curiosidade até se
transfere para eventos próximos: quando sua curiosidade aumenta, você se lembra de
detalhes incidentais, como o rosto de um transeunte ou a pessoa que lhe ensinou a
informação que você estava tão ansioso para aprender. O grau de desejo por conhecimento
controla a força da memória.
Através do circuito da dopamina, a satisfação do nosso apetite

aprender — ou mesmo a mera antecipação dessa satisfação — é profundamente
gratificante. A aprendizagem possui valor intrínseco para o sistema nervoso. O
que chamamos de curiosidade nada mais é do que a exploração desse valor. Como
tal, nossa espécie é provavelmente especial por causa de sua capacidade incomparável
de aprender. À medida que a hominização progrediu, nossa capacidade de representar
o mundo progrediu. Somos os únicos animais que formulam teorias formais do mundo
em uma linguagem de pensamento. A ciência se tornou nosso nicho ecológico: o
Homo sapiens é a única espécie sem habitat específico, porque aprendemos a nos
adaptar a qualquer ambiente.
Espelhando a extraordinária expansão de nossas habilidades de aprendizado,

a curiosidade humana parece ter aumentado dez vezes. Ao longo
da nossa evolução, adquirimos uma forma estendida de curiosidade, chamada

“curiosidade epistêmica”: o puro desejo de conhecimento em todos os campos,
inclusive os mais abstratos. Como outros mamíferos, brincamos e exploramos
– não apenas por meio de movimentos reais, mas também por meio de
experimentos mentais. Enquanto outros animais visitam o espaço ao seu redor,
nós exploramos mundos conceituais. Nossa espécie também experimenta
emoções epistêmicas específicas que guiam nossa sede de conhecimento.
Regozijamo-nos, por exemplo, na simetria e na beleza pura dos padrões
matemáticos: um teorema inteligente pode nos comover muito mais do que um
pedaço de chocolate.
A alegria parece ser uma daquelas emoções exclusivamente humanas que
orientar o aprendizado. Nosso cérebro desencadeia uma reação de
alegria quando de repente descobrimos que uma de nossas suposições
implícitas está errada, forçando-nos a revisar drasticamente nosso modelo
mental. De acordo com o filósofo Dan Dennett, a hilaridade é uma resposta
social contagiosa que se espalha à medida que chamamos a atenção uns dos
outros para uma informação inesperada.21 E, de fato, todas as coisas sendo
iguais, rir durante o aprendizado parece aumentar a curiosidade e melhorar a
memória subsequente. 22
QUER SABER: A FONTE DA MOTIVAÇÃO
Vários psicólogos tentaram especificar o algoritmo subjacente à

curiosidade humana. De fato, se entendêssemos melhor, talvez pudéssemos
controlar esse ingrediente essencial de nosso esquema de aprendizado e até
reproduzi-lo em uma máquina que acabaria imitando o desempenho da
espécie humana: um robô curioso.
Essa abordagem algorítmica está começando a dar frutos. Os

maiores psicólogos, de William James a Jean Piaget e Donald Hebb,
especularam sobre a natureza das operações mentais subjacentes à
curiosidade. Segundo eles, a curiosidade é a manifestação direta da motivação
das crianças para entender o mundo e construir um modelo dele.23 A curiosidade
ocorre sempre que nosso cérebro detecta uma lacuna entre o que já sabemos e
o que gostaríamos de saber – uma área potencial de aprendizagem. A cada
momento, escolhemos, entre as várias ações que nos são acessíveis, aquelas
que têm maior probabilidade de reduzir essa lacuna de conhecimento e
adquirir informações úteis. De acordo com essa teoria, a curiosidade se

assemelha a um sistema cibernético que regula o aprendizado, semelhante
ao famoso regulador Watt, que abre ou fecha a válvula de aceleração de uma
máquina a vapor para regular a pressão do vapor e manter uma velocidade
fixa. A curiosidade seria o governador do cérebro, um regulador que busca
manter uma certa pressão de aprendizado. A curiosidade nos guia para o que
achamos que podemos aprender. Seu oposto, o tédio, nos afasta do que já
sabemos, ou de áreas que, de acordo com nossa experiência passada,
dificilmente terão algo a nos ensinar.
Essa teoria explica por que a curiosidade não está diretamente
relacionada ao grau de surpresa ou novidade, mas segue uma curva de
sino.24 Não temos curiosidade pelo não surpreendente — coisas que já
vimos milhares de vezes são chatas. Mas também não somos atraídos por
coisas que são muito novas ou surpreendentes, ou tão confusas que sua
estrutura nos escapa – sua própria complexidade nos desencoraja. Entre o
tédio do simples demais e a repulsa do complexo demais, nossa curiosidade
naturalmente nos direciona para campos novos e acessíveis.
Mas essa atração continua mudando. À medida que os dominamos, os
objetos que antes pareciam atraentes perdem seu apelo e redirecionamos
nossa curiosidade para novos desafios. É por isso que os bebês inicialmente
parecem tão apaixonados pelas coisas mais triviais: agarrar os dedos dos
pés, fechar os olhos, brincar de esconde-esconde. . . . Tudo é novo para eles
e é uma fonte potencial de aprendizado. Uma vez que espremem todo o
conhecimento que pode ser obtido com esses experimentos, eles perdem o
interesse - exatamente pela mesma razão que nenhum cientista reproduz
mais os experimentos de Galileu: o que é conhecido torna-se chato.
O mesmo algoritmo também explica por que às vezes nos afastamos
de uma área que antes parecia atraente, mas provou ser muito difícil.
Nosso cérebro avalia a velocidade do aprendizado e a curiosidade é desligada
se nosso cérebro detecta que não estamos progredindo rápido o suficiente.
Todos sabemos de crianças que, digamos, voltam de um concerto
apaixonadas pelo violino. . . apenas para desistir depois de algumas semanas,
quando percebem que o domínio do instrumento não é fácil. Aqueles que
continuam tocando ou estabelecem objetivos mais modestos (por exemplo,
tocar um pouco melhor a cada dia) ou, se realmente pretendem se tornar
músicos profissionais, sustentam sua motivação por meio de apoio parental
e social e lembretes constantes de seus objetivos de longo prazo.
Dois engenheiros franceses, Frédéric Kaplan e Pierre-Yves Oudeyer,

implementaram a curiosidade em um robô.25 Seu algoritmo inclui vários módulos. O
primeiro é um sistema clássico de aprendizado artificial que tenta constantemente
prever o estado do mundo exterior. O segundo módulo, mais inovador, avalia o
desempenho do primeiro: mede a velocidade de aprendizado recente e a utiliza para
prever as áreas em que o robô aprenderá mais.
O terceiro ingrediente é um circuito de recompensas que valoriza mais as ações

previstas para levar a um aprendizado mais eficiente. Como resultado, o sistema
naturalmente se concentra nas áreas em que acredita que vai aprender mais, que é a
própria definição de curiosidade, de acordo com Kaplan e Oudeyer.
Quando seu robô curioso, equipado com esse algoritmo, é colocado em um

tapete de bebê, ele se comporta exatamente como uma criança pequena. Por
alguns minutos, ele fica entusiasmado com um objeto em particular e passa todo o
tempo, por exemplo, levantando repetidamente uma orelha de elefante empalhada.
À medida que aprende progressivamente tudo o que há para saber sobre um item, sua
curiosidade diminui. Em um ponto, ele se afasta e busca ativamente outra fonte de
estimulação. Depois de uma hora, ele para de explorar o tapete: uma forma digital de
tédio se instala quando o robô passa a acreditar que tudo o que poderia ser aprendido
agora é conhecido.
A analogia com uma criança pequena é impressionante. Mesmo bebês alguns

Meses de idade se orientam para estímulos de complexidade intermediária,
nem muito simples nem muito complexos, mas cuja estrutura é adequada para
ser rapidamente aprendida. (Esse traço de curiosidade dos bebês tem sido
descrito como o “efeito Cachinhos Dourados”.26) Para maximizar o que eles aprendem,
temos que enriquecer constantemente seu ambiente com novos objetos que sejam
estimulantes o suficiente para não serem desencorajadores. É responsabilidade dos
adultos dotá-los de uma hierarquia pedagógica bem desenhada que os leve
progressivamente ao topo, estimulando constantemente sua busca pelo conhecimento
e pela novidade.
A curiosidade é um ingrediente essencial do nosso algoritmo de aprendizado, que está apenas começando
a ser reproduzido em máquinas. Aqui, um pequeno robô explora um tapete de brincar. A curiosidade é
implementada por uma função de recompensa que favorece a escolha de qualquer ação que maximize o
potencial de aprendizado. Como consequência, o robô experimenta sucessivamente cada brinquedo no
tapete e cada ação à sua disposição. Uma vez que domina um aspecto do mundo, perde o interesse e
redireciona sua atenção para outro lugar.
Essa visão de curiosidade leva a uma previsão interessante. Isso

implica que, para que as crianças sejam curiosas, elas devem estar cientes
do que ainda não sabem. Em outras palavras, eles devem possuir
faculdades metacognitivas em uma idade precoce. “Metacognição” é
cognição sobre cognição: o conjunto de sistemas cognitivos de ordem superior que

monitoram nossos processos mentais. De acordo com a teoria das lacunas da
curiosidade, os sistemas metacognitivos devem supervisionar constantemente
nosso aprendizado, avaliando o que sabemos e não sabemos, se estamos errados
ou não, se somos rápidos ou lentos, e assim por diante – a metacognição abrange
tudo sabemos sobre nossas próprias mentes.
A metacognição desempenha um papel fundamental na curiosidade.

De fato, ser curioso é querer saber, e isso implica saber o que você ainda não
sabe. E mais uma vez, experimentos recentes confirmam que a partir de um ano
de idade e talvez até antes, as crianças entendem que há coisas que elas não
sabem . . Saber que eles não sabem os leva a pedir mais informações. Esta é a
manifestação inicial da curiosidade epistêmica: o desejo irresistível de saber.
TRÊS MANEIRAS QUE A ESCOLA PODE MATAR A CURIOSIDADE
Todos os pais são nostálgicos pelos dias em que seus filhos estavam cheios de
curiosidade. Entre os dois e os cinco anos, as crianças têm curiosidade sobre tudo.
Sua palavra favorita é muitas vezes o porquê: eles nunca param de experimentar o
mundo e questionar os adultos para saciar sua sede de conhecimento.
Surpreendentemente, porém, esse apetite, que parece insaciável, acaba se
extinguindo, muitas vezes depois de alguns anos de escola. Algumas crianças
permanecem curiosas sobre tudo, mas muitas se fecham para tal intriga. Seu
engajamento ativo se transforma em uma passividade maçante. A ciência da
curiosidade pode explicar por quê? Ainda não temos todas as respostas, mas
gostaria de propor algumas hipóteses.
Primeiro, as crianças podem perder a curiosidade porque não têm

estimulação cognitiva adaptada às suas necessidades. De acordo com o
algoritmo que acabamos de descrever, é perfeitamente normal que a curiosidade
diminua com o tempo. À medida que o aprendizado progride, o ganho de aprendizado
esperado diminui: quanto melhor dominamos um campo, mais alcançamos os limites
do que ele pode oferecer e menos interessados estamos nele. Para manter a
curiosidade, as escolas devem, portanto, fornecer continuamente aos cérebros
supercomputadores das crianças estimulantes que correspondam às suas necessidades.
inteligência. Isso não é sempre o caso. Em uma sala de aula padrão, os

alunos mais avançados geralmente carecem de estímulo: depois de alguns
meses, sua curiosidade diminui e eles não esperam mais muito da escola,
porque seu sistema metacognitivo aprendeu que, infelizmente, é improvável
que aprendam muito mais.
No outro extremo do espectro, os alunos que lutam na escola
podem definhar pelo motivo oposto. A metacognição continua sendo a
principal culpada: depois de um tempo, eles não têm mais motivos para
serem curiosos, porque aprenderam. . . que não conseguem aprender. Sua
experiência passada gravou uma regra simples (embora falsa) nas
profundezas de seus circuitos metacognitivos: sou incapaz de aprender tal e
tal tópico (matemática, leitura, história, seja o que for). Tal desânimo não é
incomum: muitas meninas se convencem de que a matemática não é para
elas,28 e as crianças de bairros desfavorecidos às vezes chegam a acreditar
que a escola é hostil para elas e não ensina nada de útil para o seu futuro.
Tais julgamentos metacognitivos são desastrosos porque desmotivam os
alunos e cortam sua curiosidade pela raiz.
A solução é aumentar a confiança dessas crianças, passo a passo,

mostrando-lhes que são perfeitamente capazes de aprender, desde que
os problemas sejam adaptados ao seu nível, e que aprender traz sua própria
recompensa. A teoria da curiosidade diz que quando as crianças estão
desencorajadas, estejam muito adiantadas ou atrasadas na escola, o que
mais importa é restaurar seu desejo de aprender, oferecendo-lhes problemas
estimulantes cuidadosamente adaptados ao seu nível atual. Primeiro, eles
redescobrem o prazer de aprender algo novo – e então, lentamente, seu
sistema metacognitivo aprende que eles podem aprender, o que coloca sua
curiosidade de volta nos trilhos.
Outro cenário que pode levar a criança a perder o interesse é
quando a curiosidade é punida. O apetite de uma criança pela descoberta
pode ser arruinado por uma estratégia pedagógica excessivamente rígida.
Ensinar por meio de palestras tradicionais tende a desencorajar as crianças
de participar ou mesmo de pensar. Pode convencer as crianças de que elas
estão simplesmente sendo convidadas a se sentarem e permanecerem
quietas até o final da aula. A interpretação neurofisiológica dessa situação é
simples: dentro do circuito da dopamina, os sinais de recompensa induzidos
pela curiosidade e sua satisfação competem com recompensas e punições externas. Isto
é, portanto, possível desencorajar a curiosidade punindo cada tentativa de exploração.

Imagine uma criança que tenta repetidamente participar e é sistematicamente repreendida,
ridicularizada ou punida: “Pergunta boba. É melhor você ficar quieto ou vai ficar mais meia
hora depois da escola. . . .” Essa criança aprende rapidamente a inibir sua curiosidade e a
parar de participar da aula: a recompensa baseada na curiosidade que o sistema de
dopamina espera – o prazer de aprender algo novo – é amplamente combatida pelos sinais
negativos diretos que o mesmo circuito recebe. A punição repetida leva ao desamparo
aprendido, uma espécie de paralisia física e mental associada ao estresse e à ansiedade,
que demonstrou inibir o aprendizado em animais.29 A solução? A maioria dos professores
já sabe disso. É simplesmente uma questão de recompensar a curiosidade em vez de puni-
la: encorajar perguntas (por mais imperfeitas que sejam), pedir às crianças que façam
apresentações sobre assuntos que amam, recompensando-as pela iniciativa. . . . A neurociência
da motivação é extremamente clara: o desejo de realizar a ação X deve estar associado a
uma recompensa esperada, seja ela material (comida, conforto, apoio social) ou cognitiva
(aquisição de informações). Muitas crianças perdem toda a curiosidade porque aprendem, às
suas próprias custas, a não esperar recompensa da escola. (As notas, que chegarei em breve,
muitas vezes contribuem para esse triste estado de coisas.)
O terceiro fator que pode desestimular a curiosidade é a transmissão social do

conhecimento. Lembre-se que dois modos de aprendizagem coexistem na espécie humana: o
modo ativo, onde as crianças constantemente experimentam e se questionam como bons
cientistas iniciantes, e o modo receptivo, onde simplesmente registram o que os outros lhes
ensinam. A escola muitas vezes incentiva apenas o segundo modo — e pode até desencorajar
o primeiro, se as crianças presumirem que os professores sempre sabem tudo melhor do que
os alunos.
A atitude de um professor pode realmente matar a curiosidade natural de uma criança?30

Infelizmente, experimentos recentes sugerem que a resposta é sim. Em seu laboratório de
cognição infantil no MIT, a psicóloga do desenvolvimento americana Laura Schulz apresenta
aos alunos do jardim de infância uma engenhoca estranha: um conjunto de tubos de plástico
escondidos em vários lugares que contêm todos os tipos de brinquedos inesperados, como
um espelho, uma buzina, um jogo com luzes , e uma caixa de música. Quando você dá tal
gadget para
crianças sem dizer nada, você imediatamente desperta a curiosidade

delas: elas exploram, vasculham, vasculham e bisbilhotam até
encontrarem a maioria das recompensas escondidas. Agora, pegue
um novo grupo de alunos do jardim de infância e coloque-os no modo
pedagógico passivo e receptivo. Tudo o que você precisa fazer é
entregar o objeto e dizer: “Olha, deixe-me mostrar meu brinquedo. Isto é
o que ele faz. . .” e depois tocar a caixa de música, por exemplo. Pode-se
pensar que isso estimularia a curiosidade das crianças. . . mas tem o
efeito oposto: a exploração diminui massivamente após esse tipo de
introdução. As crianças parecem fazer a suposição (muitas vezes correta)
de que o professor está tentando ajudá-las o máximo possível e que,
portanto, ele as apresentou a todas as funções interessantes do
dispositivo. Nesse contexto, não há necessidade de pesquisar: a
curiosidade é inibida.
Outras experiências mostram que as crianças levam em conta o
comportamento passado do professor. Quando um professor sempre
faz demonstrações exaustivas, os alunos perdem a curiosidade. Se o
professor demonstra uma das funções de um brinquedo novo, as
crianças não exploram todas as suas facetas, pois pensam que o
professor já explicou tudo o que há para saber. Se, ao contrário, o
professor evidencia que nem sempre sabe tudo, as crianças continuam
procurando.
Então, qual é a abordagem certa? Sugiro manter sempre o
conceito de engajamento ativo em mente. Envolver ao máximo a
inteligência de uma criança significa constantemente alimentá-la com
perguntas e comentários que estimulam sua imaginação e a fazem
querer ir mais fundo. Estaria fora de questão deixar os alunos descobrirem
tudo por si mesmos – isso seria cair na armadilha da aprendizagem
baseada na descoberta. O cenário ideal é oferecer a orientação de uma
pedagogia estruturada e estimular a criatividade das crianças, fazendo-as
saber que ainda há mil coisas para descobrir. Lembro-me de um professor
que, pouco antes das férias de verão, me disse: “Sabe, acabei de ler um
pequeno problema de matemática que não consegui resolver. . . .” E foi
assim que me vi ruminando sobre essa questão durante todo o verão,
tentando fazer melhor do que o professor podia. . . .
Reunir o envolvimento ativo das crianças anda de mãos dadas

com outra necessidade: tolerar seus erros enquanto rapidamente
corrigindo-os. Este é o nosso terceiro pilar de aprendizagem.

CAPÍTULO 9
Comentários de erro
Todos devem aprender a cometer erros alegremente. . . .

Pensar é passar de um erro a outro.
Alain, Propos sur l'éducation (1932)
O único homem que nunca comete um erro é o homem que

nunca faz nada.
Atribuído a Theodore Roosevelt (1900)
Em 1940, o jovem Alexander Grothendieck (1928-2014) tinha

apenas onze ou doze anos. Ele não sabia que se tornaria um dos
matemáticos mais influentes do século XX, que inspiraria toda uma
geração. (Suas ideias revolucionárias desempenharam um papel
importante na fundação, em 1958, do famoso Institut des Hautes Études
Scientifiques, na França, que rendeu mais de uma dúzia de vencedores
da Medalha Fields.) Mas o jovem Alexander já fazia matemática. . .
com sucesso moderado. Aqui está um trecho de suas memórias:
Por volta dos onze ou doze anos,

enquanto estava detido no campo de
concentração de Rieucros (perto de
Mende), descobri os jogos de traçar a
bússola. Fiquei particularmente emocionado
com as rosetas de seis ramificações que
se obtém ao dividir um círculo em seis
partes iguais girando uma bússola seis vezes ao redor da
circunferência e retornando ao ponto inicial.
ponto. Essa observação experimental me convenceu de que o

comprimento da circunferência era exatamente seis vezes o do raio.
Quando mais tarde. . . Vi em um livro que a relação era
para ser bem mais complicada, que tínhamos L = 2 ÿ R com ÿ =
3,14 . . . , eu estava convencido de que o livro estava
seuserrado,
autoresque
...
deve ter ignorado este exercício de rastreamento muito simples que
mostrou claramente que ÿ = 3.
A confiança que uma criança pode ter em seu próprio

discernimento, confiando em suas próprias faculdades em vez de
dar como certo as coisas que aprende na escola ou lê em um livro
didático, é uma coisa preciosa. No entanto, essa confiança é
constantemente desencorajada.
Muitos verão na experiência que acabei de relatar o exemplo
de uma impetuosidade infantil que depois teve que se curvar diante
do conhecimento recebido – toda a situação beirando o ridículo. Ao
vivenciar esse episódio, no entanto, não houve nenhum sentimento
de decepção ou ridículo, mas apenas a sensação de ter feito uma
descoberta genuína. . . : o de um erro.1
Que confissão extraordinária, e que lição de humildade, quando um

dos maiores matemáticos do mundo admite ter cometido o erro colossal de
acreditar que pi é igual a três. . . .
No entanto, Grothendieck estava certo sobre uma coisa: o papel fundamental
dos erros na aprendizagem. Cometer erros é a maneira mais natural de
aprender. Os dois termos são praticamente sinônimos, porque cada erro oferece
uma oportunidade de aprender.
The Shadoks, um desenho animado francês que era popular quando eu era
criança, caprichosamente elevou esse conceito à categoria de princípio geral:
“Só tentando continuamente você acaba tendo sucesso. . . .
Em outras palavras, quanto mais você falha, maior a probabilidade de
ter sucesso!” E com perfeita lógica, já que o foguete que eles estavam tentando
lançar tinha apenas uma chance em um milhão de decolar, os Shadoks correram
apressadamente as primeiras 999.999 falhas para finalmente alcançar o
sucesso. . . .
Humor à parte, seria praticamente impossível progredir se não partíssemos
do fracasso. Os erros sempre retrocedem enquanto nós
receber feedback que nos diz como melhorar. É por isso que o feedback
de erro é o terceiro pilar do aprendizado e um dos parâmetros educacionais
mais influentes: a qualidade e a precisão do feedback que recebemos
determina a rapidez com que aprendemos.2
SURPRESA: A FORÇA MOTORA DA APRENDIZAGEM
Você se lembra dos algoritmos de aprendizado que discutimos no primeiro

capítulo, que permitiam a um caçador ajustar seu visor ou uma rede neural
artificial para ajustar seus pesos ocultos? A ideia é simples: você primeiro
tenta, mesmo que isso signifique falhar, e o tamanho e a direção do seu
erro lhe dizem como melhorar na próxima tentativa.
Assim, o caçador mira, atira, avalia o quanto errou o alvo e usa esse feedback
de erro para ajustar seu próximo tiro. É assim que os atiradores ajustam seus
rifles – e como, em uma escala maior, as redes neurais artificiais ajustam os
milhões de parâmetros que definem seus modelos internos do mundo exterior.
O cérebro funciona da mesma maneira? Já na década de 1970, os dados

começaram a acumular-se a favor desta hipótese. Dois pesquisadores
americanos, Robert Rescorla e Allan Wagner, formularam a seguinte
hipótese: o cérebro só aprende se perceber uma lacuna entre o que prevê
e o que recebe. Nenhum aprendizado é possível sem um sinal de erro: “Os
organismos só aprendem quando os eventos violam suas expectativas.”3
Em outras palavras, a surpresa é um dos motores fundamentais do
aprendizado.
A teoria de Rescorla-Wagner explica bem os detalhes de um
paradigma de aprendizagem chamado “condicionamento clássico”. Todo
mundo já ouviu falar do cachorro de Pavlov. Em experimentos de
condicionamento pavlovianos, um cão ouve um sino, que é um estímulo
inicialmente neutro e ineficiente. Após repetidos emparelhamentos com
alimentos, no entanto, o mesmo sino acaba desencadeando um reflexo
condicionado. O cão saliva sempre que ouve a campainha, pois aprendeu que
esse som precede sistematicamente a chegada da comida. Como a teoria
explica essas descobertas? A regra de Rescorla-Wagner pressupõe que o
cérebro usa entradas sensoriais (as sensações geradas pelo sino) para prever
a probabilidade de um estímulo subsequente (comida). Funciona assim:
O cérebro gera uma previsão calculando uma soma ponderada de

suas entradas sensoriais.
Em seguida, calcula a diferença entre essa previsão e o estímulo real
que recebe: esse é o erro de previsão, conceito fundamental da
teoria, que mede o grau de surpresa associado a cada estímulo.
O cérebro então usa esse sinal surpresa para corrigir sua representação
interna: o modelo interno muda em proporção direta tanto à força do
estímulo quanto ao valor do erro de previsão. A regra é tal que garante
que a próxima previsão será mais próxima da realidade.
Esta teoria já contém todas as sementes dos nossos três pilares da

aprendizagem: a aprendizagem ocorre apenas se o cérebro seleciona as
entradas sensoriais apropriadas (atenção), usa-as para produzir uma
previsão (engajamento ativo) e avalia a precisão da previsão (feedback de
erro).
A equação que Rescorla e Wagner introduziram em 1972 foi
notavelmente presciente. É praticamente idêntica à “regra delta” que mais
tarde foi usada em redes neurais artificiais – e ambas são versões
simplificadas da regra de retropropagação de erro, que agora é usada em
praticamente todos os sistemas de aprendizado supervisionado atuais (onde
a rede recebe feedback explícito sobre a resposta que deveria ter produzido).
Além disso, no aprendizado de máquina baseado em recompensas (onde a
rede é apenas informada de quão errada está), uma equação semelhante
ainda pode ser usada: a rede prevê a recompensa e a diferença entre essa
previsão e a recompensa real é o que é usado para atualizar a representação
interna.
Podemos, portanto, afirmar que as máquinas de aprendizado
baseadas em silício de hoje contam com equações inspiradas diretamente
na neurociência. Como vimos acima, o cérebro humano vai ainda mais
longe: para extrair o máximo de informação possível de cada episódio de
aprendizagem, utiliza uma linguagem de pensamento e modelos estatísticos
muito mais refinados do que os das redes neurais atuais. No entanto, a ideia
básica de Rescorla e Wagner permanece correta: o cérebro tenta prever as
entradas que recebe e ajusta essas previsões de acordo com o grau de
surpresa, improbabilidade ou erro. Aprender é reduzir o imprevisível.
A teoria de Rescorla e Wagner teve um impacto considerável porque

representou um grande avanço em relação às teorias anteriores baseadas no
conceito de aprendizagem associativa. No passado, a crença comum era que o
cérebro simplesmente aprendia a associar o som de um sino com comida, em vez
de prever um do outro.
De acordo com essa visão associacionista, o cérebro registra todas as
coincidências entre estímulos e respostas de forma puramente passiva. No
entanto, mesmo para o condicionamento pavloviano, essa visão é
comprovadamente falsa.4 Mesmo o cérebro de um cão não é um órgão passivo
que simplesmente absorve associações. A aprendizagem é ativa e depende do
grau de surpresa vinculado à violação de nossas expectativas.
O bloqueio para frente fornece uma das refutações mais espetaculares
da visão associacionista.5 Em experimentos de bloqueio, um animal recebe duas
pistas sensoriais, digamos, um sino e uma luz, ambas predizendo a chegada
iminente de comida. O truque é apresentá-los sequencialmente. Começamos pela
luz: o animal aprende que sempre que a luz está acesa, ela prevê a chegada do
alimento. Só então introduzimos testes duplos em que tanto a luz quanto o sino
predizem comida.
Finalmente, testamos o efeito do sino sozinho. Surpresa: não tem nenhum efeito!
Ao ouvir o sino, o animal não saliva; parece totalmente alheio à associação repetida
entre o sino e a recompensa alimentar. O que aconteceu? A descoberta é
incompatível com o associacionismo, mas se encaixa perfeitamente na teoria de
Rescorla-Wagner. A ideia chave é que a aquisição da primeira associação (luz e
comida) bloqueou a segunda (campainha e comida). Por quê?
Porque a previsão baseada apenas na luz é suficiente para explicar tudo. O

animal já sabe que a luz prediz a comida, então seu cérebro não gera nenhum
erro de predição durante a segunda parte do teste, onde a luz e o sino juntos
predizem a comida. Erro zero, aprendizado zero – e, portanto, o cão não adquire
nenhum conhecimento da associação entre o som e a comida. Qualquer regra que
seja aprendida primeiro bloqueia o aprendizado da segunda.
Este experimento de bloqueio para frente demonstra claramente que

a aprendizagem não funciona por associação. Afinal, o emparelhamento
sino-comida foi repetido centenas de vezes, mas não conseguiu induzir qualquer
aprendizado. O experimento também mostra que nenhum aprendizado ocorre na
ausência de surpresa: um erro de previsão é essencial para o aprendizado - pelo menos
menos em cães. E evidências crescentes sugerem que sistemas de erro de

previsão estão presentes nos cérebros de todos os tipos de espécies.
É importante notar que o sinal de erro de que estamos falando
é um sinal interno que viaja no cérebro. Não precisamos cometer um erro
real para aprender - tudo o que precisamos é uma discrepância entre o que
esperávamos e o que obtivemos. Considere uma simples escolha binária –
digamos, se o segundo nome de Pablo Picasso é Diego ou Rodrigo. Suponha
que eu tenha a sorte de arriscar um palpite correto na primeira tentativa (dizendo
Diego – seu nome completo é na verdade Pablo Diego José Francisco de Paula
Juan Nepomuceno María de los Remedios Cipriano de la Santísima Trinidad
Ruiz y Picasso!).
Eu aprendo alguma coisa? É claro. Mesmo que eu tenha respondido
corretamente na primeira tentativa, minha confiança estava baixa. Só por acaso,
eu tinha apenas cinquenta por cento de chance de estar certo. Como eu não
tinha certeza, o feedback que recebi forneceu novas informações: ele me garantiu
que minha resposta escolhida aleatoriamente estava 100% certa.
De acordo com a regra de Rescorla-Wagner, essa nova informação gera
um sinal de erro que mede a diferença entre o que eu previ (50% de chance
de estar certo) e o que sei agora (100% de certeza de saber a resposta
certa). No meu cérebro, esse sinal de erro se espalha e atualiza meu
conhecimento, aumentando assim minhas chances de responder “Diego” na
próxima vez que me perguntarem. Seria errado, portanto, acreditar que o que
importa para o aprendizado é cometer muitos erros, como os Shadoks falharem
apressadamente em seus primeiros 999.999 lançamentos de foguetes! O que
importa é receber feedback explícito que reduz a incerteza do aluno.
Sem surpresa, sem aprendizado: essa regra básica agora parece ter
sido validada em todos os tipos de organismos – incluindo crianças pequenas.
Lembre-se de que a surpresa é um dos indicadores básicos das habilidades
iniciais dos bebês: eles encaram por mais tempo qualquer tela que magicamente
os apresente eventos surpreendentes que violam as leis da física, aritmética,
probabilidade ou psicologia (veja a figura nesta página e a figura 5 ). no encarte
colorido). Mas as crianças não ficam apenas olhando toda vez que são
surpreendidas: elas aprendem de maneira demonstrável.
Para chegar a essa conclusão, a psicóloga americana Lisa
Feigenson realizou uma série de experimentos mostrando que sempre
que as crianças percebem um evento como impossível ou improvável, o
aprendizado é desencadeado.6 Por exemplo, quando os bebês veem um objeto
passando misteriosamente por uma parede, eles encaram essa cena

impossível. . . e posteriormente lembrar melhor o som que o objeto fez,
ou mesmo o verbo que um adulto usou para descrever a ação (“Olha, eu
acabei de bleek do brinquedo.”). Se dermos esse objeto aos bebês, eles
brincarão com ele por muito mais tempo do que com um brinquedo
semelhante que não violasse as leis da física. Seu comportamento
aparentemente brincalhão na verdade mostra que eles estão tentando
ativamente entender o que aconteceu. Como cientistas no berço, eles
realizam experimentos na tentativa de replicar o que viram. Por exemplo, se
o objeto acabou de passar por uma parede, eles batem nele, como se
quisessem testar sua solidez; ao passo que, se o viram violar as leis da
gravidade e permanecer misteriosamente suspenso no ar, fazem-no cair de
uma mesa, como que para verificar seus poderes de levitação. Em outras
palavras, a natureza da cena imprevisível que eles observam determina
como eles agem posteriormente para ajustar suas hipóteses. Isso é
exatamente o que a teoria da retropropagação do erro prevê: todo evento
inesperado leva ao ajuste correspondente do modelo interno do mundo.
Todos esses fenômenos foram documentados em onze meses
bebês velhos, mas eles provavelmente estão presentes em uma idade muito mais precoce.
O aprendizado por correção de erros é universalmente difundido no
mundo animal, e há todas as razões para acreditar que os sinais de erro
governam o aprendizado desde o início da vida.
O CÉREBRO CHEGA DE MENSAGENS DE ERRO
Os sinais de erro desempenham um papel tão fundamental no aprendizado

que virtualmente todas as áreas do cérebro podem transmitir mensagens de
erro (veja a figura 17 na inserção colorida).7 Comecemos com um exemplo
elementar: imagine ouvir uma série de notas idênticas, AAAA A. Cada nota
provoca uma resposta nas áreas auditivas do seu cérebro – mas à medida
que as notas se repetem, essas respostas diminuem progressivamente. Isso
é chamado de “adaptação”, um fenômeno aparentemente simples que
mostra que seu cérebro está aprendendo a prever o próximo evento. De
repente, a nota muda: AAAAA#. Seu córtex auditivo primário mostra
imediatamente uma forte reação de surpresa: não apenas a adaptação
desaparece, mas neurônios adicionais começam a disparar vigorosamente
em resposta ao som inesperado. E não é apenas a repetição que leva à
adaptação: o que importa é se as notas são previsíveis. Por
Por exemplo, se você ouvir um conjunto alternado de notas, como

ABABA, seu cérebro se acostuma com essa alternância e a atividade
em suas áreas auditivas diminui novamente. Desta vez, porém, é uma
repetição inesperada, como ABABB, que desencadeia uma resposta
surpresa.8 O córtex auditivo parece realizar um cálculo simples: usa o
passado recente para prever o futuro. Assim que uma nota ou um
grupo de notas se repete, esta região conclui que continuará a fazê-lo
no futuro. Isso é útil porque evita que prestemos muita atenção a sinais
chatos e previsíveis. Qualquer som que se repete é esmagado no lado
de entrada, porque sua atividade de entrada é cancelada por uma
previsão precisa. Desde que o sinal sensorial de entrada corresponda à
previsão que o cérebro gera, a diferença é zero e nenhum sinal de erro é
propagado para regiões cerebrais de nível superior. A subtração da
previsão desativa as entradas de entrada, mas apenas enquanto elas
forem previsíveis. Qualquer som que viole as expectativas do nosso
cérebro, pelo contrário, é amplificado. Assim, o circuito simples do córtex
auditivo funciona como um filtro: transmite aos níveis superiores do córtex
apenas as informações surpreendentes e imprevisíveis que não podem
explicar por si só.
Qualquer entrada que uma região do cérebro não possa

explicar é, portanto, passada para o próximo nível, que então tenta
entendê-la. Podemos conceber o córtex como uma hierarquia maciça
de sistemas preditivos, cada um dos quais tenta explicar as entradas e
troca as mensagens de erro restantes com os outros, na esperança de
que possam fazer um trabalho melhor.
Por exemplo, ouvir a sequência CCG gera um sinal de erro de baixo
nível no córtex auditivo, pois o G final difere das notas anteriores.
Regiões de nível superior, no entanto, podem reconhecer toda a
sequência como uma melodia conhecida (o início de “Twinkle, Twinkle,
Little Star”). A surpresa causada pelo G final é, portanto, apenas
transitória: é rapidamente explicada por uma representação de nível
superior de toda a melodia, e o sinal de surpresa pára aí – o G, embora
novo, não gera nenhuma surpresa no córtex pré-frontal inferior , que
pode codificar frases musicais inteiras.
Por outro lado, a repetição do CCC pode ter o efeito contrário: por ser
monótono, não gera nenhum erro
sinal em áreas auditivas iniciais, mas cria surpresa em áreas de nível

superior que codificam para a melodia, que previa um aumento para G em
vez de outro C. Aqui, a surpresa é que não há surpresa!
Até os macacos, como nós humanos, possuem esses dois níveis de
processamento auditivo: o processamento local de notas individuais no
córtex auditivo e a representação global da melodia no córtex pré-frontal.9
Sinais de erro como esses parecem estar presentes em todos os região
do cérebro. Em todo o córtex, os neurônios se adaptam a eventos

repetidos e previsíveis e reagem com uma descarga aumentada sempre que
ocorre um evento surpreendente. A única coisa que muda de uma área do
cérebro para outra é o tipo de violação que pode ser detectada.
No córtex visual, a apresentação de uma imagem inesperada é o que
desencadeia uma onda de atividade.10 As áreas da linguagem, por sua
vez, reagem a palavras anormais dentro de uma frase. Tomemos, por
exemplo, a seguinte frase: “Prefiro comer com garfo e camelo”.
Seu cérebro acabou de gerar uma onda N400, um sinal de erro

evocada por uma palavra ou imagem incompatível com o contexto
anterior.11 Como o próprio nome sugere, trata-se de uma resposta
negativa que ocorre cerca de quatrocentos milissegundos após a anomalia
e surge de populações neuronais do córtex temporal esquerdo que são
sensíveis a Significado da palavra. Por outro lado, a área de Broca no córtex
pré-frontal inferior reage a erros de sintaxe, quando o cérebro prediz uma
determinada categoria de palavra e recebe outra,12 como na seguinte frase:
“Não hesite em tomar sua medicação sempre que sentir doente."
Desta vez, logo após a inesperada palavra “sempre que”, as áreas

de seu cérebro que se especializam em sintaxe emitiram uma onda
negativa imediatamente seguida por uma onda P600 — um pico positivo
que ocorre em torno de seiscentos milissegundos. Essa resposta indica que
seu cérebro detectou um erro gramatical e está tentando repará-lo.
O circuito cerebral no qual os sinais preditivos e de erro foram mais
bem demonstrados é o circuito de recompensa.13 A rede de dopamina
não apenas responde a recompensas reais, mas também as antecipa
constantemente. Neurônios dopaminérgicos localizados em um pequeno
núcleo de células chamado “área tegmental ventral” não respondem simplesmente a
os prazeres do sexo, comida ou bebida; eles realmente sinalizam a

diferença entre a recompensa esperada e aquela que foi obtida, ou seja,
o erro de previsão. Então, se um animal recebe uma recompensa sem
nenhum aviso, digamos, uma gota inesperada de água com açúcar, essa
surpresa agradável resulta em disparo neuronal. Mas se essa recompensa é
precedida por um sinal que a prevê, então o mesmo xarope doce não causa
mais nenhuma reação. Agora é o próprio sinal que causa uma onda de atividade
nos neurônios de dopamina: o aprendizado muda a resposta para mais perto
do sinal que prevê a recompensa.
Graças a esse mecanismo de aprendizado preditivo, sinais arbitrários
podem se tornar os portadores de recompensa e desencadear uma
resposta de dopamina. Esse efeito secundário de recompensa foi
demonstrado com dinheiro em humanos e com a mera visão de uma seringa em
viciados em drogas. Em ambos os casos, o cérebro antecipa recompensas
futuras. Como vimos no primeiro capítulo, esse sinal preditivo é extremamente
útil para o aprendizado, pois permite que o sistema se critique e preveja o
sucesso ou o fracasso de uma ação sem ter que esperar por confirmação
externa. É por isso que as arquiteturas de ator-crítico, nas quais uma rede neural
aprende a criticar as ações de outra, agora são universalmente usadas em
inteligência artificial para resolver os problemas mais complexos, como aprender
a jogar o jogo de Go.
Gerar uma previsão, detectar o próprio erro e corrigir-se são os próprios
fundamentos do aprendizado eficaz.
FEEDBACK DE ERRO NÃO É SINÔNIMO DE PUNIÇÃO
Muitas vezes me impressionou o fato de que os

professores de ciências, ainda mais do que outros
professores, não conseguem entender que seus alunos podem não entender.
Muito poucos deles mergulharam profundamente nos tópicos de
erro, ignorância e falta de consideração.
Gaston Bachelard, A Formação da Mente Científica (1938)
Como podemos aproveitar ao máximo os sinais de erro que nossos neurônios

trocam constantemente? Para que uma criança ou um adulto aprenda de
forma eficaz, seu ambiente (seja pais, escola, universidade... ou apenas um
videogame) deve fornecer feedback rápido e preciso.
O aprendizado é mais rápido e fácil quando os alunos recebem feedback

detalhado de erros que informa exatamente onde eles tropeçaram e o que
deveriam ter feito em vez disso. Ao fornecer feedback rápido e preciso
sobre os erros, os professores podem enriquecer consideravelmente as
informações disponíveis para seus alunos se corrigirem. Na inteligência
artificial, esse tipo de aprendizado, conhecido como “supervisionado”, é o
mais eficaz, pois permite que a máquina identifique rapidamente a fonte da
falha e se corrija.
É crucial entender, no entanto, que esse feedback de erro não tem
nada a ver com punição. Não punimos uma rede neural artificial; nós
simplesmente contamos sobre as respostas que ela errou. Fornecemos-lhe
um sinal maximamente informativo que o notifica, pouco a pouco, sobre a
natureza e o sinal dos seus erros.
A este respeito, a ciência da computação e a pedagogia realmente
concordam. De fato, as meta-análises conduzidas pelo especialista em
educação australiano John Hattie mostram claramente que a qualidade do
feedback que os alunos recebem é um dos determinantes de seu sucesso
acadêmico . dramatizar seus erros inevitáveis, são as chaves para o sucesso.
Bons professores já estão bem cientes dessas ideias. Todos os dias,

eles testemunham o ditado romano errare humanum est: errar é
humano. Com um olhar compassivo, eles olham com bondade para os
erros de seus alunos, porque percebem que ninguém aprende sem cometer
erros. Eles sabem que devem diagnosticar, o mais desapaixonadamente
possível, as áreas exatas de dificuldade de seus alunos e ajudá-los a
encontrar as melhores soluções. Com a experiência, esses professores
constroem um catálogo de erros, porque todos os alunos caem repetidamente
nas mesmas velhas armadilhas. Esses professores encontram as palavras
certas para consolar, tranquilizar e restaurar a autoconfiança de seus alunos,
ao mesmo tempo que lhes permitem corrigir suas representações mentais
errôneas. Eles estão aqui para dizer a verdade, não para julgar.
Claro, o mais racional de vocês pode dizer: “Não é estritamente
equivalente? Dizer aos alunos o que eles deveriam ter feito não é a mesma
coisa que dizer a eles que eles estavam errados?” Bem, não exatamente.
De um ponto de vista puramente lógico, claro: se uma pergunta tem apenas
duas respostas possíveis, A ou B, e o aluno escolhe A erradamente, dizer-lhe
que a resposta correta é B é exatamente o mesmo que dizer
ele, "Você está errado." E, pelo mesmo raciocínio, em uma escolha binária de
cinquenta e cinquenta, quantidades estritamente equivalentes de aprendizado
devem ocorrer ao ouvir “Você está certo” e “Você está errado”. Não esqueçamos,
porém, que as crianças não são lógicos perfeitos. Para eles, o passo adicional
de deduzir “Se eu escolhi A e errei, então a resposta correta deve ter sido B” não
é tão imediata. Por outro lado, eles não têm problemas para entender a
mensagem principal: eu errei. Na verdade, quando esse experimento foi realizado,
os adultos conseguiram extrair quantidades iguais de informações da recompensa
e da punição, mas os adolescentes não: eles aprenderam muito melhor com
seus sucessos do que com seus fracassos . a eles o feedback mais neutro e
informativo possível. O feedback de erro não deve ser confundido com punição.
NOTAS, UM SUBSTITUTO RUIM PARA FEEDBACK DE ERRO
Devo dizer agora algumas palavras sobre uma instituição educacional cheia de
defeitos e, no entanto, tão profundamente enraizada na tradição que temos
dificuldade em imaginar a escola sem ela: as notas. De acordo com a teoria da
aprendizagem, uma nota é apenas um sinal de recompensa (ou punição!).
No entanto, uma de suas deficiências óbvias é que é totalmente carente de
precisão. A nota de um exame geralmente é apenas uma soma simples e, como
tal, resume diferentes fontes de erros sem distingui-los. Portanto, é insuficientemente
informativo: por si só, não diz nada sobre o motivo pelo qual cometemos um erro
ou como nos corrigir. No caso mais extremo, um F que permanece um F fornece
zero informação, apenas o claro estigma social de incompetência.
As notas por si só, quando não acompanhadas de avaliações

detalhadas e construtivas, são, portanto, uma fonte pobre de feedback de
erros. Eles não são apenas imprecisos, mas também muitas vezes
atrasados por várias semanas, ponto em que a maioria dos alunos esqueceu
há muito tempo quais aspectos de seu raciocínio interno os enganaram.
As notas também podem ser profundamente injustas, especialmente para
os alunos que não conseguem acompanhar, porque o nível dos exames
geralmente aumenta de semana para semana. Vamos fazer a analogia dos videogames.
Quando você descobre um novo jogo, inicialmente você não tem ideia de como
progredir de forma eficaz. Acima de tudo, você não quer ser constantemente
lembrado de quão ruim você é! É por isso que os designers de videogame
começam com níveis extremamente fáceis, onde você tem quase certeza de ganhar.
Muito gradualmente, a dificuldade aumenta e, com ela, o risco de fracasso e
frustração - mas os programadores sabem como mitigar isso misturando o fácil
com o difícil e deixando você livre para tentar novamente o mesmo nível quantas
vezes precisar. Você vê sua pontuação aumentar constantemente. . . e, finalmente,
chega o dia alegre quando você passa com sucesso o nível final, onde ficou preso
por tanto tempo.
Agora compare isso com os boletins de alunos “maus”: eles começam o ano
com uma nota ruim e, em vez de motivá-los deixando-os fazer o mesmo teste
novamente até passarem, o professor lhes dá um novo exercício toda semana,
quase sempre além de suas habilidades. Semana após semana, sua “pontuação”
gira em torno de zero. No mercado de videogames, esse design seria um desastre
completo.
Com demasiada frequência, as escolas usam as notas como punições.
Não podemos ignorar os tremendos efeitos negativos que as notas ruins têm sobre
os sistemas emocionais do cérebro: desânimo, estigmatização, sentimentos de
desamparo. . . . Ouçamos a voz perspicaz de um idiota profissional: Daniel Pennac,
hoje um importante escritor francês que recebeu o famoso Prêmio Renaudot em
2007 por seu livro School Blues, mas que ano após ano foi o último de sua classe:
Meus boletins escolares me confirmavam isso todos os meses: se eu

era um idiota, era apenas de minha autoria. Daí o ódio a si mesmo, o
complexo de inferioridade e, sobretudo, a culpa. . . .
Eu me considerava menos do que nada. Porque um aluno
inútil, como meus professores repetidamente me disseram, não é
nada. . . . Eu não via nenhum futuro para mim e não tinha
uma representação possível de mim mesmo como um adulto. Não porque
não quisesse nada, mas porque achava que não estava apto para nada.16
Pennac acabou superando esse estado de espírito prejudicial (depois de

flertar com o suicídio), mas poucas crianças exibem tal resiliência. Os efeitos do
estresse induzido pela escola têm sido particularmente estudados no campo da
matemática, a disciplina escolar mais famosa pela conhecida ansiedade que
induz em tantos alunos. Em matemática
classe, algumas crianças sofrem de uma forma genuína de depressão induzida

pela matemática porque sabem que, faça o que fizerem, serão punidas com o
fracasso. A ansiedade matemática é uma síndrome bem reconhecida, medida e
quantificada. As crianças que sofrem com isso mostram ativação nos circuitos de
dor e medo, incluindo a amígdala, que está localizada no fundo do cérebro e está
envolvida em emoções negativas.17 Esses alunos não são necessariamente
menos inteligentes que os outros, mas o tsunami emocional que vivenciam destrói
suas habilidades de cálculo, memória de curto prazo e especialmente aprendizado.
Numerosos estudos, tanto em humanos quanto em animais, confirmam que o

estresse e a ansiedade podem prejudicar drasticamente a capacidade de aprender .
choques, o circuito se encontra em um estado semelhante ao final do período
sensível, quando as sinapses ficam imóveis e congeladas, emaranhadas em redes
perineuronais rígidas. Por outro lado, estar imerso em um ambiente estimulante e
livre de medo pode reabrir a plasticidade sináptica, liberando assim os neurônios e
devolvendo seus contatos sinápticos à sua motilidade infantil – uma fonte da juventude.
Dar notas ruins e apresentá-las como punição, portanto, corre o risco de

inibir severamente o progresso das crianças, porque o estresse e o desânimo as
impedirão de aprender. A longo prazo, também pode alterar sua personalidade e
auto-imagem. A psicóloga americana Carol Dweck estudou amplamente os efeitos
negativos dessa disposição mental, que consiste em atribuir os próprios fracassos
(ou sucessos) a um aspecto fixo e imutável de sua personalidade – o que ela chama
de “mentalidade fixa”. “Sou ruim em matemática”, “Línguas estrangeiras não são
meu forte”, e assim por diante. Ela contrasta essa visão com a ideia fundamentalmente
correta de que todas as crianças são capazes de progredir – o que ela chama de
“mentalidade de crescimento”.
Sua pesquisa sugere que, todos os outros fatores sendo iguais, a

mentalidade desempenha um papel importante no aprendizado.19 Ter uma
visão profundamente arraigada de que qualquer pessoa pode progredir é, por si
só, uma fonte de progresso. Por outro lado, as crianças que aderem à ideia de que
as habilidades são imutáveis, e que uma é superdotada ou não, tem um desempenho pior.
De fato, essa mentalidade fixa é desmotivadora: não incentiva a atenção nem o

engajamento ativo e interpreta os erros como marcadores de inferioridade intrínseca.
Como vimos, no entanto, cometer erros é a coisa mais natural - simplesmente prova
que tentamos. Lembre-se de Theodore Roosevelt: “O único homem que nunca comete
um erro é o homem que nunca faz nada”. Imagine se Grothendieck tivesse chegado
à conclusão, aos onze anos, de que era ruim em matemática porque achava que pi
era igual a três.
Pesquisas mostram que mesmo estudantes bem-sucedidos podem sofrer de

a atitude de mentalidade fixa. Eles também precisam trabalhar para manter
sua motivação, e não estamos fazendo nenhum favor a eles ao deixá-los acreditar
que, por serem “dotados”, eles não precisam trabalhar duro.
Implementar uma mentalidade de crescimento não significa dizer a todos

criança que ela é a melhor, sob o simples pretexto de nutrir sua auto-
estima. Pelo contrário, significa chamar a atenção para o seu progresso no dia-a-
dia, encorajar a sua participação, recompensar os seus esforços . . . e, de fato,
explicando a eles os próprios fundamentos da aprendizagem: que todas as crianças
têm que se esforçar, que devem sempre tentar uma resposta e que errar (e corrigir
seus erros) é a única maneira de aprender.
Deixemos a última palavra para Daniel Pennac: “Os professores não estão
ali para assustar seus alunos, mas para ajudá-los a superar o medo de aprender.
Uma vez superado esse medo, a fome de conhecimento dos alunos é insaciável.”
TESTE A SI MESMO
Se as notas dificilmente são eficazes, então qual é a melhor maneira de

incorporar nosso conhecimento científico de processamento de erros em nossas
salas de aula? As regras são simples. Primeiro, os alunos devem ser encorajados
a participar, a apresentar respostas, a gerar ativamente hipóteses, ainda que
provisórias; e segundo, eles devem receber rapidamente um feedback objetivo e
não punitivo que lhes permita se corrigir.
Existe uma estratégia que atende a todos esses critérios, e todos os professores
saber sobre isso: chama-se . . . testando! O que é menos conhecido é que
dezenas de publicações científicas demonstram sua eficácia.
Testar regularmente o conhecimento dos alunos, um método conhecido

como “prática de recuperação”, é uma das estratégias educacionais mais
eficazes.20 Testes regulares maximizam o aprendizado a longo prazo. O
simples ato de testar sua memória a torna mais forte. É um reflexo direto dos
princípios de engajamento ativo e feedback de erros. Fazer um teste força você
a encarar a realidade de frente, fortalecer o que sabe e perceber o que não
sabe.
A ideia de que o teste é uma pedra angular do processo de aprendizagem
não é auto-evidente. A maioria dos professores e alunos vê os testes como um
simples meio de classificação – seu papel é meramente avaliar o conhecimento
que foi adquirido em outro lugar, durante as aulas ou durante os estudos.
Essa classificação ou classificação, no entanto, acaba sendo a parte
menos interessante do teste. O que importa não é a nota final que você obtém,
mas o esforço que você faz para recuperar as informações e o feedback
imediato que você recebe. A esse respeito, a pesquisa mostra que os testes
geralmente desempenham um papel pelo menos tão importante quanto a
própria aula.
Esta conclusão foi alcançada em uma famosa série de experimentos
pelo psicólogo americano Henry Roediger e seus colaboradores.
Em um estudo, eles pediram aos alunos que memorizassem palavras em um
período fixo de tempo, mas com várias estratégias diferentes. Um grupo foi
instruído a passar todo o seu tempo estudando, em oito sessões curtas. Um
segundo grupo recebeu seis sessões de estudo, interrompidas por dois testes.
Por fim, o terceiro grupo alternou quatro breves sessões de estudo e quatro
testes. Como todos os três grupos tiveram a mesma quantidade de tempo, os
testes na verdade reduziram o tempo disponível para estudar. No entanto, os
resultados foram claros: 48 horas depois, a memória dos alunos da lista de
palavras era melhor quanto mais oportunidades eles tinham de se testar. A
alternância regular de períodos de estudo e testes os forçava a se envolver e
receber feedback explícito (“Eu conheço essa palavra agora, mas é essa outra
que eu nunca consigo lembrar...”). Essa autoconsciência, ou “metamemória”, é
útil porque permite que o aluno se concentre mais nos itens difíceis durante as
sessões de estudo subsequentes.21 O efeito é claro: quanto mais você se testa,
melhor você se lembra do que aprendeu. aprender.
Aqui está outro exemplo: imagine que você tenha que aprender algumas
palavras em uma língua estrangeira, como qamutiik, a palavra inuit para
"trenó." Uma possibilidade é escrever as duas palavras lado a lado em um

cartão, para associá-las mentalmente. Alternativamente, você pode ler primeiro
a palavra inuíte e depois, após cinco segundos, a tradução. Observe que a
segunda condição reduz a quantidade de informações disponíveis: durante os
primeiros cinco segundos, você vê apenas a palavra qamutiik, sem ser
lembrado do que ela significa.
No entanto, é essa estratégia que funciona melhor.22 Por quê? Porque te
obriga a pensar primeiro, a tentar lembrar o significado da palavra antes de
receber feedback. Mais uma vez, o engajamento ativo seguido de feedback de
erro maximiza o aprendizado.
O paradoxo é que nem os alunos nem seus professores estão cientes
desses efeitos. Se você perguntar a opinião deles, todos pensam que testar a si
mesmo é uma distração, e que estudar é o que importa.
É por isso que alunos e professores preveem exatamente o oposto do que é
observado experimentalmente: segundo eles, quanto mais estudamos, melhor
nos saímos. E de acordo com essa ideia equivocada, a maioria dos alunos
espontaneamente passa o tempo lendo e relendo anotações de aula e livros
didáticos, destacando cada linha com uma cor diferente do arco-íris. . . todas as
estratégias que são muito menos eficazes do que fazer um breve teste.
Por que temos a ilusão de que estudar para um exame é o

melhor estratégia de aprendizagem? Porque somos incapazes de
diferenciar os vários compartimentos da nossa memória. Imediatamente após
a leitura de nosso livro didático ou de nossas anotações de aula, a informação
está totalmente presente em nossa mente. Ele fica em nossa memória de trabalho
consciente, de forma ativa. Sentimos como se o conhecêssemos, porque está
presente no nosso espaço de armazenamento de curto prazo . . . mas esse
compartimento de curto prazo não tem nada a ver com a memória de longo prazo
de que precisaremos para recuperar a mesma informação alguns dias depois.
Depois de alguns segundos ou minutos, a memória de trabalho já começa a se
dissipar e, depois de alguns dias, o efeito se torna enorme: a menos que você
teste novamente seu conhecimento, a memória desaparece. Para obter
informações na memória de longo prazo, é essencial estudar o material e depois
testar a si mesmo, em vez de passar todo o tempo estudando.
É fácil colocar essas ideias em prática por conta própria. Tudo o que
você precisa fazer é preparar cartões de memória: de um lado, você escreve
uma pergunta e, do outro, a resposta. Para testar a si mesmo, desenhe as cartas
uma após a outra e, para cada carta, tente lembrar a resposta
(previsão) antes de verificar virando para o outro lado (retorno de erro).

Se você errar a resposta, coloque a carta de volta no topo da pilha – isso
o forçará a revisitar a mesma informação em breve. Se você acertar a
resposta, coloque a carta no fundo da pilha: não há necessidade imediata
de estudá-la novamente, mas ela reaparecerá mais cedo ou mais tarde, em
um momento em que o esquecimento começará a surtir efeito. Agora existem
muitos aplicativos de telefone e tablet que permitem que você construa sua
própria coleção de cartões de memória flash, e um algoritmo semelhante
está subjacente a softwares de aprendizado, como o famoso Duolingo para
línguas estrangeiras.
O autoteste é uma das melhores estratégias de aprendizado, porque nos obriga a tomar
consciência de nossos erros. Ao aprender palavras estrangeiras, é melhor começar tentando
lembrar a palavra antes de receber feedback de erro do que simplesmente estudar cada par (topo).
As experiências também mostram que é melhor alternar períodos de estudo e testes do que
passar todo o tempo estudando (meio). A longo prazo, a memória é muito melhor quando os períodos de
ensaio são espaçados, especialmente se os intervalos de tempo forem aumentados gradualmente (parte
inferior).
A REGRA DE OURO: ESPAÇAR O APRENDIZADO
Por que a alternância de estudos e testes tem efeitos tão positivos? Porque explora uma
das estratégias mais eficazes que a ciência educacional descobriu: o espaçamento das
sessões de treinamento. Esta é a regra de ouro: é sempre melhor distribuir os períodos
de treino em vez de comprimi-los em uma única corrida. A melhor forma de garantir a
retenção a longo prazo é com uma série de períodos de estudo, intercalados com provas
e espaçados em intervalos cada vez maiores.
Décadas de pesquisa psicológica mostram que se você tem um

quantidade de tempo para aprender algo, espaçar as lições é uma estratégia muito
mais eficaz do que agrupá-las.23 A distribuição do aprendizado ao longo de vários
dias tem um efeito tremendo: experimentos mostram que você pode multiplicar sua
memória por um fator de três quando você revisa em intervalos regulares, em vez de
tentar aprender tudo de uma vez. A regra é simples, e todos os músicos sabem disso:
quinze minutos de trabalho todos os dias da semana são melhores do que duas horas em
um único dia da semana.
Por que a estratégia de espaçamento é tão eficiente? Imagens do cérebro24 mostra

que amontoar os problemas em uma única sessão diminui a atividade cerebral que
eles evocam, talvez porque informações repetidas perdem gradualmente sua
novidade. A repetição também parece criar uma ilusão de conhecimento, um excesso
de confiança devido à presença de informação na memória de trabalho: parece
disponível, temos isso em mente, então não vemos sentido em trabalhar mais. Por
outro lado, espaçar o aprendizado aumenta a atividade cerebral: parece criar um efeito
de “dificuldade desejável” ao proibir o armazenamento simples na memória de trabalho
e, assim, forçar os circuitos relevantes a trabalhar mais.
Qual é o intervalo de tempo mais eficaz entre duas repetições da

mesma lição? Uma forte melhora é observada quando o intervalo chega a vinte e quatro
horas — provavelmente porque o sono, como veremos a seguir, desempenha um papel
central na consolidação do que aprendemos. Mas o psicólogo americano Hal
Pashler e seus colegas mostraram que o intervalo ideal depende da

duração desejada da retenção de memória. Se você precisar lembrar as
informações por apenas alguns dias ou semanas, o ideal é revisá-las todos
os dias por cerca de uma semana. Se, por outro lado, o conhecimento
deve ser mantido por vários meses ou anos, o intervalo de revisão deve
ser estendido proporcionalmente. A regra geral é revisar as informações
em intervalos de aproximadamente 20% da duração desejada da memória
– por exemplo, ensaie depois de dois meses se quiser que uma memória
dure cerca de dez meses.
O efeito é substancial: uma única repetição de uma lição com um atraso de
algumas semanas triplica o número de itens que podem ser lembrados
alguns meses depois! Para manter as informações na memória o maior
tempo possível, é melhor aumentar gradualmente os próprios intervalos de
tempo: comece com ensaios todos os dias e revise as informações após
uma semana, um mês e depois um ano. . . . Essa estratégia garante
memória ideal em todos os momentos.25
A figura acima mostra o porquê: cada revisão reforça o
aprendizado. Refresca a força das representações mentais e ajuda a
combater o esquecimento exponencial que caracteriza a nossa memória.
Acima de tudo, o espaçamento das sessões de aprendizado parece
selecionar, de todos os circuitos de memória disponíveis em nosso cérebro,
aquele com a curva de esquecimento mais lenta, ou seja, aquele que
projeta a informação mais longe no futuro.
De fato, erramos sobre a memória: não é um sistema
que é orientado para o passado, mas cujo papel é enviar dados para o
futuro, para que possamos acessá-los posteriormente. Ao repetir a
mesma informação várias vezes, em longos intervalos, ajudamos nosso
cérebro a se convencer de que essa informação é valiosa o suficiente para
ser entregue ao nosso eu futuro.
Hal Pashler extrai várias lições práticas dessa pesquisa.
Primeiro, o aprendizado sempre se beneficia de ser distribuído por
várias sessões. Em segundo lugar, para tópicos escolares, revisar
depois de alguns dias ou semanas não é suficiente. Se você quiser
memorizar algo a longo prazo, deve revisá-lo após um intervalo de pelo
menos alguns meses. Nessa perspectiva, temos que repensar toda a
organização dos livros didáticos. A maioria deles são organizados em
capítulos que focam em um tópico específico (o que é bom) e são
seguidos por perguntas e problemas que focam apenas naquela lição
(o que é menos bom). Essa organização tem duas consequências

negativas: as aulas não são revisadas regularmente ou com espaçamento
suficiente, e os exercícios são emburrados, porque os alunos não precisam
determinar por si mesmos quais conhecimentos ou estratégias devem ser usados
para resolver um determinado problema.
As experiências mostram que é melhor misturar todos os tipos de problemas
diferentes, em vez de se limitar à lição mais recente, para testar regularmente
todo o conhecimento.26
E quanto aos exames finais ou de fim de ano? A ciência da
aprendizagem sugere que eles não são ideais, porque incentivam o trabalho de
última hora em vez da prática regular. No entanto, eles ainda são um teste útil
de conhecimento adquirido. O estudo de última hora não é necessariamente
ineficaz: desde que o aluno já tenha feito esforços para aprender nos meses
anteriores, o estudo intenso antes de um exame refresca o conhecimento na
memória e o ajudará a durar. No entanto, uma revisão regular do conhecimento,
ano após ano, provavelmente trará benefícios ainda maiores. Exames de curto
prazo, que se concentram apenas no que foi aprendido nas semanas anteriores,
não garantem memória de longo prazo. Uma revisão cumulativa, cobrindo todo o
programa desde o início do ano, funciona muito melhor.
Qual é o sentido - você pode estar perguntando - de estudantes que estudam o

mesmas coisas ao longo do ano letivo? Por que fazê-los repetir um exercício
que já fizeram várias vezes?
Se eles obtiverem pontuações perfeitas, eles aprenderão alguma coisa? Claro
que vão. Isso pode parecer paradoxal em um capítulo dedicado aos benefícios do
erro, mas o benefício do feedback não se limita aos itens que os alunos erram.
Pelo contrário, receber feedback melhora a memória mesmo quando a resposta
certa foi escolhida.27 Por quê?
Porque enquanto o conhecimento não estiver perfeitamente consolidado, o
cérebro continua a aprender, ainda que fracamente. Enquanto houver
incerteza, os sinais de erro continuam a se espalhar em nosso cérebro. A
diferença entre a resposta inicial de baixa confiança e as informações
subsequentes 100% certas atua como um sinal de feedback útil: sinaliza um
erro virtual que poderíamos ter cometido e com o qual podemos aprender.
É por isso que a superaprendizagem é sempre benéfica: até que

nosso conhecimento esteja absolutamente certo, revisá-lo e testá-lo continua a
melhorar nosso desempenho, especialmente a longo prazo. Além disso,
a repetição traz outros benefícios para o nosso cérebro: automatiza nossas

operações mentais até que se tornem inconscientes. Este é o último pilar
de aprendizado que resta a ser examinado: a consolidação.
CAPÍTULO 10
Consolidação
Considere um aluno da primeira série que implantou com sucesso os três

pilares do aprendizado e aprendeu rapidamente a ler. Ele se envolveu ativamente na
leitura, com curiosidade e entusiasmo. Aprendeu a prestar atenção em cada letra de
cada palavra, da esquerda para a direita. E, com o passar dos meses, à medida que
seus erros diminuíam, ele começou a decifrar com precisão a correspondência entre
letras e sons e a armazenar as grafias de palavras irregulares. No entanto, ele ainda
não é um leitor fluido, e lê devagar e com esforço. O que está a faltar? Ele ainda
precisa implantar o quarto pilar do aprendizado: a consolidação. A sua leitura, que
nesta fase mobiliza toda a sua atenção, tem de se tornar automática e inconsciente.
A análise de seus tempos de leitura é reveladora: quanto mais longa uma palavra
ou seja, mais tempo ele leva para decifrá-lo (veja a figura 18 no encarte colorido).
A função é linear: o tempo de resposta aumenta em uma quantidade fixa de cerca
de um quinto de segundo para cada letra adicional.
Isso é característico de uma operação seriada, passo a passo - e é completamente
normal: na idade dele, a leitura depende de decifrar letras ou grupos de letras uma a
uma, de maneira lenta e exigente.1 Mas essa fase disfluente não deve durar para
sempre: com a prática, nos dois anos seguintes, a leitura da criança vai acelerar e se
tornar mais fluida. Após dois ou três anos de prática intensiva, o efeito do comprimento
da palavra desaparecerá completamente.
Caro leitor, neste exato momento, enquanto seu cérebro especialista decifra
minhas palavras, você leva o mesmo tempo exato para ler qualquer palavra entre
três e oito letras. São necessários, em média, cerca de três anos de treinamento
para que o reconhecimento visual de palavras passe de sequencial para paralelo.
Em última análise, nossa área de forma visual de palavras
processa todas as letras de uma palavra simultaneamente e não em série.
Este é um excelente exemplo da consolidação que acontece em todos

os domínios: uma mudança do processamento lento, consciente e trabalhoso para
o conhecimento rápido, inconsciente e automático. Nosso cérebro nunca para de
aprender. Mesmo quando uma habilidade é dominada, continuamos a superaprendê-
la. Mecanismos de automação “compilam” as operações que usamos regularmente
em rotinas mais eficientes. Eles os transferiram para outros circuitos cerebrais, fora
de nossa percepção consciente, onde os processos podem se desenrolar
independentemente um do outro, sem interromper outras operações em andamento.
LIBERAR RECURSOS CÉREBROS
Quando você escaneia o cérebro de um leitor iniciante, o que você vê? Além da
ativação do circuito normal de leitura – que inclui áreas visuais para reconhecimento
de letras e áreas do lobo temporal para processamento de fonemas, sílabas e palavras
– também está presente uma ativação massiva das regiões parietais e pré-frontais .
atividade, refletindo esforço, atenção e controle executivo consciente, desaparecerá
gradualmente à medida que o aprendizado se consolida (veja a figura 18 no encarte
colorido). Em um leitor experiente, essas regiões não contribuem mais para a leitura -
elas são ativadas apenas se você atrapalhar a leitura, por exemplo, espaçando as
letras
, ou
por eles, forçando o cérebro especialista a reverter para o lento,
modo iniciante.3
Automatizar a leitura significa configurar um circuito restrito e
especializado para o processamento eficiente das sequências de letras que
encontramos regularmente. À medida que aprendemos, desenvolvemos um
circuito extraordinariamente eficaz para reconhecer os caracteres mais comuns,
bem como suas combinações.4 Nosso cérebro compila estatísticas: determina
quais letras são mais frequentes, onde aparecem com mais frequência e em quais
associações ocorrem. Até o córtex visual primário se adapta às formas e posições
das letras mais frequentes.5 Após alguns anos de superaprendizagem, esse circuito
entra em modo rotineiro e consegue funcionar sem a menor intervenção consciente.6
Nesta fase, a ativação do
o córtex parietal e pré-frontal desapareceu: agora podemos ler sem

esforço.
O que é verdade para a leitura também se aplica a todas as
outras áreas de aprendizagem. Quer aprendamos a digitar, tocar um
instrumento musical ou dirigir um carro, nossos gestos estão inicialmente
sob o controle do córtex pré-frontal: nós os produzimos lenta e
conscientemente, um a um. A prática, no entanto, leva à perfeição: com o
tempo, todo o esforço se evapora e podemos exercitar essas habilidades
enquanto falamos ou pensamos em outra coisa. A prática repetida transfere
o controle para o córtex motor e especialmente para os gânglios da base, um
conjunto de circuitos subcorticais que registram nossos comportamentos
automáticos e rotineiros (incluindo orações e palavrões!). A mesma mudança
acontece para a aritmética. Para uma criança iniciante, cada problema de
cálculo é um Everest que exige grande esforço para escalar e mobiliza os
circuitos do córtex pré-frontal. Nesta fase, o cálculo é sequencial: para
resolver 6 + 3, as crianças normalmente contam os passos um a um: “Seis . . .
sete oito . . . nove!" À medida que a consolidação progride, as crianças
começam a recuperar o resultado diretamente da memória, e a atividade pré-
frontal desaparece em favor de circuitos especializados no córtex temporal
parietal e ventral.7 Por que a automatização é tão importante? Porque libera o
recursos do córtex. Lembre-se de que os córtices executivos parietal e

pré-frontal operam como uma rede genérica de controle executivo que
impõe um gargalo cognitivo: não pode ser multitarefa. Enquanto o executivo
central do nosso cérebro está focado em uma tarefa, todas as outras decisões
conscientes são atrasadas ou canceladas. Assim, enquanto uma operação
mental permanece trabalhosa, porque ainda não foi automatizada por
superaprendizagem, ela absorve recursos valiosos de atenção executiva e
nos impede de focar em qualquer outra coisa. A consolidação é essencial
porque disponibiliza nossos preciosos recursos cerebrais para outros
propósitos.
Tomemos um exemplo concreto. Imagine se você tivesse que resolver
um problema de matemática, mas sua leitura tivesse permanecido no nível
do iniciante: “A dryver leevz Bawstin att too oh clok e heds four Noo Yiorque
too hunjred myels ahwey. Hee ar eye-vz at comeu oh clok. Qual é a velocidade
do waz hiz avrij?” Acho que você entendeu: é praticamente impossível fazer
as duas coisas ao mesmo tempo. A dificuldade de
a leitura destrói qualquer capacidade de reflexão aritmética. Para progredir,

é essencial que as ferramentas mentais mais úteis para nós, como leitura
ou aritmética, se tornem uma segunda natureza – que funcionem
inconscientemente e sem esforço. Não podemos atingir os níveis mais
altos da pirâmide educacional sem antes consolidar seus fundamentos.
O PAPEL PRINCIPAL DO SONO
Já vimos que o aprendizado é muito mais eficiente quando feito em

intervalos regulares: em vez de amontoar uma lição inteira em um dia,
é melhor espalhar o aprendizado. A razão é simples: todas as noites,
nosso cérebro consolida o que aprendeu durante o dia. Esta é uma
das descobertas da neurociência mais importantes dos últimos trinta
anos: o sono não é apenas um período de inatividade ou uma coleta de
lixo dos resíduos que o cérebro acumulou enquanto estávamos
acordados. Muito pelo contrário: enquanto dormimos, nosso cérebro
permanece ativo; ele executa um algoritmo específico que reproduz os
eventos importantes registrados durante o dia anterior e os transfere
gradualmente para um compartimento mais eficiente de nossa memória.
A descoberta data de 1924. Naquele ano, dois americanos

psicólogos, John Jenkins (1901-1948) e Karl Dallenbach
(1887-1971), revisitaram os estudos clássicos sobre a memória. como
no final do século XIX, havia descoberto uma lei psicológica básica:
quanto mais o tempo passa, menos você se lembra do que aprendeu.
A curva de esquecimento de Ebbinghaus é uma bela exponencial
monotonamente decrescente. O que Jenkins e Dallenbach notaram,
porém, é que a curva apresentava uma única anomalia: não apresentava
perda de memória entre oito e quatorze horas depois de aprender algo
novo. Jenkins e Dallenbach tiveram uma epifania: no experimento de
Ebbinghaus, o limite de tempo de oito horas correspondia aos testes
realizados no mesmo dia, e o limite de quatorze horas aos testes com
intervalos de uma noite. Para chegar ao fundo disso, eles projetaram um
novo experimento que desembaraçou essas duas variáveis: o tempo
decorrido antes que a memória fosse testada e se o
participantes tiveram a oportunidade de dormir. Para fazer isso, eles

ensinaram sílabas aleatórias a seus alunos por volta da meia-noite, pouco
antes de dormir, ou pela manhã. O resultado foi claro: o que aprendemos
de manhã desaparece com o tempo, de acordo com a lei exponencial de
Ebbinghaus; o que é aprendido à meia-noite, por outro lado, permanece
estável ao longo do tempo (desde que os alunos tenham pelo menos duas
horas de sono). Em outras palavras, dormir evita o esquecimento.
Várias interpretações alternativas desses resultados vêm à

mente. Talvez a memória decaia durante o dia porque, enquanto
acordado, o cérebro acumula substâncias tóxicas que são eliminadas
durante o sono; ou talvez a memória sofra interferência com outros
eventos que ocorrem no intervalo entre o aprendizado e o teste, o que
não acontece durante o sono. Mas essas alternativas foram definitivamente
rejeitadas em 1994, quando pesquisadores israelenses demonstraram que
o sono causa aprendizado adicional: sem nenhum treinamento extra, o
desempenho cognitivo e motor melhorou após um período de sono.9 O
experimento foi simples. Durante o dia, os voluntários aprenderam a
detectar uma barra em um ponto específico da retina.
O desempenho deles melhorou lentamente e se estabilizou após
algumas horas de treinamento: o limite parecia ter sido atingido. Mande
os participantes dormirem, porém, e surpreenda: ao acordar na manhã
seguinte, seu desempenho melhora muito, e assim se mantém nos dias
seguintes. O sono comprovadamente causa o aprendizado extra, porque
se acordarmos os sujeitos durante a noite cada vez que entrarem no sono
REM, eles não apresentarão melhora pela manhã.
Inúmeros estudos confirmaram e ampliaram essas primeiras

descobertas.10 A quantidade de ganho noturno varia de acordo com a
qualidade do sono, que pode ser avaliada colocando eletrodos no couro
cabeludo e monitorando as ondas lentas que caracterizam o sono profundo.
Tanto a duração quanto a profundidade do sono predizem a
melhora do desempenho de uma pessoa ao acordar. A relação
também opera no sentido inverso: a necessidade de sono parece
depender da quantidade de estimulação e aprendizado ocorrido durante
o dia anterior. Em animais, um gene envolvido na plasticidade cerebral,
zif-268, aumenta sua expressão no hipocampo e córtex durante o sono
REM, especificamente quando os animais foram
previamente expostos a um ambiente enriquecido: o aumento da

estimulação leva a um aumento na plasticidade cerebral noturna.11
Os respectivos papéis dos diferentes estágios do sono ainda não são
perfeitamente estabelecido, mas parece que o sono profundo permite a
consolidação e generalização do conhecimento (o que os psicólogos chamam
de memória semântica ou declarativa), enquanto o sono REM, durante o qual a
atividade cerebral está próxima de um estado de vigília, reforça o aprendizado
perceptivo e motor (procedural). memória).
O CÉREBRO DORMIDO REVIVE O DIA ANTERIOR
Embora as demonstrações psicológicas dos efeitos do sono fossem bastante

convincentes, o mecanismo neural pelo qual um cérebro adormecido poderia
aprender, ainda melhor do que quando acordado, ainda precisava ser identificado.
Em 1994, os neurofisiologistas Matthew Wilson e Bruce McNaughton fizeram
uma descoberta notável: na ausência de qualquer estimulação externa, os
neurônios do hipocampo se ativam espontaneamente durante o sono.12 E essa
atividade não é aleatória: ela refaz os passos que o animal deu durante o dia !
Como vimos no Capítulo 4, o hipocampo contém células de lugar, ou seja,

neurônios que disparam quando um animal está (ou acredita estar) em um
determinado ponto do espaço. O hipocampo está repleto de uma variedade de
neurônios codificadores de lugar, cada um dos quais prefere uma localização diferente.
Se você gravar o suficiente deles, descobrirá que eles abrangem todo o
espaço em que o animal caminha. Quando um rato se move por um corredor,
alguns neurônios disparam na entrada, outros no meio e outros ainda no final.
Assim, o caminho que o rato percorre é refletido pelo disparo sucessivo de
toda uma série de células de lugar: o movimento no espaço real torna-se uma
sequência temporal no espaço neural.
E é aí que os experimentos de Wilson e McNaughton se encaixam.

Eles descobriram que quando o rato adormece, as células de lugar em seu
hipocampo começam a disparar novamente, na mesma ordem. Os neurônios
literalmente repetem as trajetórias do período de vigília anterior. A única
diferença é a velocidade: durante o sono, as descargas neuronais podem ser
aceleradas por um fator de vinte. Durante o sono, os ratos sonham com uma
corrida em alta velocidade pelo ambiente!
A relação entre o disparo dos neurônios do hipocampo e a posição do animal

é tão fiel que os neurocientistas conseguiram reverter o processo, decodificando o
conteúdo de um sonho a partir dos padrões de disparo neuronal do animal . mundo
real, o mapeamento sistemático entre sua localização e sua atividade cerebral é
registrado. Esses dados possibilitam treinar um decodificador, um programa de
computador que inverte a relação e adivinha a posição do animal a partir do padrão
de disparo neuronal. Quando esse decodificador é aplicado aos dados do sono,
vemos que enquanto o animal cochila, seu cérebro traça trajetórias virtuais no espaço.
Assim, o cérebro do rato reproduz, em alta velocidade, os padrões de

atividade que experimentou no dia anterior. Cada noite traz de volta memórias
do dia. E essa repetição não se limita ao hipocampo, mas se estende ao córtex,
onde desempenha um papel decisivo na plasticidade sináptica e na consolidação do
aprendizado. Graças a essa reativação noturna, mesmo um único evento de nossas
vidas, gravado apenas uma vez em nossa memória episódica, pode ser repetido
centenas de vezes durante a noite (veja a figura 19 no encarte colorido). Essa
transferência de memória pode até ser a principal função do sono.14 É possível que o
hipocampo se especialize no armazenamento dos eventos do dia anterior, usando uma
regra de aprendizado rápido de uma única tentativa. Durante a noite, a reativação
desses sinais neuronais os espalha para outras redes neurais, localizadas principalmente
no córtex e capazes de extrair o máximo de informação possível de cada episódio. De
fato, no córtex de um rato que aprende a realizar uma nova tarefa, quanto mais um
neurônio se reativa durante a noite, mais aumenta sua participação na tarefa no dia
seguinte.15 A reativação hipocampal leva à automação cortical.
O mesmo fenômeno existe em humanos? Sim. Imagens do cérebro

mostram que, durante o sono, os circuitos neurais que usamos no dia anterior são
reativados.16 Depois de jogar horas de Tetris, os jogadores foram escaneados na
noite seguinte: eles literalmente alucinaram uma cascata de formas geométricas em
seus sonhos, e seus olhos movimentos correspondentes, de cima para baixo.
Além disso, em um estudo recente, voluntários adormeceram em uma máquina de

ressonância magnética e foram subitamente acordados assim que seus
eletroencefalograma sugeriu que eles estavam sonhando. A ressonância

magnética mostrou que muitas áreas de seus cérebros foram ativadas
espontaneamente pouco antes de serem acordados, e que a atividade registrada
previu o conteúdo de seus sonhos. Se um participante relatasse, por exemplo,
a presença de pessoas em seu sonho, os pesquisadores detectavam atividade
induzida pelo sono na área cortical associada ao reconhecimento facial. Outros
experimentos mostraram que a extensão dessa reativação prediz não apenas o
conteúdo do sonho, mas também a quantidade de consolidação da memória após
o despertar. Alguns neurocirurgiões estão começando a registrar neurônios isolados
no cérebro humano e percebem que, como nos ratos, seus padrões de disparo
traçam a sequência de eventos experimentados no dia anterior.
O sono e a aprendizagem estão fortemente ligados. Numerosos experimentos

mostram que variações espontâneas na profundidade do sono se correlacionam
com variações no desempenho no dia seguinte. Quando aprendemos a usar um
joystick, por exemplo, durante a noite seguinte, a frequência e a intensidade das
ondas lentas do sono aumentam nas regiões parietais do cérebro envolvidas nesse
aprendizado sensório-motor – e quanto mais forte o aumento, mais o desempenho
de uma pessoa melhora .17 Da mesma forma, após a aprendizagem motora, a
imagem cerebral mostra uma onda de atividade no córtex motor, hipocampo e
cerebelo, acompanhada por uma diminuição em certas áreas frontais, parietais e
temporais.18 Experiência após experiência dá resultados convergentes: depois de
dormir, a atividade cerebral muda e uma parte do conhecimento adquirido durante o
dia é reforçada e transferida para circuitos mais automáticos e especializados.
Embora a automação e o sono estejam intimamente relacionados, cada

cientista sabe que correlação não é causação. A ligação é causal? Para verificar isso,
podemos aumentar artificialmente a profundidade do sono criando um efeito de
ressonância no cérebro. Durante o sono, a atividade cerebral oscila espontaneamente
em uma frequência lenta, da ordem de quarenta a cinquenta ciclos por minuto. Dando
ao cérebro um pequeno impulso adicional na frequência certa, podemos fazer com
que esses ritmos ressoem e aumentem sua intensidade – um pouco como quando
empurramos um balanço nos momentos certos, até que ele oscile com uma amplitude
enorme. O cientista alemão do sono Jan Born fez exatamente isso de duas maneiras
diferentes: passando pequenas correntes pelo crânio e
simplesmente tocando um som sincronizado com as ondas cerebrais do

dorminhoco. Seja eletrizado ou acalmado pelo som das ondas, o cérebro da
pessoa adormecida foi levado por esse ritmo irresistível e produziu ondas
significativamente mais lentas, características do sono profundo. Em ambos
os casos, no dia seguinte, essa ressonância levou a uma maior consolidação
do aprendizado.19 Uma start-up francesa começou a explorar esse efeito:
vende tiaras que supostamente facilitam o sono e aumentam a
profundidade do sono tocando sons tranquilos que estimulam os ritmos lentos
do cérebro noturno. Outros pesquisadores tentam aumentar o aprendizado
forçando o cérebro a reativar certas memórias à noite.
Imagine aprender certos fatos em uma sala de aula fortemente perfumada

com o cheiro de rosas. Quando você entra em sono profundo, borrifamos
seu quarto com a mesma fragrância. Experimentos indicam que a informação
que você aprendeu é muito melhor consolidada na manhã seguinte do que
se você tivesse dormido enquanto estivesse exposto a outro cheiro .
aumentando sua consolidação na memória.
O mesmo efeito pode ser alcançado com pistas auditivas. Imagine

que você é solicitado a memorizar a localização de cinquenta imagens,
cada uma associada a um determinado som (um gato miando, uma vaca
mugindo etc.). Cinquenta itens são muito para lembrar. . . mas a noite está aí
para ajudar. Em um experimento, durante a noite, os pesquisadores
estimularam o cérebro dos participantes com metade dos sons. Ouvi-los
inconscientemente durante o sono profundo influenciava a reprodução
neuronal noturna – e na manhã seguinte, os participantes se lembravam
muito melhor das localizações das imagens correspondentes.21
No futuro, vamos todos mexer no sono para aprender melhor? Muitos
alunos já fazem isso espontaneamente: eles revisam uma lição importante
pouco antes de adormecer, sem saber, tentando influenciar sua repetição
noturna. Mas não vamos confundir essas estratégias úteis com o equívoco
de que se pode adquirir habilidades inteiramente novas durante o sono.
Alguns charlatães vendem gravações de áudio que supostamente ensinam
uma língua estrangeira inconscientemente enquanto você dorme. A pesquisa
é clara - essas fitas não têm efeito algum.22 Embora possa haver algumas
exceções, a maior parte das evidências sugere que o sono
o cérebro não absorve novas informações: ele só pode reproduzir o que já

experimentou. Para aprender uma habilidade tão complexa quanto um novo
idioma, a única coisa que funciona é praticar durante o dia, depois dormir durante a
noite para reativar e consolidar o que adquirimos.
DESCOBERTAS DURANTE O SONO
Dormir apenas fortalece a memória? Muitos cientistas pensam o contrário: relatam

ter feito descobertas durante a noite. O caso mais famoso é o do químico alemão
August Kekule von Stradonitz (1829-1896), que primeiro imaginou a estrutura do
benzeno — uma molécula incomum, porque seus seis átomos de carbono formam
um circuito fechado, como um anel ou . . . uma cobra que morde sua cauda. Foi assim
que Kekule descreveu seu sonho naquela noite fatídica:
Mais uma vez os átomos estavam saltando diante dos meus olhos. . . .
Meu olho mental, tornado mais agudo por repetidas visões desse tipo,
podia agora distinguir estruturas maiores de conformação múltipla;
longas fileiras às vezes mais ajustadas umas às outras, todas se
enroscando e torcendo em movimentos de cobra. Mas olhe! O que é que
foi isso? Uma das cobras agarrou sua própria cauda, e a forma girou
zombeteiramente diante de meus olhos.
E Kekule concluiu: “Vamos aprender a sonhar, senhores, e então talvez

aprendamos a verdade”.
O sono pode realmente aumentar nossa criatividade e nos levar à verdade?
Enquanto os historiadores da ciência estão divididos sobre a autenticidade do
episódio Ouroboros de Kekule, a ideia de uma incubação noturna é difundida entre
cientistas e artistas. O designer Philippe Starck disse com humor em uma entrevista
recente: “Todas as noites depois de largar meu livro . . .
Digo à minha mulher: 'Vou trabalhar.'”23 Eu mesmo já tive muitas
vezes a experiência de descobrir a solução para um problema difícil ao acordar. No
entanto, uma coleção de anedotas não é uma prova. Você precisa experimentar — e
foi exatamente isso que Jan Born e sua equipe fizeram.24 Durante o dia, esses
pesquisadores ensinaram
voluntariamente um algoritmo complexo, que exigia a aplicação de uma

série de cálculos a um determinado número. No entanto, sem o conhecimento
dos participantes, o problema continha um atalho oculto, um truque que
reduzia muito o tempo de cálculo. Antes de dormir, pouquíssimos sujeitos
haviam percebido. No entanto, uma boa noite de sono dobrou o número de
participantes que descobriram o atalho, enquanto aqueles que foram
impedidos de dormir nunca vivenciaram um momento tão eureca. Além disso,
os resultados foram os mesmos, independentemente da hora do dia em que
os participantes foram testados.
Assim, o tempo decorrido não era o fator determinante: apenas o sono levava
ao insight genuíno.
A consolidação noturna, portanto, não se limita ao fortalecimento
do conhecimento existente. As descobertas do dia não são apenas
armazenadas, mas também recodificadas de uma forma mais abstrata e geral.
A repetição neuronal noturna, sem dúvida, tem um papel crucial nesse
processo. Todas as noites, nossas ideias flutuantes do dia são reativadas
centenas de vezes em um ritmo acelerado, multiplicando assim as chances
de que nosso córtex eventualmente descubra uma regra que faça sentido.
Além disso, a aceleração de vinte vezes das descargas neurais comprime a
informação. A repetição de alta velocidade implica que os neurônios que foram
ativados em longos intervalos enquanto acordados agora se encontram
adjacentes na sequência noturna. Esse mecanismo parece ideal para coletar,
sintetizar, compactar e “converter informações brutas em conhecimento útil e
explorável” – a própria definição de inteligência de acordo com o magnata da
inteligência artificial Demis Hassabis.
No futuro, as máquinas inteligentes terão que dormir como nós?

A pergunta parece louca, mas acho que, em certo sentido, eles vão: seus
algoritmos de aprendizado provavelmente incorporarão uma fase de
consolidação semelhante ao que chamamos de sono. De fato, cientistas da
computação já projetaram vários algoritmos de aprendizagem que imitam o
ciclo sono/vigília.25 Esses algoritmos fornecem modelos inspiradores para a
nova visão de aprendizagem que defendo neste livro, na qual a aprendizagem
consiste em construir um modelo generativo interno do exterior mundo. Lembre-
se de que nosso cérebro contém modelos internos maciços, capazes de
ressintetizar uma variedade de imagens mentais mais verdadeiras que a vida,
diálogos realistas e deduções significativas.
No estado de vigília, ajustamos esses modelos ao nosso ambiente:
usar os dados sensoriais que recebemos do mundo exterior para selecionar

o modelo que melhor se adapta ao mundo ao nosso redor. Durante esse
estágio, o aprendizado é principalmente uma operação de baixo para cima: os
sinais sensoriais inesperados que chegam, quando confrontados com as previsões
de nossos modelos internos, geram sinais de erro de previsão que sobem na
hierarquia cortical e ajustam os pesos estatísticos em cada etapa, de modo que
que nossos modelos de cima para baixo ganham progressivamente em precisão.
A nova ideia é que durante o sono, nosso cérebro funciona na direção
oposta: de cima para baixo. Durante a noite, usamos nossos modelos
generativos para sintetizar imagens novas e imprevistas, e parte do nosso
cérebro se treina nesse conjunto de imagens criadas do zero. Esse conjunto
de treinamento aprimorado nos permite refinar nossas conexões ascendentes.
Como os parâmetros do modelo generativo e suas consequências sensoriais
são conhecidos, agora é muito mais fácil descobrir a ligação entre eles. É
assim que nos tornamos cada vez mais eficazes na extração da informação
abstrata que está por trás de uma entrada sensorial específica: depois de uma
boa noite de sono, a menor pista é suficiente para identificar o melhor modelo
mental da realidade, por mais abstrato que seja.
De acordo com essa ideia, os sonhos nada mais são do que um

conjunto aprimorado de imagens de treinamento: nosso cérebro depende
de reconstruções internas da realidade para multiplicar sua experiência
do dia necessariamente limitada. O sono parece resolver um problema
que todos os algoritmos de aprendizado enfrentam: a escassez de dados
disponíveis para treinamento. Para aprender, as redes neurais artificiais atuais
precisam de enormes conjuntos de dados – mas a vida é muito curta e nosso
cérebro precisa se contentar com a quantidade limitada de informações que pode
coletar durante o dia. O sono pode ser a solução que o cérebro encontrou para
simular, de forma acelerada, uma infinidade de eventos que uma vida inteira não
bastaria para vivenciar de verdade.
Durante esses experimentos mentais, ocasionalmente fazemos
descobertas. Não há nada de mágico nisso: à medida que nosso mecanismo
de simulação mental funciona, às vezes ele atinge resultados inesperados –
um pouco como um jogador de xadrez, uma vez que domina as regras, pode
passar anos explorando suas consequências. De fato, a humanidade deve
às imagens mentais algumas de suas maiores descobertas científicas –
quando Einstein sonhou em montar um fóton, por exemplo, ou quando Newton
imaginou a lua caindo no céu.
terra como uma maçã. Mesmo o experimento mais famoso de Galileu, no qual
ele deixou cair objetos da Torre de Pisa para provar que sua velocidade de queda
livre não depende de sua massa, provavelmente nunca aconteceu. Um experimento
mental bastou: Galileu imaginou deixar cair duas esferas, uma leve e outra pesada,
do topo da torre; supôs que o mais pesado cairia mais rápido; e usou seus modelos
mentais para mostrar que isso levava a uma contradição. Suponha, disse ele, que eu
conecte as duas esferas com um fio de massa desprezível.
O sistema de duas esferas resultante, agora formando um objeto mais pesado,

deve cair ainda mais rápido. Mas isso é um absurdo porque a esfera mais leve,
que cai com menos rapidez, deve desacelerar a mais pesada.
Essas contradições intermináveis levam a apenas uma possibilidade: todos os
objetos caem na mesma velocidade, independentemente de sua massa.
Esse é o tipo de raciocínio que nosso simulador mental oferece,
dia ou noite. O próprio fato de podermos conjurar cenas mentais tão
complexas destaca a extraordinária variedade de algoritmos em nosso cérebro. É
claro que aprendemos durante o dia, mas a repetição neuronal noturna multiplica
nosso potencial. Este pode de fato ser um dos segredos da espécie humana, pois
dados sugestivos indicam que nosso sono pode ser o mais profundo e eficaz de
todos os primatas.26
SONO, INFÂNCIA E ESCOLA
E as crianças? Todo mundo sabe que os bebês passam a maior parte do tempo
dormindo e que o sono diminui com a idade. Isso é lógico: a primeira infância é um
período privilegiado durante o qual nossos algoritmos de aprendizagem têm uma
carga de trabalho mais pesada. De fato, dados experimentais mostram que, pelo
mesmo período de tempo, o sono de uma criança é duas a três vezes mais eficaz do
que o de um adulto. Após um aprendizado intensivo, crianças de dez anos mergulham
muito mais rápido no sono profundo do que os adultos.
Suas ondas lentas são mais intensas e o resultado é claro: quando estudam
uma sequência, adormecem e acordam no dia seguinte revigorados e
descansados, descobrem mais regularidades do que os adultos . alguns meses de
vida. Crianças com menos de um ano de idade confiam nele, por exemplo,
quando aprendem uma palavra nova. Os bebês que tiram uma soneca curta, de
apenas uma hora e meia de duração, retêm muito melhor as palavras que
aprendidas poucas horas antes de adormecer.28 Acima de tudo, eles as

generalizam melhor: a primeira vez que os bebês ouvem a palavra “cavalo”, eles
a associam apenas a uma ou duas instâncias específicas de cavalos, mas depois
de dormir, seus cérebros conseguem associar esta palavra a novos espécimes
que nunca viram antes. Como Kekule no berço, esses cientistas iniciantes fazem
descobertas durante o sono e acordam com uma teoria muito melhor da palavra
cavalo.
E as crianças em idade escolar? A pesquisa é igualmente clara: na pré-
escola, mesmo um breve cochilo à tarde fortalece a memória do que as crianças
aprenderam pela manhã.29 Para obter o máximo benefício, o sono deve ocorrer
poucas horas após o aprendizado. Esse benefício, no entanto, existe apenas em
crianças que tiram sonecas regularmente. Como o cérebro regula naturalmente
sua necessidade de sono de acordo com a estimulação do dia, não parece útil
forçar as crianças a cochilar, mas devemos incentivar o cochilo para aqueles que
sentem necessidade.
Infelizmente, com TV, smartphones e internet em abundância, o sono
das crianças, como o dos adultos, agora está ameaçado em todas as frentes.
Quais são as consequências? A privação crônica do sono pode chegar a
causar dificuldades específicas de aprendizagem, que aparentemente estão
aumentando? Isso ainda é apenas uma hipótese, mas há algumas dicas
sugestivas.30 Por exemplo, um subconjunto de crianças hiperativas com
distúrbios de atenção pode simplesmente estar sofrendo de uma falta crônica
de sono. Alguns sofrem de apneias do sono que os impedem de cair no sono
profundo – e simplesmente limpar as vias aéreas é suficiente para eliminar não
apenas o déficit crônico de sono, mas também o déficit de atenção. Experimentos
recentes sugerem ainda que a estimulação elétrica do cérebro, ao aumentar a
profundidade das ondas lentas do sono, pode mitigar o déficit de aprendizado em
crianças hiperativas.
Deixe-me ser claro: esses dados recentes ainda precisam ser replicados,
e de forma alguma estou negando a existência de distúrbios de atenção
genuínos (em crianças para quem o treinamento da atenção, ou às vezes a
droga Ritalina, pode ter efeitos muito positivos). Do ponto de vista educacional,
no entanto, há poucas dúvidas de que melhorar a duração e a qualidade do
sono pode ser uma intervenção eficaz para todas as crianças, especialmente
aquelas com dificuldades de aprendizagem.
Essa ideia foi testada em adolescentes. Perto da puberdade,

a cronobiologia mostra que o ciclo do sono muda: os adolescentes não
sentem a necessidade de ir para a cama cedo, mas, como todos podem
ter vivenciado, são os que têm maior dificuldade para se levantar. Não é
que eles estejam relutantes tanto quanto uma simples consequência da
enorme turbulência nas redes neurais e hormonais que controlam seu
ciclo de sono/vigília. Infelizmente, ninguém parece ter informado os
diretores das escolas, que continuam a exigir que os alunos estejam
presentes no início da manhã. O que haveria de tão ruim em mudar essa
convenção arbitrária? O experimento foi feito, com resultados promissores:
uma vez que o início das aulas é atrasado em meia hora a uma hora, os
adolescentes dormem mais, a frequência escolar aumenta, a atenção nas
aulas melhora e as notas disparam.31 E a lista de positivos os efeitos
podem continuar: a Academia Americana de Pediatria recomenda adiar o
horário de início das aulas como uma contramedida eficiente para a
obesidade, depressão e acidentes na adolescência (por exemplo, dirigir
sonolento). Que o bem-estar físico e mental geral das crianças possa ser
melhorado tão facilmente, sem nenhum custo, é um magnífico exemplo
de adaptação do sistema educacional às restrições da biologia cerebral.
CONCLUSÃO
Conciliando Educação com Neurociência
A maior e mais importante dificuldade da ciência humana é a criação e

educação das crianças.
Montaigne, Ensaios (1580)
A pedagogia é como a medicina: uma arte, mas que se baseia - ou

deveria se basear - em conhecimentos científicos precisos.
Jean Piaget, “La Pedagogie Moderne” (1949)
Ao final desta jornada, espero tê-lo convencido de que, graças aos recentes
avanços em psicologia cognitiva, neurociência, inteligência artificial e ciências
da educação, agora possuímos conhecimento detalhado sobre como nosso
cérebro aprende. Esse conhecimento não é auto-evidente, e a maioria de
nossas ideias preconcebidas sobre aprendizagem precisam ser rescindidas:
Não, os bebês não são lousas em branco: já no primeiro ano de vida,

eles possuem vasto conhecimento de objetos, números, probabilidades,
espaço e pessoas.
Não, o cérebro da criança não é uma esponja que absorve
obedientemente a estrutura de seu ambiente. Lembre-se de Felipe, o
contador de histórias brasileiro cego e tetraplégico, ou Nicholas
Saunderson, o matemático cego que ocupava a cadeira de Newton: esses
casos nos mostram que as entradas sensoriais podem ser interrompidas
ou ausentes sem arruinar a compreensão de ideias abstratas de uma criança.
Não, o cérebro não é apenas uma rede de neurônios maleáveis que
espera ser moldado por suas entradas: todos os grandes feixes de fibras são
presente no nascimento, e a plasticidade cerebral, embora indispensável,

normalmente refina apenas os últimos milímetros de nossas conexões.
Não, a aprendizagem não ocorre passivamente por meio da
simples exposição a dados ou palestras: ao contrário, a psicologia
cognitiva e as imagens cerebrais nos mostram que as crianças são
cientistas iniciantes, constantemente gerando novas hipóteses, e que
o cérebro é um órgão sempre alerta que aprende por meio de testando
os modelos que projeta no mundo exterior.
Não, os erros não são a marca dos maus alunos: errar é parte integrante
do aprendizado, porque nosso cérebro só consegue ajustar seus modelos
quando descobre uma discrepância entre o que imaginou e a realidade.
Não, o sono não é apenas um período de descanso: é parte integrante

do nosso algoritmo de aprendizado, um período privilegiado durante o
qual nosso cérebro reproduz seus modelos em loop e aprimora a
experiência do dia por um fator de dez a cem.
E não, as máquinas de aprendizado de hoje não estão nem perto
de superar o cérebro humano: nossos cérebros continuam, pelo
menos no momento, o mais rápido, mais eficaz e mais eficiente em
termos de energia de todos os dispositivos de processamento de
informações. Verdadeira máquina probabilística, ela extrai com sucesso
o máximo de informação de cada momento do dia e a transforma à noite
em conhecimento abstrato e geral, de uma forma que ainda não sabemos
reproduzir em computadores.
Na batalha prometeica entre o chip de computador e o

neurônio, a máquina e o cérebro, este último ainda tem a vantagem.
Com certeza, em princípio, não há nada na mecânica do cérebro que uma
máquina não possa imitar. Na verdade, todas as ideias que expus aqui já estão
nas mãos de cientistas da computação cujas pesquisas são abertamente
inspiradas pela neurociência.1 Na prática, porém, as máquinas ainda têm um
longo caminho a percorrer. Para melhorar, eles precisarão de muitos dos
ingredientes que analisamos aqui: uma linguagem interna de pensamento que
permita que os conceitos sejam recombinados de forma flexível; algoritmos que
raciocinam com distribuições de probabilidade; uma função de curiosidade;
sistemas eficazes de gestão da atenção e da memória; e talvez um algoritmo de
sono/vigília que expanda o
conjunto de treinamento e aumenta as chances de descoberta. Algoritmos

desse tipo estão começando a aparecer, mas permanecem anos-luz de
distância do desempenho de um bebê recém-nascido. O cérebro mantém a
vantagem sobre as máquinas, e prevejo que assim será por muito tempo.
TREZE MENSAGENS PARA LEVAR PARA CASA PARA OTIMIZAR O POTENCIAL DAS CRIANÇAS
Quanto mais estudo o cérebro humano, mais me impressiono. Mas também

sei que sua atuação é frágil, pois depende muito do ambiente em que se
desenvolve. Demasiadas crianças não atingem todo o seu potencial porque
as suas famílias ou escolas não lhes proporcionam as condições ideais de
aprendizagem.
As comparações internacionais são alarmantes: mostram que, nos
últimos quinze ou vinte anos, os resultados escolares de muitos países
ocidentais, incluindo meu país natal, a França, caíram, enquanto os de muitos
países e cidades asiáticos - como Cingapura, Xangai, e Hong Kong —
dispararam.2 Em matemática, que costumava ser a maior força da França, as
pontuações caíram tão acentuadamente entre 2003 e 2015 que meu país
agora ocupa o último lugar na Europa na pesquisa TIMSS, que avalia as
realizações de quinze anos -estudantes antigos em matemática e ciências.
Diante de resultados tão ruins, às vezes somos rápidos demais em

apontar o dedo para os professores. Na realidade, ninguém sabe as razões
por trás dessa queda recente: os culpados são os pais, as escolas ou a
sociedade como um todo? Devemos culpar a falta de sono, a desatenção
ou os videogames? Quaisquer que sejam as razões, estou convencido de
que os recentes avanços na ciência da aprendizagem podem ajudar a
reverter essa tendência sombria. Agora sabemos muito mais sobre as
condições que maximizam o aprendizado e a memória. Todos nós, pais e
professores, devemos aprender a implementar essas condições em nossas
vidas diárias, em casa e na sala de aula.
Os resultados científicos que apresentei convergem para
ideias simples e facilmente aplicáveis. Vamos analisá-los juntos:
Não subestime as crianças. Ao nascer, os bebês possuem um rico

conjunto de habilidades e conhecimentos essenciais. Conceitos de
objetos, senso de número, habilidade para linguagens, conhecimento
de pessoas e suas intenções. . . tantos módulos cerebrais já estão
presentes em crianças pequenas, e essas habilidades fundamentais serão

posteriormente recicladas em aulas de física, matemática, linguagem e
filosofia. Aproveitemos as primeiras intuições das crianças: cada palavra
e símbolo que aprendem, por mais abstratos que sejam, devem se
conectar ao conhecimento prévio. Essa conexão é o que lhes dará significado.
Aproveite os períodos sensíveis do cérebro. Nos primeiros anos de vida,

bilhões de sinapses são criadas e destruídas todos os dias. Essa atividade
efervescente torna o cérebro da criança particularmente receptivo,
especialmente para o aprendizado de idiomas. Devemos expor as crianças
a uma segunda língua o mais cedo possível. Devemos também ter em mente
que a plasticidade se estende pelo menos até a adolescência. Durante todo
esse período, a imersão em língua estrangeira pode transformar o cérebro.
Enriqueça o ambiente. Em termos de aprendizagem, o cérebro da criança

é o mais poderoso dos supercomputadores. Devemos respeitá-lo fornecendo-
lhe os dados certos desde cedo: jogos de palavras ou construção, histórias,
quebra-cabeças. . . . Não hesitemos em manter conversas sérias com
nossos filhos, responder suas perguntas, mesmo as mais difíceis, usando
um vocabulário elaborado, e explicar a eles o que entendemos do mundo.
Ao dar aos nossos pequenos um ambiente enriquecido, principalmente no
que diz respeito às línguas, maximizamos o seu crescimento cerebral e
prolongamos a sua plasticidade juvenil.
Rescindir a ideia de que todas as crianças são diferentes. A ideia de

que cada um de nós tem um estilo de aprendizagem distinto é um mito.
Imagens do cérebro mostram que todos nós confiamos em circuitos
cerebrais e regras de aprendizado muito semelhantes. Os circuitos cerebrais
para leitura e matemática são os mesmos em cada um de nós, mais ou
menos alguns milímetros – mesmo em crianças cegas. Todos nós
enfrentamos obstáculos semelhantes no aprendizado, e os mesmos
métodos de ensino podem superá-los. As diferenças individuais, quando
existem, residem mais no conhecimento existente das crianças, na motivação
e na velocidade com que aprendem. Vamos determinar cuidadosamente o
nível atual de cada criança para selecionar os problemas mais relevantes -
mas, acima de tudo, vamos garantir que todas as crianças adquiram os
fundamentos de linguagem, alfabetização e matemática de que todos
precisam.
Preste atenção na atenção. A atenção é a porta de entrada para a

aprendizagem: virtualmente nenhuma informação será memorizada se
não tiver sido previamente amplificada pela atenção e consciência.
Os professores devem se tornar mestres em capturar a atenção de seus
alunos e direcioná-la para o que importa. Isso implica livrar-se
cuidadosamente de qualquer fonte de distração: livros didáticos
excessivamente ilustrados e salas de aula excessivamente decoradas
apenas distraem as crianças de sua tarefa principal e as impedem de se
concentrar.
Mantenha as crianças ativas, curiosas, engajadas e
autônomas. Os alunos passivos não aprendem muito. Torne-os mais
ativos. Envolva sua inteligência para que suas mentes brilhem de
curiosidade e gerem constantemente novas hipóteses. Mas não
espere que eles descubram tudo sozinhos: guie-os por meio de um
currículo estruturado.
Faça com que cada dia escolar seja agradável. Os circuitos de
recompensa são moduladores essenciais da plasticidade cerebral.
Ative-os recompensando todos os esforços e tornando cada hora de aula
divertida. Nenhuma criança é insensível a recompensas materiais – mas
seus cérebros sociais respondem igualmente a sorrisos e encorajamento.
A sensação de ser apreciado e a consciência do próprio progresso são
recompensas em si. Por outro lado, elimine a ansiedade e o estresse que
impedem o aprendizado – especialmente em matemática.
Incentive os esforços. Uma experiência escolar prazerosa não é

sinônimo de “sem esforço”. Pelo contrário, as coisas mais interessantes
para aprender – ler, matemática ou tocar um instrumento – exigem anos
de prática. A crença de que tudo vem fácil pode levar as crianças a
pensar que são idiotas se não tiverem sucesso. Explique-lhes que todos
os alunos devem se esforçar e que, quando o fazem, todos progridem.
Adote uma mentalidade de crescimento, não uma mentalidade fixa.
Ajude os alunos a aprofundar seu pensamento. Quanto mais

profundo nosso cérebro processa as informações, melhor podemos lembrar.
Nunca se contente com o aprendizado superficial; sempre apontar
para uma compreensão mais profunda. E lembre-se das palavras de
Henry Roediger: “Tornar as condições de aprendizagem mais difíceis,
exigir que os alunos se envolvam mais no esforço cognitivo, muitas

vezes leva a uma maior retenção”.
Defina objetivos de aprendizagem claros. Os alunos aprendem melhor
quando o propósito da aprendizagem é claramente declarado a eles e
quando eles podem ver que tudo à sua disposição converge para esse
propósito. Explique claramente o que se espera deles e mantenha o foco
nesse objetivo.
Aceite e corrija os erros. Para atualizar seus modelos mentais, nossas
áreas cerebrais devem trocar mensagens de erro. O erro é, portanto, a
própria condição da aprendizagem. Não vamos punir os erros, mas corrigi-
los rapidamente, dando às crianças um feedback detalhado, mas sem
estresse. De acordo com a síntese da Education Endowment Foundation, a
qualidade do feedback que os professores fornecem aos seus alunos é a
alavanca mais eficaz para o progresso acadêmico.
Pratique regularmente. O aprendizado de uma só vez não é suficiente

— as crianças precisam consolidar o que aprenderam para torná-lo
automático, inconsciente e reflexivo. Essa rotinização libera nossos circuitos
pré-frontais e parietais, permitindo-lhes atender a outras atividades. A
estratégia mais eficaz é espaçar o aprendizado: um pouco todos os dias. O
espaçamento entre as sessões de prática ou estudo permite que as
informações sejam gravadas permanentemente na memória.
Deixe os alunos dormirem. O sono é um ingrediente essencial do nosso

algoritmo de aprendizado. Nosso cérebro se beneficia cada vez que
dormimos, mesmo quando cochilamos. Então, vamos nos certificar de que
nossos filhos durmam longa e profundamente. Para tirar o máximo proveito
do trabalho noturno inconsciente do nosso cérebro, estudar uma lição ou
reler um problema antes de adormecer pode ser um truque bacana. E
porque o ciclo de sono dos adolescentes é alterado, não vamos acordá-los
cedo demais!
Somente nos conhecendo melhor podemos aproveitar ao máximo os poderosos

algoritmos com os quais nossos cérebros estão equipados. Todas as crianças
provavelmente se beneficiariam de conhecer os quatro pilares da aprendizagem:
atenção, engajamento ativo, feedback de erros e consolidação. Quatro slogans os
resumem efetivamente: “Concentre-se totalmente”, “participe da aula”, “aprenda
com seus erros” e
“pratique todos os dias, aproveite todas as noites.” Estas são mensagens muito
simples que todos devemos prestar atenção.
UMA ALIANÇA PARA AS ESCOLAS DE AMANHÃ
Como harmonizar nosso sistema escolar com as descobertas das ciências

cognitivas e do cérebro? É necessária uma nova aliança. Assim como a medicina
depende de toda uma pirâmide de pesquisas biológicas e de design de
medicamentos, acredito que no futuro, a educação dependerá cada vez mais de
pesquisas baseadas em evidências, incluindo experimentos laboratoriais
fundamentais, bem como ensaios em escala de sala de aula e estudos de
implantação. Somente combinando as forças distintas de professores, pais e
cientistas atingiremos o objetivo digno de reviver a curiosidade e a alegria de
aprender em todas as crianças, a fim de ajudá-las a otimizar seu potencial cognitivo.
Especialistas em sala de aula, os professores são encarregados da

inestimável tarefa de educar nossas crianças, que em breve terão o futuro
deste mundo em suas mãos. No entanto, muitas vezes deixamos os professores
com recursos muito mínimos para atingir esse objetivo. Merecem muito mais respeito
e investimento. Os professores de hoje enfrentam desafios cada vez mais severos,
incluindo a diminuição de recursos, o aumento do tamanho das turmas, a violência
crescente e a tirania implacável do currículo. Surpreendentemente, a maioria dos
professores recebe pouca ou nenhuma formação profissional na ciência da
aprendizagem. Meu sentimento é que devemos mudar urgentemente esse estado
de coisas, porque agora possuímos um conhecimento científico considerável sobre
os algoritmos de aprendizagem do cérebro e as pedagogias mais eficientes.
Espero que este livro possa dar um pequeno passo em direção a uma
revisão global dos programas de formação de professores, a fim de oferecer a
eles as melhores ferramentas da ciência cognitiva, de acordo com seu compromisso
com nossas crianças.
Espero que os professores também concordem que sua liberdade
pedagógica não deve de forma alguma ser restringida pela crescente ciência do
cérebro que aprende. Pelo contrário, um dos objetivos deste livro é permitir que eles
exerçam melhor essa liberdade. “Penso em um herói”, disse Bob Dylan, “como
alguém que entende o grau de responsabilidade que vem com sua liberdade”. A
criatividade pedagógica genuína só pode vir da plena consciência da gama de
estratégias disponíveis
e a capacidade de escolher cuidadosamente entre eles, com pleno conhecimento

de seu impacto sobre os alunos. Os princípios que articulei ao longo deste livro são
compatíveis com múltiplas abordagens pedagógicas, e muito pode ser feito para
colocá-los em prática na sala de aula. Espero muito da inventividade dos professores,
porque acho que é essencial para o entusiasmo das crianças.
Na minha opinião, as escolas do futuro também deveriam ter um lugar

muito mais importante para os pais. São os atores primordiais no
desenvolvimento da criança, cujas ações precedem e prolongam a escola. O lar é
onde as crianças têm a chance de ampliar, por meio do trabalho e das brincadeiras,
os conhecimentos adquiridos em sala de aula. A família está aberta sete dias por
semana e, assim, pode, melhor que a escola, aproveitar ao máximo cada alternância
de vigília e sono, de aprendizado e consolidação. As escolas deveriam dedicar mais
tempo ao treinamento dos pais, porque esta é uma das intervenções mais eficazes:
pais bem treinados podem ser companheiros de equipe inestimáveis para professores
e observadores astutos das dificuldades de seus filhos.
Finalmente, os cientistas devem se envolver com professores e escolas em

para consolidar o campo crescente da ciência da educação.
Comparada com o enorme progresso dos últimos trinta anos nas ciências
cognitivas e do cérebro, a pesquisa educacional continua sendo uma área
de estudo relativamente negligenciada. As organizações de pesquisa devem
incentivar os cientistas a realizar grandes programas de pesquisa em todas as
áreas das ciências da aprendizagem, desde a neurociência e imagens cerebrais até
a neuropsicologia dos distúrbios do desenvolvimento, psicologia cognitiva e
sociologia educacional. Ampliar do laboratório para a sala de aula não é tão fácil
quanto parece, e precisamos muito de experimentos em grande escala nas escolas.
A ciência cognitiva pode ajudar a projetar e avaliar ferramentas educacionais
inovadoras.
Assim como a medicina se baseia na biologia, o campo da educação deve
estar alicerçado em um ecossistema de pesquisa sistemático e rigoroso que reúna
professores, pacientes e pesquisadores, na busca incessante por estratégias de
aprendizagem mais eficazes e baseadas em evidências.
Figura 1.
A plasticidade cerebral às vezes
pode superar grandes obstáculos. Aos
três anos, o hemisfério direito de Nico
foi removido cirurgicamente (veja
cortes de ressonância magnética no
meio). No entanto, essa grande perda
não o impediu de se tornar um artista
consumado, capaz de pintar tanto
cópias excelentes (em baixo) quanto
obras originais (em cima).
O aprendizado espremeu todos os
seus talentos, incluindo linguagem,
matemática, leitura e pintura, em um
único hemisfério.
Figura 2.
Aprender significa desenvolver uma hierarquia de representações apropriadas ao problema em
questão. Na rede GoogLeNet, que aprende a identificar imagens, o ajuste de milhões de parâmetros
permite que cada nível da hierarquia reconheça um aspecto útil da realidade. No nível mais baixo, os
neurônios simulados são sensíveis a recursos básicos, como linhas orientadas ou texturas. À medida
que subimos na hierarquia, os neurônios respondem a formas cada vez mais complexas, incluindo
casas, olhos e insetos.
Figura 3.
Como uma rede neural profunda aprende a categorizar números manuscritos? Este é um
problema difícil porque um determinado dígito pode ser escrito de centenas de maneiras diferentes.
No nível mais baixo da hierarquia neuronal (canto inferior direito), os neurônios artificiais
confundem números que se parecem, como 9 e 4. Quanto mais alto na hierarquia vamos, mais
os neurônios são bem-sucedidos em agrupar todas as imagens do mesmo número e separando-
os por limites claros.
Figura 4.
Aprender significa inferir a gramática de um domínio. No MIT, dois cientistas da
computação inventaram um algoritmo que descobre a estrutura oculta de um campo científico.
O sistema é dotado de uma gramática de regras cujas combinações geram todo tipo de novas
estruturas: linhas, planos, círculos, cilindros. . . . Ao selecionar a estrutura que melhor se
ajusta aos dados, o algoritmo faz descobertas que levaram anos aos cientistas: a árvore das
espécies animais (Darwin, 1859), a redondeza da Terra (Parmênides, 600 aC) e o círculo de
cores (Newton, 1675).
Figura 5.
Longe de ser uma lousa em branco, os bebês possuem vastas quantidades de conhecimento.
No laboratório, os pesquisadores descobrem a sofisticação das intuições dos bebês medindo
sua surpresa quando são submetidos a situações que violam as leis da física, aritmética,
probabilidade ou geometria.
Figura 6.
Ao nascer, o cérebro infantil já canaliza a linguagem falada para circuitos específicos do hemisfério
esquerdo. Quando os bebês são examinados usando ressonância magnética funcional enquanto
ouvem frases em sua língua materna, uma rede específica de regiões do cérebro se acende – o mesmo
que em adultos. A atividade começa na área auditiva primária, depois se estende gradualmente para
as áreas temporal e frontal, na mesma ordem do cérebro adulto. Esses dados refutam a ideia de um
cérebro inicialmente desorganizado, uma mera lousa em branco que aguarda a impressão de seu
ambiente.
Figura 7.
A arquitetura do cérebro humano tem uma longa história evolutiva. Muitas regiões
especializadas (aqui, as áreas sensoriais primárias) compartilham seu layout básico com outras
espécies. Eles são conectados no útero, sob a influência de muitos genes, e já estão ativos
durante o terceiro trimestre da gravidez. O cérebro dos primatas é caracterizado por áreas
sensoriais proporcionalmente menores e uma enorme expansão das regiões cognitivas do córtex
parietal (cinza), temporal e especialmente pré-frontal. No Homo sapiens, essas regiões são
notavelmente plásticas: abrigam uma linguagem de pensamento e nos permitem ampliar nosso
conhecimento ao longo da vida.
Figura 8.
Nas primeiras semanas de gravidez, o corpo se organiza com base genética. Nenhum
aprendizado é necessário para que os cinco dedos formem e recebam sua inervação
específica. Da mesma forma, a arquitetura fundamental do cérebro é estabelecida na
ausência de qualquer aprendizado. Ao nascer, o córtex já está organizado, dobrado e
conectado de uma maneira comum a todos os seres humanos e que nos distingue de todos
os outros primatas. A fiação detalhada, no entanto, pode variar dependendo do ambiente.
No terceiro trimestre de gestação, o cérebro fetal já começa a se adaptar às informações
que recebe do mundo exterior.
Figura 9.
O córtex humano é subdividido em áreas especializadas. Já em 1909, o neurologista
alemão Korbinian Brodmann (1868-1918) observou que o tamanho e a distribuição dos
neurônios variam nas diferentes regiões do córtex. Por exemplo, dentro da área de Broca,
que está envolvida no processamento de linguagem, Brodmann delineou três áreas
(numeradas 44, 45 e 47). Essas distinções foram confirmadas e refinadas por imagens
moleculares. O córtex é revestido com áreas distintas cujos limites são marcados por
variações repentinas na densidade do receptor de neurotransmissores. Durante a gravidez,
certos genes são expressos seletivamente nas diferentes regiões do córtex e ajudam a
subdividi-lo em órgãos especializados.
Figura 10.
Quando um sistema físico se auto-organiza, seja lava ou cera de abelha, não é incomum a
formação de hexágonos. O sistema nervoso não é exceção: em uma região do córtex entorrinal,
que atua como o GPS do cérebro, os neurônios se auto-organizam em “células de grade” que ladrilham
o espaço físico com uma rede de triângulos e hexágonos. Quando um rato explora uma grande sala,
cada neurônio dispara apenas quando o animal está no vértice de um desses triângulos.
Essas células de grade aparecem um único dia depois que o mouse começa a se mover: a sensação
de espaço é baseada em um circuito GPS quase inato.
Figura 11.
A plasticidade sináptica permite que o
cérebro se reorganize parcialmente quando
sofre danos graves. A paciente AH (topo) nasceu
com apenas um hemisfério cerebral: com sete
semanas de gestação, seu hemisfério direito
parou de se desenvolver. Em um cérebro normal
(abaixo), as áreas visuais iniciais do hemisfério
esquerdo representam apenas a metade direita
do mundo (coloridas azul e verde no disco
central). No entanto, no paciente AH, regiões
muito pequenas se reorganizaram e começaram
a responder à metade esquerda do mundo (em
vermelho, indicado por setas brancas). Assim,
AH não é totalmente cego do lado esquerdo, ao
contrário de um adulto que sofreu a mesma
lesão. No entanto, essa reorganização é
modesta: no córtex visual primário, o determinismo
genético supera a plasticidade cerebral.
Figura 12.
A educação consiste em reciclar circuitos cerebrais antigos, redirecionando-os para novas funções.
Desde a infância, todos nós possuímos áreas para representar números (em verde), que também
usamos para cálculo mental (em azul). Notavelmente, mesmo matemáticos profissionais continuam
a usar as mesmas regiões do cérebro ao pensar em conceitos matemáticos de nível superior (em
vermelho). Essas redes neurais inicialmente respondem a conjuntos concretos de objetos, mas
depois são recicladas para conceitos mais abstratos.
Figura 13.
A aquisição da matemática é amplamente independente da experiência sensorial. Até os
cegos podem se tornar excelentes matemáticos — e neles as mesmas regiões do córtex
parietal, temporal e frontal são ativadas durante a reflexão matemática como nos
matemáticos videntes. A única diferença é que eles também reciclam seu córtex visual
para fazer contas.
Figura 14.
Aprender a ler recicla uma rede de áreas do cérebro envolvidas na visão e na linguagem
falada. As regiões coloridas são aquelas afetadas pela aquisição da leitura: sua atividade em
resposta a uma frase escrita aumenta com a pontuação de leitura, de puros analfabetos a leitores
experientes. A alfabetização afeta o cérebro de duas maneiras diferentes: especializa as áreas
visuais para letras escritas, particularmente em uma região do hemisfério esquerdo chamada “área
visual da forma da palavra”, e ativa os circuitos da linguagem falada por meio da visão.
Figura 15.
A ressonância magnética funcional pode ser usada para rastrear a aquisição da alfabetização em crianças.
Assim que uma criança aprende a ler, uma região visual do hemisfério esquerdo começa a se especializar
em sequências de letras. A leitura recicla parte do mosaico de regiões que todos os primatas usam para
reconhecer rostos, objetos e lugares.
Figura 16.
Sinais de alerta podem modular massivamente o aprendizado. Neuromoduladores como
serotonina, acetilcolina e dopamina, cujos sinais são transmitidos para grande parte do
córtex, nos dizem quando prestar atenção e parecem forçar o cérebro a aprender. No
experimento mostrado na parte inferior, ratos ouviram um som de nove quilohertz que foi
associado a uma estimulação elétrica do núcleo basal de Meynert, desencadeando assim a
liberação de acetilcolina no córtex. Após alguns dias de exposição, todo o córtex auditivo foi
invadido por essa frequência sonora e suas vizinhas (regiões em azul).
Figura 17.
O feedback do erro é o terceiro pilar da aprendizagem. Ao detectar e corrigir seus erros, o
cérebro aprende progressivamente a ajustar seus modelos do ambiente. Praticamente todas
as regiões do cérebro emitem e trocam sinais de erro. Nesse experimento, o cérebro aprende
a detectar violações em uma sequência de sons. Primeiro, uma melodia curta de cinco notas
é tocada várias vezes. Quando a sequência muda sem aviso, uma resposta surpresa (em
vermelho) sinaliza o erro para outras regiões do cérebro e permite que elas alterem suas previsões.
As áreas auditivas reagem a violações locais de expectativas (acima), enquanto uma extensa
rede, que inclui o córtex pré-frontal, responde a violações globais de toda a melodia (abaixo).
Figura 18.
A consolidação é o quarto pilar da aprendizagem. Inicialmente, todo aprendizado requer um
esforço considerável, acompanhado de intensa ativação das regiões parietal e frontal para
atenção espacial e executiva. Para um leitor iniciante, por exemplo, decifrar palavras é um
processo lento, trabalhoso e sequencial: quanto mais letras uma palavra tiver, mais devagar a
criança lê (topo). Com a prática, surge a automaticidade: a leitura torna-se um processo rápido,
paralelo e inconsciente (parte inferior). Surge um circuito especializado de leitura, liberando
recursos corticais para outras tarefas.
Figura 19.
O sono desempenha um papel importante na consolidação da aprendizagem. Quando um rato
adormece, os neurônios em seu hipocampo repetem, muitas vezes em velocidade acelerada, as
mesmas sequências de atividade que experimentou quando estava acordado. Essa atividade, que
se estende até o córtex, pode ser repetida centenas de vezes durante a noite. Essa repetição
neuronal ajuda a consolidar e automatizar o que foi aprendido no dia anterior. Enquanto dormimos,
nosso cérebro pode até descobrir regularidades que nos iludiram no dia anterior.
AGRADECIMENTOS
Muitos encontros estimularam o crescimento deste livro. Vinte e

cinco anos atrás, Michael Posner e Bruce McCandliss, então na
Universidade de Oregon, foram os primeiros a me convencer de
que a ciência cognitiva poderia ser relevante para a educação.
Devo muito às muitas reuniões científicas que organizaram com a
ajuda de Bruno della Chiesa e da Organização para Cooperação e
Desenvolvimento Econômico (OCDE). Na década seguinte, um
maravilhoso grupo de amigos sul-americanos – Marcela Peña,
Sidarta Ribeiro, Mariano Sigman, Alejandro Maiche e Juan Valle
Lisboa – assumiu a liderança e formou toda uma geração de jovens
cientistas nos inesquecíveis encontros anuais da América Latina.
Escola de Educação, Ciências Cognitivas e Neurais. Sou
eternamente grato a eles, bem como à Fundação James S.
McDonnell e seus líderes, John Bruer e Susan Fitzpatrick, por me
darem a chance de participar de todos eles.
Outra pessoa que compartilhou essas experiências
estimulantes é minha esposa e colega, Ghislaine Dehaene-Lambertz.
Estamos discutindo o desenvolvimento do cérebro e, aliás, a
educação de nossos filhos há trinta e dois anos. Escusado será dizer
que devo tudo a ela, incluindo a leitura meticulosa das páginas
anteriores.
Mais um aniversário se passou: faz trinta e quatro anos que
entrei nos laboratórios de Jacques Mehler e Jean-Pierre Changeux.
A influência deles em meu pensamento é imensa, e eles
reconhecerão muitos de seus temas favoritos neste livro – assim
como outros colegas e amigos muito próximos, como Lucia Braga,
Laurent Cohen, Naama Friedmann, Véronique Izard, Régine
Kolinsky, José Morais, Lionel Naccache, Christophe Pallier, Mariano
Sigman, Elizabeth Spelke e Josh Tenenbaum.
Agradeço também ao meu querido amigo Antonio Battro,

que continuamente me incentivou a buscar pesquisas sobre mente, cérebro
e educação. Agradeço também a ele por ter me apresentado a Nico, um
artista de personalidade marcante que muito gentilmente me permitiu
reproduzir aqui algumas de suas pinturas. Agradeço também a Yoshua
Bengio, Alain Chédotal, Guillaume e David Dehaene, Molly Dillon, Jessica
Dubois, György Gergely, Eric Knudsen, Leah Krubitzer, Bruce McCandliss,
Josh Tenenbaum, Fei Xu e Robert Zatorre por me permitir reproduzir as
muitas figuras em este livro.
Gostaria também de agradecer a todas as instituições que
apoiaram minha pesquisa ao longo dos anos com lealdade infalível,
em particular o Institut National de la Santé et de la Recherche
Médicale (INSERM), Commissariat à l'Énergie Atomique et aux Énergies
Alternatives (CEA ), Collège de France, Université Paris Sud, European
Research Council (ERC) e Bettencourt Schueller Foundation. Graças a
eles, pude me cercar de alunos e colaboradores brilhantes e enérgicos.
Eles são numerosos demais para serem listados aqui, mas eles se
reconhecerão na longa lista de publicações que se segue. Uma menção
especial vai para Anna Wilson, Dror Dotan e Cassandra Potier-Watkins,
com quem desenvolvi software educacional e intervenções em sala de aula.
Jean-Michel Blanquer, o Ministro da Educação Nacional francês,

honrou-me com a sua confiança, propondo-me a presidir ao seu primeiro
Conselho Científico, um desafio emocionante pelo qual lhe agradeço de
todo o coração. Sou grato a todos os membros do conselho, incluindo
Esther Duflo, Michel Fayol, Marc Gurgand, Caroline Huron, Elena
Pasquinelli, Franck Ramus, Elizabeth Spelke e Jo Ziegler, e meu secretário-
geral Nelson Vallejo-Gomez, por seu compromisso e por tudo que me
ensinaram.
Esta edição se beneficiou muito do olhar crítico de meus editores
na Viking: Wendy Wolf e Terezia Cicel. E não teria chegado às mãos
deles sem a ajuda incessante de meus agentes, John e Max da Brockman
Inc. Obrigado por seu apoio constante e feedback inestimável.
Yallingup, Austrália, 7 de abril de 2019

NOTAS
INTRODUÇÃO
1. Veja os filmes The Miracle Worker (1962) e Marie's Story (2014), além de ler
os seguintes livros: Arnould, 1900; Keller, 1903.
2. Aprendizagem no nematoide C. elegans: Bessa, Maciel e Rodrigues, 2013; Kano et al., 2008; Rankin,
2004.
3. Site da Education Endowment Foundation (EEF):
Educationendowmentfoundation.org.uk.
4. O cérebro acompanha constantemente a incerteza: Meyniel e Dehaene, 2017; Heilbron e Meyniel, 2019.
CAPÍTULO 1: SETE DEFINIÇÕES DE APRENDIZAGEM
1. Você pode tentar esta experiência por si mesmo na exposição C3RV34U que organizei no
Cité des sciences, o principal museu de ciências de Paris.
2. Rede neural artificial LeNet: LeCun, Bottou, Bengio e Haffner, 1998.
3. Visualizando a hierarquia de unidades ocultas na rede neural artificial GoogLeNet: Olah, Mordvintsev
e Schubert, 2017.
4. Separação progressiva dos dez dígitos por uma rede neural profunda: Guerguiev, Lillicrap e Richards,
2017.
5. Aprendizagem por reforço: Mnih et al., 2015; Sutton e Barto, 1998.
6. Rede neural artificial que aprende a jogar videogames Atari: Mnih et al., 2015.
7. Rede neural artificial que aprende a jogar Go: Banino et al., 2018; Prata e outros, 2016.
8. Aprendizagem adversarial: Goodfellow et al., 2014.
9. Redes neurais convolucionais: LeCun, Bengio e Hinton, 2015; LeCun et al., 1998.
10. Algoritmo de seleção natural de Darwin: Dennett, 1996.
CAPÍTULO 2: POR QUE NOSSO CÉREBRO APRENDE MELHOR QUE AS MÁQUINAS ATUAIS
1. As redes neurais artificiais implementam principalmente as operações inconscientes do cérebro:

Dehaene, Lau e Kouider, 2017.
2. As redes neurais artificiais tendem a aprender regularidades superficiais: Jo e Bengio, 2017.
3. Geração de imagens que confundem humanos e redes neurais artificiais: Elsayed
e outros, 2018.
4. Rede neural artificial que aprende a reconhecer CAPTCHAs: George et al., 2017.
5. Crítica da velocidade de aprendizado em redes neurais artificiais: Lake, Ullman, Tenenbaum,
e Gersmann, 2017.
6. Falta de sistematicidade em redes neurais artificiais: Fodor e Pylyshyn, 1988; Fodor e McLaughlin,
1990.
7. Hipótese da linguagem do pensamento: Amalric, Wang, et al., 2017; Fodor, 1975.

8. Aprendendo a contar como inferência do programa: Piantadosi, Tenenbaum e Goodman, 2012; ver
também Piantadosi, Tenenbaum e Goodman, 2016.
9. Representações recursivas como singularidade da espécie humana: Dehaene, Meyniel,
Wacongne, Wang e Pallier, 2015; Everaert, Huybregts, Chomsky, Berwick e Bolhuis, 2015;
Hauser, Chomsky e Fitch, 2002; Hauser e Watumull, 2017.
10. Singularidade humana na codificação de uma sequência elementar de sons: Wang, Uhrig,
Jarraya e Dehaene, 2015.
11. Aquisição de regras geométricas - lento em macacos, ultra-rápido em crianças: Jiang et al.,
2018.
12. O cérebro humano consciente se assemelha a uma máquina de Turing serial: Sackur e Dehaene,
2009; Zylberberg, Dehaene, Roelfsema e Sigman, 2011.
13. Aprendizado rápido do significado das palavras: Tenenbaum, Kemp, Griffiths e Goodman, 2011;
Xu e Tenenbaum, 2007.
14. Aprendizagem de palavras com base na atenção compartilhada: Baldwin et al., 1996.
15. Conhecimento de determinantes e outras palavras de função aos doze meses: Cyr e Shi,
2013; Shi e Lepage, 2008.
16. Princípio de exclusividade mútua na aprendizagem de palavras: Carey e Bartlett, 1978; Clark,
1988; Markman e Wachtel, 1988; Markman, Wasow e Hansen, 2003.
17. Dependência reduzida de exclusividade mútua em bilíngues: Byers-Heinlein e Werker,
2009.
18. Rico, um cachorro que aprendeu centenas de palavras: Kaminski, Call e Fischer, 2004.
19. Modelagem de um “cientista artificial”: Kemp e Tenenbaum, 2008.
20. Descobrindo o princípio da causalidade: Goodman, Ullman e Tenenbaum, 2011;
Tenenbaum et al., 2011.
21. O cérebro como modelo generativo: Lake, Salakhutdinov e Tenenbaum, 2015; Lago et
al., 2017.
22. A teoria da probabilidade é a lógica da ciência: Jaynes, 2003.
23. Modelo Bayesiano de processamento de informação no córtex: Friston, 2005. Para dados
empíricos sobre a passagem hierárquica de mensagens de erro probabilísticas no córtex, ver,
por exemplo, Chao, Takaura, Wang, Fujii e Dehaene, 2018; Wacongne et al., 2011.
CAPÍTULO 3: CONHECIMENTO INVISÍVEL DOS BEBÊS
1. Conceito de objeto em bebês: Baillargeon e DeVos, 1991; Kellman e Spelke, 1983.

2. Aquisição rápida de como os objetos caem e o que é suficiente para mantê-los apoiados:
Baillargeon, Needham e DeVos, 1992; Hespos e Baillargeon, 2008.
3. Conceito de número em bebês: Izard, Dehaene-Lambertz e Dehaene, 2008; Izard, Sann,
Spelke e Streri, 2009; Starkey e Cooper, 1980; Starkey, Spelke e Gelman, 1990. Uma revisão
detalhada dessas descobertas pode ser encontrada na segunda edição do meu livro The Number
Sense (Dehaene, 2011).
4. Conhecimento multimodal de números em neonatos: Izard et al., 2009.
5. Adição e subtração de pequenos números em bebês: Koechlin, Dehaene e Mehler, 1997; Wynn,
1992.
6. Adição e subtração de números grandes em bebês: McCrink e Wynn, 2004.
7. A precisão do senso numérico é refinada com a idade e a educação: Halberda e
Feigenson, 2008; Piazza et al., 2010; Piazza, Pica, Izard, Spelke e Dehaene, 2013.
8. Sentido numérico em filhotes: Rugani, Fontanari, Simoni, Regolin e Vallortigara, 2009;
Rugani, Vallortigara, Priftis e Regolin, 2015.
9. Número de neurônios em animais não treinados: Ditz e Nieder, 2015; Viswanathan e

Nieder, 2013.
10. Imagens do cérebro e evidências unicelulares para neurônios numéricos em humanos: Piazza, Izard,
Pinel, Le Bihan e Dehaene, 2004; Kutter, Bostroem, Elger, Mormann e Nieder, 2018.
11. Conhecimento básico em bebês: Spelke, 2003.

12. Raciocínio Bayesiano em bebês: Xu e Garcia, 2008.
13. A criança como “cientista no berço”: Gopnik, Meltzoff e Kuhl, 1999; Gopnik et ai.,
2004.
14. Compreensão dos bebês sobre probabilidades, recipientes e aleatoriedade: Denison e Xu, 2010; Gweon,
Tenenbaum e Schulz, 2010; Kushnir, Xu e Wellman, 2010.
15. Os bebês distinguem se uma máquina ou um humano extrai de um recipiente: Ma e Xu,
2013.
16. Raciocínio lógico em bebês de doze meses: Cesana-Arlotti et al., 2018.
17. Compreensão das intenções dos bebês: Gergely, Bekkering e Király, 2002; Gergely
e Csibra, 2003; ver também Warneken e Tomasello, 2006.
18. Bebês de dez meses inferem as preferências de outras pessoas: Liu, Ullman, Tenenbaum e
Spelke, 2017.
19. Os bebês avaliam as ações de outras pessoas: Buon et al., 2014.
20. Os bebês distinguem ações intencionais e acidentais: Behne, Carpenter, Call e Tomasello, 2005.
21. Processamento facial por fetos no útero: Reid et al., 2017.

22. Reconhecimento facial na infância e desenvolvimento de respostas corticais a faces: Adibpour, Dubois e
Dehaene-Lambertz, 2018; Deen et al., 2017; Livingstone et al., 2017.
23. Reconhecimento facial no primeiro ano de vida: Morton e Johnson, 1991.
24. Os bebês preferem ouvir sua língua materna: Mehler et al., 1988.
25. “O bebê no meu ventre pulou de alegria”: Lucas 1:44.
26. Veja meu livro Consciousness and the Brain (2014).
27. Lateralização da linguagem e processamento vocal em bebês prematuros: Mahmoudzadeh
e outros, 2013.
28. Segmentação de palavras em bebês: Hay, Pelucchi, Graf Estes e Saffran, 2011; Saffran, Aslin e Newport,
1996.
29. Crianças pequenas detectam violações gramaticais: Bernal, Dehaene-Lambertz, Millotte e Christophe,
2010.
30. Limites das experiências de aprendizagem de línguas em animais: ver, por exemplo, Penn, Holyoak e
Povinelli, 2008; Terrace, Petitto, Sanders e Bever, 1979; Yang, 2013.
31. Rápida emergência da linguagem em comunidades surdas: Senghas, Kita e Özyürek, 2004.
CAPÍTULO 4: O NASCIMENTO DE UM CÉREBRO
1. Imagens cerebrais da linguagem em bebês: Dehaene-Lambertz et al., 2006; Dehaene

Lambertz, Dehaene e Hertz-Pannier, 2002.
2. Visão empirista do cérebro do bebê: ver, por exemplo, Elman et al., 1996; Quartzo e
Sejnowski, 1997.
3. Evolução das áreas corticais (figura 7 no encarte colorido): Krubitzer, 2007.
4. Hierarquia de respostas corticais à linguagem em humanos: Lerner, Honey, Silbert e Hasson, 2011;
Pallier, Devauchelle e Dehaene, 2011.
5. Organização dos principais tratos de fibras corticais de longo alcance no nascimento: Dehaene-Lambertz e
Spelke, 2015; Dubois et al., 2015.
6. Hipótese de um cérebro desorganizado que recebe a marca do ambiente:

Quartzo e Sejnowski, 1997.
7. O sistema nervoso periférico já está notavelmente organizado por dois meses de
gestação: Belle et al., 2017.
8. Subdivisão do córtex em áreas de Brodmann: Amunts et al., 2010; Amunts e Zilles,
2015; Brodmann, 1909.
9. Expressão gênica precoce em áreas corticais delimitadas: Kwan et al., 2012; Sun et al., 2005.
10. Origens precoces das assimetrias cerebrais: Dubois et al., 2009; Leroy et al., 2015.
11. Assimetrias cerebrais em canhotos e destros: Sun et al., 2012.
12. Modelo auto-organizado de dobras corticais: Lefevre e Mangin, 2010.
13. Células de grade em ratos: Banino et al., 2018; Brun et al., 2008; Fyhn, Molden, Witter, Moser e
Moser, 2004; Hafting, Fyhn, Molden, Moser e Moser, 2005.
14. Modelos auto-organizados de células de grade: Kropff e Treves, 2008; Shipston-Sharman,
Solanka e Nolan, 2016; Widloski e Fiete, 2014; Yoon et al., 2013.
15. Emergência rápida de células de grade, células de lugar e células de direção de cabeça durante o desenvolvimento:
Langston et al., 2010; Wills, Cacucci, Burgess e O'Keefe, 2010.
16. Células de grade em humanos: Doeller, Barry e Burgess, 2010; Nau, Navarro Schröder,
Bellmund e Doeller, 2018.
17. Navegação espacial em uma criança cega: Landau, Gleitman e Spelke, 1981.
18. Rápida emergência de áreas corticais para faces versus lugares: Deen et al., 2017; Livingstone
e outros, 2017.
19. Sintonizando os números no córtex parietal: Nieder e Dehaene, 2009.
20. Modelo auto-organizado de neurônios numéricos: Hannagan, Nieder, Viswanathan e
Dehaene, 2017.
21. Auto-organização baseada em um “motor de jogo na cabeça” interno: Lake et al., 2017.
22. Genes e migração celular na dislexia: Galaburda, LoTurco, Ramus, Fitch e Rosen,
2006.
23. Anomalias de conectividade na dislexia: Darki, Peyrard-Janvid, Matsson, Kere e Klingberg,
2012; Hoeft et al., 2011; Niogi e McCandliss, 2006.
24. Preditores fonológicos de dislexia em crianças de seis meses: Leppanen et al., 2002;
Lyytinen et al., 2004.
25. Dislexia de atenção: Friedmann, Kerbel e Shvimer, 2010.
26. Dislexia visual com erros de espelho: McCloskey e Rapp, 2000.
27. Curva de Bell para dislexia: Shaywitz, Escobar, Shaywitz, Fletcher e Makuch, 1992.
28. Comprometimentos cognitivos e neurológicos na discalculia: Butterworth, 2010; Iuculano,
2016.
29. Perda parietal de substância cinzenta em crianças prematuras com discalculia: Isaacs, Edmonds,
Lucas e Gadian, 2001.
CAPÍTULO 5: PARTE DA NURTURE
1. Hipótese sináptica da plasticidade cerebral: Holtmaat e Caroni, 2016; Takeuchi,

Duszkiewicz e Morris, 2014.
2. A música ativa circuitos de recompensa: Salimpoor et al., 2013.
3. Potenciação de sinapses a longo prazo: Bliss e Lømo, 1973; Lomo, 2018.
4. Aplysia, hipocampo e plasticidade sináptica: Pittenger e Kandel, 2003.
5. Hipocampo e memória para lugares: Whitlock, Heynen, Shuler e Bear, 2006.
6. Memória para sons de medo em ratos: Kim e Cho, 2017.
7. Papel causal das alterações sinápticas: Takeuchi et al., 2014.
8. Natureza do engrama, base neuronal de uma memória: Josselyn, Köhler e Frankland, 2015; Poo
et al., 2016.
9. Memória de trabalho e demissão sustentada: Courtney, Ungerleider, Keil e Haxby, 1997; Ester, Sprague e
Serences, 2015; Goldman-Rakic, 1995; Kerkoerle, Self e Roelfsema, 2017; Vogel e Machizawa, 2004.
10. Memória de trabalho e mudanças sinápticas rápidas: Mongillo, Barak e Tsodyks, 2008.
11. Papel do hipocampo na rápida aquisição de novas informações: Genzel et al., 2017; Lisman et al.,
2017; Schapiro, Turk-Browne, Norman e Botvinick, 2016; Shohamy e Turk-Browne, 2013.
12. Deslocamento de um engrama de memória do hipocampo para o córtex: Kitamura et al., 2017.
13. Criação de uma falsa memória em camundongos: Ramirez et al., 2013.
14. Transformando uma memória ruim em uma boa: Ramirez et al., 2015.
15. Apagando uma memória traumática: Kim e Cho, 2017.
16. Criando uma nova memória durante o sono: de Lavilléon et al., 2015.
17. Aprendizagem de ferramentas e símbolos em macacos: Iriki, 2005; Obayashi et al., 2001; Srihasam,
Mandeville, Morocz, Sullivan e Livingstone, 2012.
18. Alterações sinápticas distantes: Fitzsimonds, Song e Poo, 1997.
19. Alterações anatômicas decorrentes do treinamento musical: Gaser e Schlaug, 2003; Oechslin,
Gschwind e James, 2018; Schlaug, Jancke, Huang, Staiger e Steinmetz, 1995.
20. Alterações anatômicas decorrentes da alfabetização: Carreiras et al., 2009; Thiebaut de Schotten,
Cohen, Amemiya, Braga e Dehaene, 2014.
21. Alterações anatômicas após aprender a fazer malabarismos: Draganski et al., 2004; Gerber et ai.,
2014.
22. Alterações cerebrais em taxistas de Londres: Maguire et al., 2000, 2003.
23. Mecanismo não sináptico de memória no cerebelo: Johansson, Jirenhed,
Rasmussen, Zucca e Hesslow, 2014; Rasmussen, Jirenhed e Hesslow, 2008.
24. Efeitos do exercício físico e da nutrição no cérebro: Prado e Dewey, 2014; Voss, Vivar, Kramer e van
Praag, 2013.
25. Déficits cognitivos em crianças com deficiência de vitamina B1 (tiamina): Fattal,
Friedmann e Fattal-Valevski, 2011.
26. Plasticidade cerebral em uma criança nascida sem hemisfério direito: Muckli, Naumer e
Cantora, 2009.
27. Transformando o córtex auditivo em córtex visual: Sur, Garraghty e Roe, 1988; Sur e Rubenstein, 2005.
28. Hipótese de um cérebro desorganizado que recebe a marca do ambiente:

Quartzo e Sejnowski, 1997.
29. Auto-organização de mapas visuais por ondas retinianas: Goodman e Shatz, 1993; Shatz,
1996.
30. Ajuste progressivo da atividade espontânea cortical: Berkes, Orbán, Lengyel e Fiser, 2011; Orbán, Berkes,
Fiser e Lengyel, 2016.
31. Revisão do conceito de períodos sensíveis: Werker e Hensch, 2014.
32. Crescimento de neurônios corticais humanos: Conel, 1939; Courchesne et al., 2007.
33. Superprodução e eliminação sináptica no curso do desenvolvimento: Rakic, Bourgeois, Eckenhoff,
Zecevic e Goldman-Rakic, 1986.
34. Fases distintas de eliminação sináptica em humanos: Huttenlocher e Dabholkar,
1997.
35. Mielinização progressiva dos feixes corticais: Dubois et al., 2007, 2015; Flechsig, 1876.
36. Aceleração das respostas visuais em bebês: Adibpour et al., 2018; Dehaene-Lambertz e Spelke, 2015.
37. Lentidão do processamento consciente em bebês: Kouider et al., 2013.

38. Período sensível para visão binocular: Epelbaum, Milleret, Buisseret e Duffer, 1993;
Fawcett, Wang e Birch, 2005; Hensch, 2005.
39. Perda da capacidade de discriminar fonemas não nativos: Dehaene-Lambertz e Spelke, 2015; Maye,
Werker e Gerken, 2002; Pena, Werker e Dehaene Lambertz, 2012; Werker e Tees, 1984.
40. Recuperação parcial da discriminação de /R/ e /L/ em falantes de japonês: McCandliss, Fiez,
Protopapas, Conway e McClelland, 2002.
41. A anatomia do córtex auditivo prevê a capacidade de aprender contrastes estranhos: Golestani,
Molko, Dehaene, Le Bihan e Pallier, 2007.
42. Período sensível para aprendizagem de segunda língua: Flege, Munro e MacKay, 1995;
Hartshorne, Tenenbaum e Pinker, 2018; Johnson e Newport, 1989; Weber-Fox e Neville, 1996.
43. Declínio acentuado na velocidade de aprendizado de gramática de segunda língua por volta dos
dezessete anos de idade (análise de dados de vários milhões de pessoas): Hartshorne et al., 2018.
44. Período sensível para aprendizagem de linguagem em surdos com implante coclear:
Friedmann e Rusou, 2015.
45. Mecanismos biológicos de abertura e fechamento de períodos sensíveis: Caroni,
Donato e Muller, 2012; Friedmann e Rusou, 2015; Werker e Hensch, 2014.
46. Restaurando a plasticidade cerebral: Krause et al., 2017.
47. Reorganização das áreas de linguagem em crianças adotadas: Pallier et al., 2003. Resultados
semelhantes foram observados no domínio do reconhecimento facial: quando adotadas em um país
ocidental antes dos nove anos, as crianças coreanas perdem a vantagem que normalmente se
observa por reconhecer membros de sua própria raça (Sangrigoli, Pallier, Argenti, Ventureyra e de
Schonen, 2005).
48. Traço dormente da primeira língua em filhos adotivos: Pierce, Klein, Chen, Delcenserie e
Genesee, 2014.
49. Conexões dormentes em corujas: Knudsen e Knudsen, 1990; Knudsen, Zheng e
DeBello, 2000.
50. Efeito da idade de aquisição no processamento de texto: Ellis e Lambon Ralph, 2000; Gerhand e Barry,
1999; Morrison e Ellis, 1995.
51. Projeto de Intervenção Precoce de Bucareste: Almas et al., 2012; Berens e Nelson, 2015;
Nelson et al., 2007; Sheridan, Fox, Zeanah, McLaughlin e Nelson, 2012; Windsor, Moraru, Nelson, Fox e
Zeanah, 2013.
52. Ética do projeto Bucareste: Millum e Emanuel, 2007.
CAPÍTULO 6: RECICLE SEU CÉREBRO
1. Nabokov, 1962.
2. Dificuldades de analfabetos no reconhecimento de imagens: Kolinsky et al., 2011; Kolinsky, Morais, Content
e Cary, 1987; Szwed, Ventura, Querido, Cohen e Dehaene, 2012.
3. Dificuldades de analfabetos no processamento de imagens especulares: Kolinsky et al., 2011, 1987;
Pegado, Nakamura, et al., 2014.
4. Dificuldades de analfabetos em atender a parte de um rosto: Ventura et al., 2013.
5. Dificuldades de analfabetos em reconhecer e lembrar palavras faladas: Castro-Caldas, Petersson, Reis,
Stone-Elander e Ingvar, 1998; Morais, 2017; Morais, Bertelson, Cary e Alegria, 1986; Morais e Kolinsky,
2005.
6. Impacto da educação aritmética: Dehaene, Izard, Pica e Spelke, 2006; Dehaene, Izard, Spelke e Pica,
2008; Piazza et al., 2013; Pica, Lemer, Izard e Dehaene, 2004.
7. Contagem e aritmética em índios da Amazônia: Pirahã: Frank, Everett, Fedorenko e Gibson, 2008;
Munduruku: Pica et al., 2004; Tsimane: Piantadosi, Jara-Ettinger e Gibson, 2014.
8. Aquisição do conceito de reta numérica: Dehaene, 2003; Dehaene et al., 2008; Siegler
e Opfer, 2003.
9. Hipótese da reciclagem neuronal: Dehaene, 2005, 2014; Dehaene e Cohen, 2007.
10. Evolução por duplicação de circuitos cerebrais: Chakraborty e Jarvis, 2015; Fukuchi
Shimogori e Grove, 2001.
11. Aprendizagem confinada a um subespaço neuronal: Galgali e Mante, 2018; Golub et ai.,
2018; Sadtler et al., 2014.
12. Codificação unidimensional no córtex parietal: Chafee, 2013; Fitzgerald et al., 2013.
13. Papel do córtex parietal na comparação do status social: Chiao, 2010.
14. Codificação bidimensional no córtex entorrinal: Yoon et al., 2013.
15. Codificação de um espaço bidimensional arbitrário por células de grade: Constantinescu, O'Reilly e
Behrens, 2016.
16. Codificação de árvores sintáticas na área de Broca: Musso et al., 2003; Nelson et al., 2017;
Pallier et al., 2011.
17. O sentido numérico: Dehaene, 2011.
18. Número de neurônios em animais não treinados: Ditz e Nieder, 2015; Viswanathan e
Nieder, 2013.
19. Efeito do treinamento nos neurônios numéricos: Viswanathan e Nieder, 2015.
20. Aquisição de algarismos arábicos em macacos: Diester e Nieder, 2007.
21. Relação entre adição, subtração e movimentos de atenção espacial: Knops,
Thirion, Hubbard, Michel e Dehaene, 2009; Knops, Viarouge e Dehaene, 2009.
22. Ressonância magnética funcional de matemáticos profissionais: Amalric e Dehaene, 2016, 2017.
23. Imagens cerebrais de processamento de números em bebês: Izard et al., 2008.
24. Ressonância magnética funcional de matemática precoce em pré-escolares: Cantlon, Brannon, Carter e
Pelphrey, 2006. Cantlon e Li, 2013, mostram que as áreas corticais para linguagem e número já
estão ativas quando uma criança de quatro anos assiste às seções correspondentes dos filmes da Vila
Sésamo , e que sua atividade prevê as habilidades de linguagem e matemática da criança.
25. Matemáticos cegos: Amalric, Denghien e Dehaene, 2017.

26. Reciclagem de córtex occipital para matemática em cegos: Amalric, Denghien, et al., 2017;
Kanjlia, Lane, Feigenson e Bedny, 2016.
27. Processamento da linguagem no córtex occipital do cego: Amedi, Raz, Pianka, Malach e Zohary, 2003;
Bedny, Pascual-Leone, Dodell-Feder, Fedorenko e Saxe, 2011; Lane, Kanjlia, Omaki e Bedny, 2015;
Sabbah et al., 2016.
28. Debate sobre plasticidade cortical em cegos: Bedny, 2017; Hannagan, Amedi, Cohen, Dehaene-
Lambertz e Dehaene, 2015.
29. Mapas retinotópicos em cegos: Bock et al., 2015.
30. Reciclagem do córtex visual em cegos: Abboud, Maidenbaum, Dehaene e Amedi, 2015; Amedi et al.,
2003; Bedny et al., 2011; Mahon, Anzellotti, Schwarzbach, Zampini e Caramazza, 2009; Reich,
Szwed, Cohen e Amedi, 2011; Striem-Amit e Amedi, 2014; Strnad, Peelen, Bedny e Caramazza, 2013.
31. A conectividade prediz a função no córtex visual: Bouhali et al., 2014; Hannagan et al., 2015; Saygin
et al., 2012, 2013, 2016.
32. Efeito distância na comparação de números: Dehaene, 2007; Dehaene, Dupoux e
Mehler, 1990; Moyer e Landauer, 1967.
33. Efeito de distância ao decidir que dois números são diferentes: Dehaene e Akhavein,
1995; Diester e Nieder, 2010.
34. Efeito distância na verificação de problemas de adição e subtração: Groen e Parkman,

1972; Pinheiro-Chagas, Dotan, Piazza e Dehaene, 2017.
35. Representação mental dos preços: Dehaene e Marques, 2002; Marques e Dehaene,
2004.
36. Representação mental da paridade: Dehaene, Bossini e Giraux, 1993; negativo
números: Blair, Rosenberg-Lee, Tsang, Schwartz e Menon, 2012; Fischer, 2003; Gullick e Wolford,
2013; frações: Jacob e Nieder, 2009; Siegler, Thompson e Schneider, 2011.
37. Linguagem de pensamento em matemática: Amalric, Wang, et al., 2017; Piantadosi et al.,
2012, 2016.
38. Veja meu livro anterior Reading in the Brain: Dehaene, 2009.
39. Mecanismos cerebrais do reconhecimento invariável de palavras escritas: Dehaene et al., 2001,
2004.
40. Conexões entre a área de forma visual de palavras e áreas de linguagem: Bouhali et al., 2014;
Saygin et al., 2016.
41. Imagens do cérebro analfabeto: Dehaene et al., 2010; Dehaene, Cohen, Morais e
Kolinsky, 2015; Pegado, Comerlato, et al., 2014.
42. Especialização do córtex visual inicial para leitura: Chang et al., 2015; Dehaene et ai.,
2010; Szwed, Qiao, Jobert, Dehaene e Cohen, 2014.
43. A alfabetização compete com o processamento facial no hemisfério esquerdo: Dehaene et al.,
2010; Pegado, Comerlato, et al., 2014.
44. Desenvolvimento da leitura e reconhecimento facial: Dehaene-Lambertz, Monzalvo e
Dehaene, 2018; Dundas, Plaut e Behrmann, 2013; Li et al., 2013; Monzalvo, Fluss, Billard, Dehaene
e Dehaene-Lambertz, 2012.
45. Atividade insuficiente evocada por palavras e rostos em crianças disléxicas: Monzalvo et al.,
2012.
46. Marcador universal de dificuldades de leitura: Rueckl et al., 2015.
47. Competição entre palavras e rostos – nocaute ou bloqueio?: Dehaene-Lambertz et
al., 2018.
48. Aprender a ler na idade adulta: Braga et al., 2017; Cohen, Dehaene, McCormick,
Durant e Zanker, 2016.
49. Deslocamento da área de forma visual da palavra em músicos: Mongelli et al., 2017.
50. Resposta reduzida a rostos em matemáticos: Amalric e Dehaene, 2016.
51. Numerosos efeitos a longo prazo da educação infantil: veja o programa Abecedarian
(Campbell et al., 2012, 2014; Martin, Ramey e Ramey, 1990), o programa pré-escolar Perry
(Heckman, Moon, Pinto, Savelyev e Yavitz, 2010; Schweinhart, 1993) e o Jamaican Study (Gertler
et al. al., 2014; Grantham-McGregor, Powell, Walker e Himes, 1991; Walker, Chang, Powell e
Grantham-McGregor, 2005).
52. Fala dirigida à criança e crescimento do vocabulário: Shneidman, Arroyo, Levine e Goldin-
Meadow, 2013; Shneidman e Goldin-Meadow, 2012.
53. Aumento da resposta à fala após a leitura de histórias entre pais e filhos: Hutton et al., 2015,
2017; ver também Romeo et al., 2018.
54. Vantagens do bilinguismo inicial: Bialystok, Craik, Green e Gollan, 2009; Costa e Sebastián-
Galles, 2014; Li, Legault e Litcofsky, 2014.
55. Benefícios de um ambiente enriquecido: Donato, Rompani e Caroni, 2013; Knudsen et al., 2000; van
Praag, Kempermann e Gage, 2000; Voss et al., 2013; Zhu et al., 2014.
CAPÍTULO 7: ATENÇÃO
1. Atenção em camundongos: Wang e Krauzlis, 2018.

2. Atenção em redes neurais artificiais: Bahdanau, Cho e Bengio, 2014; Cho,
Courville e Bengio, 2015.
3. Atenção em uma rede neural artificial aprendendo a legendar imagens (figura neste
página): Xu et al., 2015.
4. A desatenção reduz fortemente a aprendizagem: Ahissar e Hochstein, 1993.
5. Aprendizado reduzido na ausência de atenção e consciência: Seitz, Lefebvre, Watanabe e
Jolicoeur, 2005; Watanabe, Nanez e Sasaki, 2001.
6. Ignição pré-frontal e acesso à consciência: Dehaene e Changeux, 2011; furgão
Vugt et al., 2018.
7. Acetilcolina, dopamina, plasticidade cerebral e alteração de mapas corticais: Bao, Chan e Merzenich,
2001; Froemke, Merzenich e Schreiner, 2007; Kilgard e Merzenich, 1998.
8. Equilíbrio entre inibição e excitação e reabertura da plasticidade cerebral: Werker e Hensch, 2014.
9. Ativação de circuitos de recompensa e alerta por videogames: Koepp et al., 1998.

10. Efeitos positivos do treinamento com videogame: Bavelier et al., 2011; Cardoso-Leite e
Bavelier, 2014; Green e Bavelier, 2003.
11. Treinamento cognitivo usando videogames: consulte nosso software de
matemática em www.thenumberrace.com e www.thenumbercatcher.com; para aquisição de leitura,
visite grapholearn.fr.
12. Orientação da atenção espacial: Posner, 1994.
13. Ampliação pela atenção: Çukur, Nishimoto, Huth e Gallant, 2013; Desimone e
Duncan, 1995; Kastner e Ungerleider, 2000.
14. Cegueira por desatenção: Mack e Rock, 1998; Simons e Chabris, 1999.
15. Piscadela de atenção: Marois e Ivanoff, 2005; Sergent, Baillet e Dehaene, 2005.
16. Itens sem supervisão induzem pouco ou nenhum aprendizado: Leong, Radulescu, Daniel, DeWoskin,
e Niv, 2017.
17. Experimento adulto sobre atenção às letras versus palavras inteiras: Yoncheva, Blau, Maurer e
McCandliss, 2010.
18. Estudos educacionais de fonética versus leitura de palavras inteiras: Castles, Rastle e Nation,
2018; Ehri, Nunes, Stahl e Willows, 2001; Instituto Nacional de Saúde Infantil e Desenvolvimento
Humano, 2000; ver também Dehaene, 2009.
19. Organização do controle executivo no córtex pré-frontal: D'Esposito e Grossman, 1996; Koechlin,
Ody e Kouneiher, 2003; Rouault e Koechlin, 2018.
20. Expansão pré-frontal na espécie humana: Elston, 2003; Sakai et al., 2011;
Schoenemann, Sheehan e Glotzer, 2005; Smaers, Gómez-Robles, Parks e Sherwood, 2017.
21. Hierarquia pré-frontal e controle metacognitivo: Fleming, Weil, Nagy, Dolan e Rees, 2010;
Koechlin et al., 2003; Rouault e Koechlin, 2018.
22. Espaço de trabalho neuronal global: Dehaene e Changeux, 2011; Dehaene, Changeux,
Naccache, Sackur e Sergent, 2006; Dehaene, Kerszberg e Changeux, 1998; Dehaene e
Naccache, 2001.
23. Gargalo central: Chun e Marois, 2002; Marti, King e Dehaene, 2015; Martinho,
Sigman e Dehaene, 2012; Sigman e Dehaene, 2008.
24. Desconhecimento do atraso de dupla tarefa: Corallo, Sackur, Dehaene e Sigman, 2008; Marti et
al., 2012.
25. Debate sobre a capacidade de dividir a atenção e executar duas tarefas em paralelo: Tombu e
Jolicoeur, 2004.
26. Uma sala de aula extremamente decorada distrai os alunos: Fisher, Godwin e Seltman,
2014.
27. O uso de dispositivos eletrônicos em sala de aula reduz o desempenho nos exames: Glass e Kang, 2018.
28. Erro A-não-B e desenvolvimento do córtex pré-frontal: Diamond e Doar, 1989; Diamond e Goldman-
Rakic, 1989.
29. Desenvolvimento do controle executivo e percepção de números: Borst, Poirel, Pineau,
Cassotti e Houdé, 2013; Piazza, De Feo, Panzeri e Dehaene, 2018; Poirel et ai.,
2012.
30. Efeito do treinamento numérico no córtex pré-frontal: Viswanathan e Nieder, 2015.
31. Papel do controle executivo no desenvolvimento cognitivo e emocional: Houdé et al., 2000; Isingrini, Perrotin
e Souchay, 2008; Posner e Rothbart, 1998; Sheese, Rothbart, Posner, White e Fraundorf, 2008; Siegler,
1989.
32. Efeitos do treinamento no controle executivo e na memória de trabalho: Diamond e Lee, 2011; Habibi,
Damásio, Ilari, Elliott Sachs e Damásio, 2018; Jaeggi, Buschkuehl, Jonides e Shah, 2011; Klingberg, 2010;
Moreno et al., 2011; Olesen, Westerberg e Klingberg, 2004; Rueda, Rothbart, McCandliss, Saccomanno e
Posner, 2005.
33. Estudos randomizados da pedagogia Montessori: Lillard e Else-Quest, 2006; Marechal,
2017.
34. Efeitos do treinamento musical no cérebro: Bermudez, Lerch, Evans e Zatorre, 2009; James et al., 2014;
Moreno et al., 2011.
35. Relação entre controle executivo, córtex pré-frontal e inteligência: Duncan, 2003,
2010, 2013.
36. Efeitos do treinamento na inteligência fluida: Au et al., 2015.
37. Impacto da adoção no QI: Duyme, Dumaret e Tomkiewicz, 1999.
38. Impacto da educação no QI: Ritchie e Tucker-Drob, 2018.
39. Efeitos do treinamento cognitivo na concentração, leitura e aritmética: Bergman
Nutley e Klingberg, 2014; Blair e Raver, 2014; Klingberg, 2010; Spencer-Smith e Klingberg, 2015.
40. Correlação entre memória de trabalho e resultados matemáticos subsequentes: Dumontheil e Klingberg,
2011; Gathercole, Pickering, Knight e Stegmann, 2004; Geary, 2011.
41. Treinamento conjunto da memória de trabalho e da reta numérica: Nemmi et al., 2016.
42. Aprendendo chinês com uma babá, mas não com um vídeo: Kuhl, Tsao e Liu, 2003.
43. Atenção compartilhada e postura pedagógica: Csibra e Gergely, 2009; Egyed, Király e Gergely, 2013.
44. Apontamento de objetos e memória da identidade do objeto: Yoon, Johnson e Csibra, 2008.
45. Pseudoensino em suricatos: Thornton e McAuliffe, 2006.
46. Cópia inteligente versus servil de ações por crianças de quatorze meses: Gergely et al.,
2002.
47. Conformismo social na percepção: ver, por exemplo, Bond e Smith, 1996.
CAPÍTULO 8: ENGAJAMENTO ATIVO
1. Experimento clássico comparando gatinhos ativos e passivos: Held e Hein, 1963.

2. Aprendizagem estatística de sílabas e palavras: Hay et al., 2011; Saffran et ai., 1996; veja também a pesquisa
em andamento no laboratório de G. Dehaene-Lambertz sobre aprendizagem em recém-nascidos dormindo.
3. Efeito da profundidade do processamento de texto na memória explícita: Craik e Tulving, 1975; Jacoby
e Dallas, 1981.
4. Memória para frases: Auble e Franks, 1978; Auble, Franks e Soraci, 1979.
5. “Tornar as condições de aprendizagem mais difíceis . . .”: Zaromb, Karpicke e Roediger,
2010.
6. Imagens do cérebro do efeito da profundidade do processamento de texto na memória: Kapur et al., 1994.
7. A ativação das alças pré-frontal-hipocampais durante o aprendizado incidental prediz a memória

subsequente: Brewer, Zhao, Desmond, Glover e Gabrieli, 1998; Paller, McCarthy e Wood, 1988;
Sederberg et al., 2006; Sederberg, Kahana, Howard, Donner e Madsen, 2003; Wagner et ai., 1998.
8. Memória para palavras conscientes e inconscientes: Dehaene et al., 2001.

9. Aprendizagem ativa de conceitos de física: Kontra, Goldin-Meadow e Beilock, 2012;
Kontra, Lyons, Fischer e Beilock, 2015.
10. Comparação de palestras tradicionais versus aprendizagem ativa: Freeman et al., 2014.
11. Falha na aprendizagem por descoberta e estratégias pedagógicas relacionadas: Hattie, 2017;
Kirschner, Sweller e Clark, 2006; Kirschner e van Merriënboer, 2013; Mayer, 2004.
12. Para somar todos os números de 1 a 100, emparelhe 1 com 100, 2 com 99, 3 com 98 e assim por diante.
Cada um desses pares soma 101, e há cinquenta deles, portanto, o total é 5050.
13. Orientação instrucional em vez de pura descoberta: Mayer, 2004.
14. Lendas urbanas na educação: Kirschner e van Merriënboer, 2013.
15. O mito dos estilos de aprendizagem: Pashler, McDaniel, Rohrer e Bjork, 2008.
16. Variações na quantidade de leitura na primeira série: Anderson, Wilson e Fielding, 1988.
17. Curiosidade da primeira infância e desempenho acadêmico: Shah, Weeks, Richards e
Kaciroti, 2018.
18. Neurônios dopaminérgicos sensíveis a novas informações: Bromberg-Martin e Hikosaka,
2009.
19. Busca de novidades em ratos: Bevins, 2001.
20. Imagens cerebrais de curiosidade: Gruber, Gelman e Ranganath, 2014; ver também Kang et
al., 2009.
21. O riso como uma emoção epistêmica exclusiva dos humanos: Hurley, Dennett e Adams,
2011.
22. Risos e aprendizado: Esseily, Rat-Fischer, Somogyi, O'Regan e Fagard, 2016.
23. Revisão das teorias psicológicas da curiosidade: Loewenstein, 1994.
24. Curva de curiosidade em U invertido: Kang et al., 2009; Kidd, Piantadosi e Aslin, 2012, 2014;
Loewenstein, 1994.
25. Curiosidade em um robô: Gottlieb, Oudeyer, Lopes e Baranes, 2013; Kaplan e Oudeyer, 2007.
26. Efeito Cachinhos Dourados em bebês de oito meses: Kidd et al., 2012, 2014.
27. Metacognição em crianças pequenas: Dehaene et al., 2017; Goupil, Romand-Monnier e Kouider, 2016;
Lyon e Ghetti, 2011.
28. Estereótipos de gênero e raça em matemática: Spencer, Steele e Quinn, 1999; Steele e Aronson, 1995.
29. Estresse, ansiedade, desamparo aprendido e incapacidade de aprender: Caroni et al., 2012; Donato
et al., 2013; Kim e Diamond, 2002; Noble, Norman e Farah, 2005.
30. O ensino explícito pode matar a curiosidade: Bonawitz et al., 2011.
CAPÍTULO 9: FEEDBACK DE ERRO
1. Grothendieck, 1986.
2. A meta-análise de John Hattie concede ao feedback um tamanho de efeito de 0,73 desvios padrão, o que
o torna um dos mais poderosos moduladores da aprendizagem (Hattie, 2008).
3. Regra de aprendizagem Rescorla-Wagner: Rescorla e Wagner, 1972.
4. Para uma crítica detalhada da aprendizagem associativa, ver Balsam e Gallistel, 2009;
Galistel, 1990.
5. Bloqueio do condicionamento animal: Beckers, Miller, De Houwer e Urushihara, 2006; Fanselow, 1998;
Waelti, Dickinson e Schultz, 2001.
6. A surpresa melhora o aprendizado e a exploração dos bebês: Stahl e Feigenson, 2015.
7. Sinais de erro no cérebro: Friston, 2005; Naatanen, Paavilainen, Rinne e Alho,
2007; Schultz, Dayan e Montague, 1997.
8. A surpresa reflete a violação de uma previsão: Strauss et al., 2015; Todorovic e de
Lange, 2012.
9. Hierarquia de sinais de erro locais e globais: Bekinschtein et al., 2009; Strauss et al., 2015; Uhrig,
Dehaene e Jarraya, 2014; Wang et al., 2015.
10. Surpresa por uma imagem inesperada: Meyer e Olson, 2011.
11. Surpresa por violação semântica: Curran, Tucker, Kutas e Posner, 1993; Kutas
e Federmeier, 2011; Kutas e Hillyard, 1980.
12. Surpresa por violação gramatical: Friederici, 2002; Hahne e Friederici, 1999; mas veja também Steinhauer e
Drury, 2012, para uma discussão crítica.
13. Erro de previsão na rede de dopamina: Pessiglione, Seymour, Flandin, Dolan e
Frith, 2006; Schultz et ai., 1997; Waelti et al., 2001.
14. Importância do feedback de alta qualidade na escola: Hattie, 2008.
15. Aprendizagem por tentativa e erro em adultos versus adolescentes: Palminteri, Kilford, Coricelli,
e Blakemore, 2016.
16. Pennac, D. (2017, 11 de fevereiro). Daniel Pennac: “J'ai été d'abord et avant tout
professor.” O mundo. Recuperado de lemonde.fr.
17. Síndrome de ansiedade matemática: Ashcraft, 2002; Lyons e Beilock, 2012; Maloney e
Beilock, 2012; Young, Wu e Menon, 2012.
18. Efeito do condicionamento do medo na plasticidade sináptica: Caroni et al., 2012; Donato et ai.,
2013.
19. Mentalidade fixa versus mentalidade de crescimento: Claro, Paunesku e Dweck, 2016; Dweck, 2006;
Rattan, Savani, Chugh e Dweck, 2015. Observe, no entanto, que o tamanho desses efeitos e, portanto,
sua relevância prática na escola, foi questionado recentemente: Sisk, Burgoyne, Sun, Butler e Macnamara,
2018.
20. Efeito maciço da prática de recuperação na aprendizagem: Carrier e Pashler, 1992; Karpicke e Roediger,
2008; Roediger e Karpicke, 2006; Szpunar, Khan e Schacter, 2013; Zaromb e Roediger, 2010. Para
uma excelente revisão da eficácia relativa de várias técnicas de aprendizagem, ver Dunlosky, Rawson,
Marsh, Nathan e Willingham, 2013.
21. Fazer julgamentos retrospectivos de memória facilita o aprendizado: Robey, Dougherty e

Buttácio, 2017.
22. A prática de recuperação facilita a aquisição de vocabulário estrangeiro: Carrier e Pashler,
1992; Lindsey, Shroyer, Pashler e Mozer, 2014.
23. Espaçar o aprendizado melhora a retenção da memória: Cepeda et al., 2009; Cepeda, Pashler,
Vul, Wixted e Rohrer, 2006; Rohrer e Taylor, 2006; Schmidt e Björk, 1992.
24. Imagens do cérebro do efeito de espaçamento: Bradley et al., 2015; Callan e Schweighofer,
2010.
25. Efeito de aumentar progressivamente o tempo entre as aulas: Kang, Lindsey, Mozer e Pashler, 2014.
26. O embaralhamento de problemas matemáticos melhora a aprendizagem: Rohrer e Taylor, 2006,

2007.
27. O feedback melhora a memória mesmo em tentativas corretas: Butler, Karpicke e Roediger,
2008.
CAPÍTULO 10: CONSOLIDAÇÃO
1. Passando da leitura serial para a paralela ao aprender a ler: Zoccolotti et al.,

2005.
2. Imagens cerebrais longitudinais da aquisição da leitura: Dehaene-Lambertz et al.,
2018.
3. Contribuição do córtex parietal para leitura especializada, apenas para palavras degradadas: Cohen,
Dehaene, Vinckier, Jobert e Montavont, 2008; Vinckier et al., 2006.
4. Reconhecimento visual de combinações frequentes de letras: Binder, Medler, Westbury, Liebenthal e
Buchanan, 2006; Dehaene, Cohen, Sigman e Vinckier, 2005; Grainger e Whitney, 2004; Vinckier et
al., 2007.
5. Afinação do córtex visual inicial com a percepção das letras: Chang et al., 2015; Dehaene et ai.,
2010; Sigman et al., 2005; Szwed et al., 2011, 2014.
6. Leitura inconsciente: Dehaene et al., 2001, 2004.
7. Automatização da aritmética: Ansari e Dhital, 2006; Rivera, Reiss, Eckert e
Menon, 2005. O hipocampo também parece contribuir fortemente para a memória de fatos aritméticos: Qin
et al., 2014.
8. O sono interrompe a curva do esquecimento: Jenkins e Dallenbach, 1924.
9. O sono REM melhora a aprendizagem: Karni, Tanne, Rubenstein, Askenasy e Sagi, 1994.
10. O sono e a consolidação do aprendizado recente: Huber, Ghilardi, Massimini e
Tononi, 2004; Stickgold, 2005; Walker, Brakefield, Hobson e Stickgold, 2003; Walker e Stickgold, 2004.
11. Superexpressão do gene zif-268 durante o sono: Ribeiro, Goyal, Mello e Pavlides,
1999.
12. Replay neuronal durante a noite: Ji e Wilson, 2007; Louie e Wilson, 2001; Skaggs e McNaughton,
1996; Wilson e McNaughton, 1994.
13. Decodificação da atividade cerebral durante o sono: Chen e Wilson, 2017; Horikawa, Tamaki,
Miyawaki e Kamitani, 2013.
14. Teorias da função de memória do sono: Diekelmann e Born, 2010.
15. A repetição durante o sono facilita a consolidação da memória: Ramanathan, Gulati e
Ganguly, 2015; veja também Norimoto et al., 2018, para o efeito direto do sono na plasticidade sináptica.
16. Reativação cortical e hipocampal durante o sono em humanos: Horikawa et al., 2013; Jiang et al., 2017;
Peigneux et al., 2004.
17. Aumento do sono de ondas lentas e melhoria do desempenho pós-sono: Huber et al.,
2004.
18. Imagens cerebrais dos efeitos do sono na aprendizagem motora: Walker, Stickgold, Alsop, Gaab e
Schlaug, 2005.
19. Aumentar as oscilações lentas durante o sono melhora a memória: Marshall, Helgadóttir, Mölle e Born,
2006; Ngo, Martinetz, Born e Mölle, 2013.
20. Os odores podem influenciar a consolidação da memória durante o sono: Rasch, Büchel, Gais e Born,
2007.
21. Os sons podem influenciar a reprodução durante o sono e melhorar a memória subsequente: Antony, Gobel,
O'Hare, Reber e Paller, 2012; Bendor e Wilson, 2012; Rudoy, Voss, Westerberg e Paller, 2009.
22. Sem aprendizado de fatos novos durante o sono: Bruce et al., 1970; Emmons e Simon, 1956.
No entanto, um estudo muito recente sugere que, durante o sono, podemos aprender a associação entre
um tom e um cheiro (Arzi et al., 2012).
23. Gazsi, M. (2018, 8 de junho). Philippe Starck: “Eu não poderia me importar menos com a minha vida.” o
Guardian, theguardian. com.
24. Insight matemático durante o sono: Wagner, Gais, Haider, Verleger e Born, 2004.
25. Algoritmos de aprendizado sono-vigília: Hinton, Dayan, Frey e Neal, 1995; Hinton,
Osindero e Teh, 2006.
26. Hipótese de que a função de memória do sono pode ser mais eficiente em humanos:
Samson e Nunn, 2015.
27. Maior eficiência do sono em crianças do que em adultos: Wilhelm et al., 2013.
28. Os bebês generalizam os significados das palavras depois de dormir: Friedrich,
Wilhelm, Born e Friederici, 2015; Seehagen, Konrad, Herbert e Schneider, 2015.
29. Efeito positivo de cochilos em pré-escolares: Kurdziel, Duclos e Spencer, 2013.
30. Déficits de sono e distúrbios de atenção: Avior et al., 2004; Cortese et al., 2013; Hiscock et al.,
2015; Prehn-Kristensen et al., 2014.
31. Efeitos benéficos do atraso no início das aulas para adolescentes: Academia Americana de
Pediatria, 2014; Dunster et al., 2018.
CONCLUSÃO: CONCILIANDO A EDUCAÇÃO COM A NEUROCIÊNCIA
1. Inteligência artificial inspirada na neurociência e ciência cognitiva: Hassabis,

Kumaran, Summerfield e Botvinick, 2017; Lago e outros, 2017.
2. Veja PISA (Programa Internacional de Avaliação de Estudantes, oecd.org/pisa-fr), TIMSS
(Trends in International Mathematics and Science Study) e PIRLS (Progress in International
Reading Literacy Study, timssandpirls.bc.edu).
Qual é o próximo
na sua lista de leitura?
Descubra sua próxima

grande leitura!
Receba escolhas de livros personalizados e notícias atualizadas sobre

este autor.
Inscreva-se agora.

É Assim Que Aprendemos (Traduz.) Stanislas Dehaene

Enviado por

Direitos autorais:

Formatos disponíveis

É Assim Que Aprendemos (Traduz.) Stanislas Dehaene

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

É Assim Que Aprendemos (Traduz.) Stanislas Dehaene

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Machine Translated by Google

TAMBÉM DE STANISLAS DEHAENE

Consciência e o Cérebro: Decifrando Como o Cérebro Codifica

Leitura no cérebro: a nova ciência de como lemos

Stanislas Dehaene Baseado, em parte, em

Pinguim suporta direitos autorais. Os direitos autorais estimulam a criatividade, incentivam

Esta página constitui uma extensão da página de direitos autorais.

ISBN 9780525559887 (capa dura)

Para Aurora, que nasceu este ano,

e para todos aqueles que já foram bebês.

Comece fazendo um estudo mais cuidadoso de seus alunos, pois é

Este é um fato estranho e surpreendente: conhecemos todos os cantos

Jean Piaget, “La Pedagogie Moderne” (1949)

Se não sabemos como aprendemos, como é que sabemos ensinar?

L. Rafael Reif, presidente do MIT (23 de março de 2017)

TAMBÉM DE STANISLAS DEHAENE

CAPÍTULO 4 O Nascimento de um Cérebro

CAPÍTULO 5 Participação da Nutri

CAPÍTULO 6 Recicle seu cérebro

Os quatro pilares do aprendizado

CAPÍTULO 8 Engajamento Ativo

CAPÍTULO 9 Feedback de erro

CONCLUSÃO Conciliando Educação com Neurociência

Em setembro de 2009, uma criança extraordinária me forçou a

No corredor que leva ao seu quarto, lembro-me de me preparar com o

O encontro com Felipe me emocionou profundamente, e também me

eles? Descobriremos que ele usa os mesmos circuitos cerebrais que

A plasticidade cerebral quase parece temperamental: às vezes

POR QUE APRENDER?

Por que temos que aprender em primeiro lugar? A própria existência da

quem nasce maduro, com mais conhecimento que os outros, acaba

Este simples argumento de contabilidade, no entanto, não explica

Com um número tão pequeno de neurônios, o comportamento do

chance de sobrevivência da espécie. A capacidade de aprender, por outro

Se eu tivesse que resumir, em uma palavra, os talentos singulares de nossa

movendo-se da savana africana para desertos, montanhas, ilhas, calotas polares,

Aprender é o triunfo de nossa espécie. Em nosso cérebro, bilhões de parâmetros

Mais recentemente, a humanidade descobriu que poderia aumentar ainda mais

As universidades são refinarias neurais onde nossos circuitos cerebrais adquirem

sem ela, nossos circuitos corticais permaneceriam diamantes brutos. A

A educação amplia as faculdades já consideráveis de nosso cérebro — mas

Felizmente, agora sabemos muito sobre como o aprendizado funciona.

mais apenas para aguçar nossa introspecção, mas para entender a

A ciência emergente de como aprendemos é, naturalmente, de especial

O DESAFIO DAS MÁQUINAS

o processamento não é superficial: em uma fração de segundo, nosso cérebro

Mesmo dentro de seus campos de especialização – por exemplo, o

adquiriu algoritmos sofisticados que constantemente rastreiam a incerteza

entender as probabilidades: desde o nascimento, eles parecem estar

Nossa jornada para a ciência contemporânea da aprendizagem é uma viagem de

como as ações nos pedais e guidão afetam a estabilidade da bicicleta. Da

Ao comparar o desempenho dos algoritmos de computador com os do

Essa teoria corresponde a como o cérebro funciona? E como o aprendizado

neurociência. Vou me concentrar nos bebês, que são verdadeiras máquinas

Na terceira parte, “Os Quatro Pilares do Aprendizado”, detalho alguns dos

Esses quatro pilares são universais: bebês, crianças e adultos de

é como podemos aprender a aprender. Na conclusão, voltarei às

Em sua essência, a inteligência pode ser vista como um