Um artigo sobre AI publicado num grande jornal científico estava cheio de frenologia

Um artigo na ‘Nature’ que dizia avaliar a ‘confiabilidade’ com base em características físicas rendeu uma baita reação negativa na internet.
28 September 2020, 9:06pm
On Friday, a trio of evolutionary psychology researchers published a research paper in Nature that sought to use machine learning to track historical changes in "trustworthiness" using facial expressions in portraits. The experiment was widely panned onli
Imagem: Composição.

Na sexta-feira, um trio de pesquisadores de psicologia evolutiva publicou um artigo na Nature que buscava usar aprendizado de máquinas para rastrear mudanças históricas em “confiabilidade” através de expressões faciais em retratos. O experimento foi amplamente criticado online como um revival digital de práticas racistas que afirmavam discernir o caráter de alguém através de características físicas, como a frenologia e fisiognomia.

No cerne, o artigo visava “ligar traços de morfologia facial para definir resultados sociais importantes” e usava retratos dos séculos passados, além de selfies dos últimos anos, para conduzir os experimentos. Os pesquisadores usaram aprendizado de máquinas para treinar um algoritmo para analisar por que e como esses julgamentos eram feitos, especialmente em retratos europeus, com o tempo. Além dessa pergunta central, eles investigaram se pessoas de nações mais ricas tinham mais chance de ter retratos “confiáveis”. 

No Twitter, os pesquisadores compartilharam seu estudo e disseram que desenvolveram “um algoritmo para gerar automaticamente avaliações de confiabilidade para unidades de ação facial (sorriso, sobrancelhas, etc.)”. O tuíte foi compartilhado com uma imagem do estudo que lembra diagramas datados e refutados de um livro conhecido de frenologia de 1902, que prometia “familiarizar as pessoas com os elementos da natureza humana e permitir que elas leiam esses elementos em homens, mulheres e crianças de todos os países”.

O tuíte desencadeou uma enxurrada de críticas de pesquisadores apontando um conjunto profundamente falho de suposições, metodologia e análises questionáveis, abordagem superficial de história da arte, e falta de consideração com sociologia e economia. Críticos também acusaram o projeto de simplesmente usar aprendizado de máquina para treinar um algoritmo para ser racista.

Os autores do estudo não responderam os pedidos de comentário da Motherboard.

Sabemos há tempos que as pessoas julgam a personalidade das outras consistentemente e (in)conscientemente com base em características faciais, apesar de não haver evidência de uma relação. Sendo assim, as conclusões do estudo são no mínimo fracas; por exemplo, a descoberta de que “amostras de confiabilidade em retratos aumentaram através da história”, o que parece simplesmente dizer que quanto mais perto um retrato está da nossa época, mais confiável vamos achar o rosto.

A afirmação de que “amostras de confiabilidade em retratos aumentam com a riqueza” é mais problemática. O estudo se baseia numa publicação de 2014 do Maddison Project, uma colaboração entre historiadores para ajudar os esforços do historiador Angus Maddison para reconstruir dados da economia medieval. Uma publicação mais recente do Maddison Project de 2018 enfatiza que, desde então, os colaboradores perceberam que “precisamos urgentemente de uma nova abordagem para as estatísticas históricas de Maddison”, porque o método tradicional do historiador acabava resultando em distorções e contradições significativas.

E há mais questões. Por exemplo, o fato de que não há coautores especializados em história da arte (ou historiadores) no estudo. Como um historiador apontou no Twitter, o artigo faz afirmações questionáveis sobre confiança social europeia como “a tolerância religiosa aumentou, a caça às bruxas diminuiu, mortes por honra e vingança perderam seu apelo e liberdade intelectual se tornou um valor central dos países modernos”. A maior fonte para essas afirmações é o livro Os Anjos Bons da Nossa Natureza de Steven Pinker, que já é criticado como um exercício profundamente falho de “pensamento positivo”.

O estudo também não leva em conta as intenções dos artistas ou modelos, o contexto e estilos de arte de certos retratos, ou as mudanças da arte em si com o tempo. Outro usuário do Twitter fez um fio com vários retratos e estilos que o estudo não conseguiu abordar adequadamente. Se você tivesse que avaliar subjetivamente um retrato de, digamos, Henrique VII, sua percepção subjetiva da confiabilidade dele seria enviesada, não só por causa de suas visões pessoais, mas por causa das intenções de Henrique e seu pintor. Como o fio explica, Henrique era um rei que “queria passar a impressão que poderia esmagar como um inseto qualquer um que fosse contra sua vontade”.

Sendo assim, as conclusões do estudo sobre confiabilidade não condizem com a realidade. Um retrato de Thomas Cranmer teve baixa confiabilidade segundo o algoritmo, e um de Sir Matthew Wood teve alta confiabilidade. Como um usuário explicou no Twitter, Cranmer foi “martirizado por renunciar uma retratação extraída sob tortura”, enquanto Wood “conseguiu uma grande herança seduzindo a filha de ‘mente fraca’ de um banqueiro importante”.

Vale também considerar a fonte dos dados: as coleções da Galeria Nacional de Retratos e da Web Gallery of Art, que contam com 1.962 e 4.106 obras de arte respectivamente. Essas são bases de dados enormes e ricas, mas passaram por toda uma curadoria. O estudo não questiona suas bases de dados e como elas foram construídas — curadoria obviamente favorece certos estilos de arte, períodos e artistas. Em vez disso, o estudo analisou o grau de democratização presente quando e onde os retratos foram pintados, e confiava nas estatísticas históricas falhas de Maddison para tentar medir indicadores econômicos. 

O algoritmo não consegue realmente detectar confiabilidade segundo um fio de um especialista em estatística no Twitter, onde ele calculou que a habilidade do algoritmo de detectar rostos “confiáveis” ou “dominantes” é apenas 5% melhor do que simplesmente dizer que todo rosto é igualmente confiável. As falhas inerentes do algoritmo pioram ainda mais com dados incompletos. A afirmação central de que o aumento na confiabilidade é “mais fortemente associado com o PIB per capita do que mudanças institucionais” é minada pelo fato de que enquanto os retratos foram feitos desde 1500 até agora, dados econômicos só começaram a ser realmente registrados em 1800. Isso significa que quase 42% dos dados econômicos para essa análise não existem.

No geral, não está claro se há algum valor nesse tipo de experimento. A pesquisa parece destinada a ser usada para legitimar uma repaginação digital da fisiognomia e frenologia, parecido com o jeito como departamentos de polícia tentaram usar análises empíricas para legitimar o perfilamento racial.

Siga a VICE Brasil no Facebook,Twitter,Instagram eYouTube.