Artículo publicado originalmente por VICE Estados Unidos.
El viernes pasado, un trío de investigadores de psicología evolutiva publicaron un artículo de investigación en Nature que buscaba usar el aprendizaje automático para rastrear cambios históricos en la “confiabilidad” de las personas usando expresiones faciales en retratos. El experimento fue ampliamente criticado en internet como un renacimiento digital de prácticas racistas que pretendían distinguir el carácter de las características físicas, como la frenología y la fisonomía.
Videos by VICE
En esencia, el artículo trata sobre “una investigación que vincula rasgos morfológicos faciales con importantes resultados sociales” y utiliza retratos de los últimos siglos, junto con selfies de los últimos años, para llevar a a cabo el experimento. Con ese fin, los investigadores utilizaron el aprendizaje automático para crear un algoritmo que analiza por qué y cómo fueron emitidos esos juicios, específicamente en retratos europeos a lo largo del tiempo. Además de esa pregunta central, también investigaron si las personas de países más ricos tenían mayores probabilidades de tener retratos “confiables”.
Los investigadores compartieron su estudio en Twitter y dijeron que diseñaron “un algoritmo para generar automáticamente evaluaciones de confiabilidad para las unidades de acción facial (sonrisa, cejas, etc.)”. El tuit fue compartido con una imagen del estudio que se asemeja a los diagramas obsoletos y desacreditados de un conocido folleto de frenología de 1902 que prometía “familiarizar a todos con los elementos de la naturaleza humana y permitirles leer estos elementos en todos los hombres, mujeres y niños de todos los países”.
Esto provocó rápidamente una reacción violenta cuando una avalancha de investigadores señaló un conjunto de suposiciones profundamente defectuoso, una metodología y análisis cuestionables, un compromiso superficial con la historia del arte y un desprecio por la sociología y la economía. Los críticos también acusaron al proyecto de ser el más reciente en utilizar el aprendizaje automático para entrenar a un algoritmo para ser racista.
Los coautores de este estudio no respondieron a la solicitud de comentarios de Motherboard.
Durante mucho tiempo se ha entendido que las personas —de manera consistente e (in)consciente— emiten juicios sobre la personalidad de un individuo en función de sus rasgos faciales, a pesar de que no existe evidencia de un vínculo. Entonces, como era de esperarse, las conclusiones del estudio son débiles; por ejemplo, el hallazgo de que “las demostraciones de confiabilidad en los retratos aumentaron a lo largo de la historia” parece simplemente sugerir que cuanto más reciente sea un retrato, más confiable lo calificaríamos.
La afirmación de que “las demostraciones de confiabilidad en los retratos aumentaron con la riqueza” es más problemática. El estudio se basa en una publicación de 2014 del Proyecto Maddison, un esfuerzo colaborativo de algunos historiadores para expandir los intentos del historiador económico Angus Madison de reconstruir datos de la economía del Medioevo. Una publicación más reciente del Proyecto Maddison de 2018 enfatiza que, en los años posteriores, los colaboradores se han dado cuenta de que “necesitamos con urgencia un nuevo enfoque al abordar las estadísticas históricas de Maddison” porque la conclusión es que el método tradicional de Maddison da como resultado distorsiones y contradicciones significativas.
Sin embargo, existen otros problemas. Por ejemplo, tomemos el hecho de que ninguno de los coautores es historiador del arte (o historiador). Como señaló un historiador en Twitter, el artículo hace afirmaciones cuestionables sobre la confianza social europea a medida que “aumentó la tolerancia religiosa, disminuyó la cacería de brujas, los asesinatos por honor y la venganza perdieron su atractivo y la libertad intelectual se convirtió en un valor central de los países modernos”. La fuente principal de estas afirmaciones es el libro Los ángeles que llevamos dentro de Steven Pinker, criticado a su vez como un ejercicio profundamente errado sobre “un pensamiento ilusorio”.
El estudio tampoco tiene en cuenta las intenciones de los artistas o sujetos, el contexto de ciertos retratos y estilos artísticos, o sus cambios a medida que el arte se transforma. Tomen el hilo de otro usuario sobre varios retratos y estilos que el estudio no pudo abordar adecuadamente. Si tuvieran que ver subjetivamente un retrato de, digamos, Enrique VII, su percepción subjetiva de la confiabilidad del monarca estaría sesgada, no solo por los prejuicios personales, sino también por la intención de Enrique VII y su pintor. Como explica el hilo, Enrique VII era un rey que “quería lucir como si pudiera aplastarte como un insecto si te le oponías”.
Las conclusiones sobre confiabilidad del estudio realmente no concuerdan con la realidad. El algoritmo descubrió que un retrato de Thomas Cranmer tenía poca confiabilidad, y uno de Sir Matthew Wood alta confiabilidad. Como explicó un escritor en Twitter, Cranmer fue “martirizado por renunciar a una retractación obtenida bajo tortura”, mientras que Wood “se apoderó de una herencia al seducir a la hija “mentalmente discapacitada” de un banquero prominente.
También hay que fijarse en la fuente de los datos: la colección de la National Portrait Gallery y la Web Gallery of Art de Estados Unidos, que cuentan con 1.962 y 4.106 obras de arte, respectivamente. Son enormes y vastos conjuntos de datos, pero también tienen una curación explícita detrás. El estudio no cuestiona sus conjuntos de datos y cómo fueron construidos; la curación obviamente favorece ciertos estilos de arte, épocas y artistas. En cambio, el estudio analiza el grado de democratización presente del periodo y el lugar en que fueron pintados los retratos, basado en las estadísticas históricas probablemente erradas de Maddison cuando trató de medir indicadores económicos.
El algoritmo no puede detectar la confiabilidad de una persona, de acuerdo con el hilo de Twitter de un estadista, en el cual calcula que la capacidad de detectar rostros “confiables” o “dominantes” es solo un 5 por ciento mejor que simplemente decir que todas los rostros son igualmente confiables. Las fallas inherentes al algoritmo se agravan aún más por los datos incompletos. La afirmación central de que el aumento en la confiabilidad está “más fuertemente asociado con el PIB per cápita que con los cambios institucionales” se ve socavada por el hecho de que, si bien los retratos se remontan desde 1500 hasta la fecha, los datos económicos solo comenzaron a registrarse en 1800. Esto significa que falta casi el 42 por ciento de los datos económicos de este análisis.
En última instancia, no está claro que exista algún valor en este tipo de experimentos. En todo caso, el proyecto podría terminar siendo utilizado para legitimar aspectos de la fisonomía y frenología, de manera muy similar a como los departamentos de policía intentaron usar el análisis empírico para legitimar su discriminación racial.