Publicidad
Tech by VICE

IA revisa antiguos artículos científicos y hace hallazgos que los humanos pasaron por alto

Los científicos utilizaron el aprendizaje automático para revelar nuevos conocimientos científicos ocultos en antiguos documentos de investigación.

por Madeleine Gregory
12 Julio 2019, 4:30pm

Shutterstock

Artículo publicado originalmente por VICE Estados Unidos.

Usando solo el lenguaje contenido en millones de artículos científicos antiguos, un algoritmo de aprendizaje automático fue capaz de hacer descubrimientos científicos completamente nuevos.

En un estudio publicado en Nature el 3 de julio, los investigadores del Laboratorio Nacional Lawrence Berkeley, en Estados Unidos, utilizaron un algoritmo llamado Word2Vec para analizar las conexiones que los humanos pudieran haber pasado por alto en los artículos científicos. Su algoritmo luego arroja predicciones para posibles materiales termoeléctricos, que convierten el calor en energía y se utilizan en muchas aplicaciones de calefacción y refrigeración.

Sin embargo, el algoritmo no conocía la definición de "termoeléctrico". No recibió capacitación en ciencia de los materiales. Usando solo asociaciones de palabras, el algoritmo pudo proporcionar candidatos para futuros materiales termoeléctricos, algunos de los cuales pueden ser mejores que los que utilizamos actualmente.

"Puede leer cualquier documento sobre ciencia material, así que puede hacer conexiones que ningún científico podría hacer", dijo Anubhav Jain, uno de los investigadores. “A veces hace lo que un investigador haría; otras veces realiza asociaciones interdisciplinarias".

Para capacitar al algoritmo, los investigadores evaluaron el lenguaje de 3.3 millones de resúmenes relacionados con la ciencia de los materiales y terminaron con un vocabulario de aproximadamente 500,000 palabras. Entonces le transmitieron los resúmenes a Word2vec, que usó el aprendizaje automático para analizar las relaciones entre las palabras.

"La forma en que funciona el algoritmo Word2vec es que capacitas a un modelo de red neuronal para eliminar cada palabra y predecir cuáles serán las siguientes palabras", dijo Jain. "Al entrenar a una red neuronal con una palabra, obtienes representaciones de palabras que realmente pueden conferir conocimiento".

Usando solo las palabras encontradas en los resúmenes científicos, el algoritmo fue capaz de entender conceptos como la tabla periódica y la estructura química de las moléculas. El algoritmo vinculó las palabras que se encontraban juntas, creando vectores de palabras relacionadas que ayudaron a definir conceptos. En algunos casos, las palabras fueron vinculadas a conceptos termoeléctricos, pero no estaban asociadas a este concepto en ninguno de los resúmenes analizados. Esta brecha en el conocimiento es difícil de detectar para el ojo humano, pero es fácil para un algoritmo.

Después de mostrar su capacidad para predecir materiales futuros, los investigadores decidieron hacer un viaje en el tiempo, de manera virtual. El equipo retiró datos recientes y probaron el algoritmo en documentos antiguos, para averiguar si podía predecir descubrimientos científicos antes de que sucedieran. Una vez más, el algoritmo funcionó.

En un experimento, los investigadores analizaron solo los artículos publicados antes de 2009 y pudieron predecir uno de los mejores materiales termoeléctricos modernos cuatro años antes de que fuera descubierto en 2012.

Esta nueva aplicación de aprendizaje automático va más allá de la ciencia de los materiales. Debido a que no está capacitada con un conjunto de datos científicos específicos, podría aplicarse fácilmente a otras disciplinas, volviéndolo a capacitar en literatura o cualquier otra materia que se desee. Vahe Tshitoyan, el autor principal del estudio, dice que otros investigadores ya lo han contactado para saber más al respecto.

"Este algoritmo no está supervisado y crea sus propias conexiones", dijo Tshitoyan. "Podría utilizarse para la investigación médica o el descubrimiento de medicamentos. La información está allá afuera. Simplemente no hemos realizado estas conexiones todavía porque no se pueden leer todos los artículos".

Tagged:
Motherboard
Investigadores
experimento
algoritmo
materiales
aprendizaje automático
termoeléctrico
Word2Vec