Tecnología

Uma AI treinada com artigos científicos antigos fez descobertas que os humanos perderam

robot in front of chalkboard

Usando apenas a linguagem de milhões de artigos científicos antigos, um algoritmo de aprendizado de máquinas conseguiu fazer novas descobertas científicas.

Num estudo publicado na Nature em 3 de julho, pesquisadores do Lawrence Berkeley National Laboratory usaram um algoritmo chamado Word2vec para peneirar artigos científicos procurando conexões que os humanos perderam. O algoritmo então fazia previsões para possíveis materiais termoelétricos, que convertem calor em energia e são usados para muitas aplicações de aquecimento e resfriamento.

Videos by VICE

Mas o algoritmo não sabia a definição de termoeletricidade. Ele não recebeu treinamento em material científico. Usando apenas associação de palavras, o algoritmo conseguiu prever candidatos para futuros materiais termoelétricos, alguns podendo ser melhores do que os que usamos atualmente.

“O algoritmo pode ler qualquer material de ciência, e consegue fazer conexões que nenhum cientista poderia”, disse o pesquisador Anubhav Jain. “Às vezes ele faz o que um pesquisador faria; outras vezes ele faz associações interdisciplinares.”

Para treinar o algoritmo, os pesquisadores avaliaram a linguagem de 3,3 milhões de resumos relacionados a material científico, acabando com um vocabulário de cerca de 500 mil palavras.

Eles colocaram os resumos no Word2vec, que usa aprendizado de máquina para analisar relações entre palavras.

“Esse algoritmo Word2vec funciona treinando um modelo de rede neural para remover cada palavra e prever quais serão as próximas palavras”, disse Jain. “Mas treinando uma rede neural com uma palavra, você tem representações das palavras que podem conferir conhecimento.”

Usando apenas as palavras encontradas nos resumos científicos, o algoritmo conseguiu entender conceitos como a tabela periódica e estruturas químicas das moléculas. O algoritmo ligou palavras que eram encontradas próximas umas das outras, criando vetores para palavras relacionadas que ajudavam a definir conceitos. Em alguns casos, palavras eram ligadas a conceitos termoelétricos, mas nunca tinham sido escritas para termoeletricidade em nenhum resumo que eles tinham observado. Esse vácuo no conhecimento é difícil de descobrir com olhos humanos, mas um algoritmo nota facilmente.

Depois de mostrar sua capacidade em prever futuros materiais, os pesquisadores levaram seu trabalho de volta no tempo, virtualmente. Eles descartaram dados recentes e testaram o algoritmo em artigos antigos, observando como ele podia prever descobertas científicas antes delas acontecerem. E mais uma vez, o algoritmo funcionou.

Em um experimento, os pesquisadores analisaram apenas artigos publicados antes de 2009 e conseguiram prever um dos melhores materiais termoelétricos modernos quatro anos antes dele ser descoberto em 2012.

Essa nova aplicação para aprendizado de máquinas vai além de materiais científicos. Como ele não é treinado numa base de dados especificamente científica, ele pode facilmente ser aplicado a outras disciplinas, retreinado em literatura ou qualquer matéria que você quiser. Vahe Tshitoyan, o principal autor do estudo, disse que outros pesquisadores já estão entrando em contato para saber mais.

“Esse algoritmo não é supervisionado e constrói suas próprias conexões”, disse Tshitoyan. “Você pode usá-lo em coisas com pesquisa médica ou descobertas de drogas. A informação está aqui. Não fizemos essas conexões ainda porque ninguém consegue ler todos os artigos.”

Siga a VICE Brasil no Facebook, Twitter, Instagram e YouTube.