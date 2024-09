Morgan é um filme de terror sobre uma criança artificial que logo sai de controle e deixa um rastro de morte e destruição. Por causa da sinopse, os produtores da Fox acharam que seria uma boa ideia envolver uma inteligência artificial de verdade nos preparativos para o lançamento nos EUA e pediram para uma equipe de pesquisa da IBM programar o Watson, inteligência artificial multitarefas, para escolher as cenas do trailer.

Watson o fez com gosto, surpreendendo até mesmo os desenvolvedores do software de aprendizagem. Para eles, isso pode abrir portas para outros usos de processamento de vídeo, e amenizar o trabalho das análises de dados em vídeos extensos, inclusive dados gerados por câmeras acopladas ao corpo de policiais.

Videos by VICE

Quanto ao trailer, foi uma investigação experimental. “Não sabíamos, a priori, qual seria o resultado”, disse John Smith, diretor da equipe de pesquisa da IBM em Yorktown Heights, Nova York, em um telefonema com Motherboard. “Foi a primeira vez que trabalhamos com um gênero específico assim, o terror. No fim das contas, foi impressionante, e ficamos muito satisfeitos com o que aprendemos.”

Morgan. A IBM Criou o Primeiro Trailer Feito por Inteligência Artificial. Créditos: 20th Century Fox/YouTube

A equipe usou sistemas que já havia desenvolvido antes, os célebres serviços de reconhecimento visual da Nuvem IBM Watson para Pesquisadores, que permite que empresas explorem as habilidades dessa inteligência artificial em particular. Watson já sabia processar imagens de vídeo, e é capaz de interpretar conteúdo emocional. Tudo que a equipe precisava fazer era ensinar Watson sobre o gênero de terror, especificamente.

Depois de alimentar a inteligência artificial com 100 filmes de terror de diversas eras (incluindo o clássico A Profecia, de 1976), não demorou muito para o software começar a captar padrões.

“Resolvemos trabalhar com aprendizagem automatizada, análises estatísticas de aprendizagem profunda”, explicou Smith. A inteligência artificial foi treinada com uma série de inputs (filmes de terror) para aprender a reconhecer atributos. Watson conseguiu identificar as emoções presentes em cena sem intervenção humana.

A inteligência artificial consegue discernir com sucesso o que se passa em uma cena pois as emoções podem ser quantificadas em duas dimensões: excitação e valência. Cada emoção se encaixa em um plano cartesiano no qual a valência é mensurada como positiva ou negativa. O segundo eixo, excitação, representa o nível de agitação: a emoção é suave ou entusiasmante?

“Por exemplo, a ‘alegria’ pode ser considerada uma emoção de alta excitação e alta valência. ‘Tristeza’, baixa excitação e baixa valência. ‘Medo’, alta excitação e baixa valência”, Smith elaborou em um e-mail posterior. “Quando o sistema é aplicado a um novo filme, o computador reconhece padrões de excitação vs. valência e categorias visuais de objeto e lugar, o que permite selecionar as cenas estatisticamente dominantes.”

Análise gráfica e estática que o sistema gerou sobre o filme Morgan. Créditos: IBM

De início, os pesquisadores tentaram fazer com que Watson reconhecesse as alegorias do gênero: cenas clássicas de figuras misteriosas se escondendo do personagem que está ao telefone, por exemplo, ou o carro que não dá partida. Mas, no lugar, a inteligência artificial apreendeu conteúdo emocional, como medo e ternura.

“Quando observamos os padrões desses sinais emocionais nos trailers”, disse Smith, “percebemos que eram mesmo dominantes”.

Passaram o filme Morgan inteiro nessa peneira, e Watson escolheu dez cenas para enviar ao editor humano, que por fim montou o trailer.

“No fim das contas, [o editor] utilizou nove dos dez [clipes] e fez um excelente trabalho.” O editor lapidou os momentos de corte das cenas, inseriu transições e acrescentou a trilha sonora, segundo Smith. “Ou seja, esse processo foi completamente humano”, disse.

Essa pesquisa pode nos levar ainda mais longe: veículos autônomos que compreendem seu ambiente ou até, quem sabe, análises detalhadas de habilidades de atletas.

Com os avanços em processamento de vídeo, a tecnologia também pode ser aplicada a coleções extensas de imagens de vídeo, como câmeras policiais acopladas ao corpo. O problema, no caso, seria a tarefa hercúlea de vasculhar horas de vídeos mundanos. Quando falei sobre essa ideia, Smith me contou que a IBM já está tentando formular uma solução.

“Muitos dos componentes e ferramentas que usamos neste caso, em Morgan, também se aplicam às câmeras policiais acopladas ao corpo. É uma área vasta a ser trabalhada, 12 milhões de policiais ao redor do mundo, e muitos deles serão equipados com câmeras. É vídeo pra dédeu, então estamos vendo como prosseguir por esse caminho”, contou.

Tradução: Stephanie Fernandes