Pesquisando Sintomas na Internet? Estas Empresas Estão de Olho em Você
Visualização de dados por Tim Limbert​

FYI.

This story is over 5 years old.

Tecnologia

Pesquisando Sintomas na Internet? Estas Empresas Estão de Olho em Você

A maioria dos sites ligados à saúde dos EUA está cheio de módulos de rastreamento que enviam registros de suas pesquisas para grandes corporações.

Estamos em 2015 – sempre que nos sentimos meio mal, tememos alguma doença ou temos qualquer dúvida sobre saúde, recorremos de cara à internet. De acordo com o Pew Internet Project, 72% dos usuários da rede nos EUA pesquisam informações relacionadas à saúde online. Mas um número impressionante de páginas que visitamos para saber mais à respeito destas questões de saúde privadas – de forma confidencial, presumimos – monitoram nossas pesquisas, enviando dados sigilosos para terceiros, até mesmo enviando as mesmas informações aos mesmos corretores que monitoram nosso crédito. Isso ocorre porque há lucro envolvido, para gerar uma "melhor experiência para o usuário" e porque os desenvolvedores recorreram à plug-ins e ferramentas "gratuitas" fornecidas por empresas aspiradoras de dados.

Publicidade

Em abril de 2014, Tim Libert, pesquisador da Universidade da Pensilvânia, desenvolveu um software chamado webXray para analisar os 50 melhores resultados de pesquisa para cerca de 2000 doenças comuns (mais de 80.000 páginas no total). Os resultados foram alarmantes: 91% das páginas faziam aquilo que se conhece como solicitações de terceiros para empresas externas. Isso significa que quando você pesquisa por "cold sores" (herpes labial), por exemplo, e clica o resultado no topo do ranking "Cold Sores Topic Overview WebMD", o site está repassando seu pedido de informação sobre a doença para uma ou mais (na maioria das vezes muitas mais) empresas.

De acordo com a pesquisa de Libert, publicada no Communications of the ACM, em cerca de 70% do tempo, os dados transmitidos "continham informações que expunham condições, tratamentos e doenças específicas". Isso, ele diz, é "potencialmente por em risco a privacidade do usuário". O que significa que provavelmente você pensará duas vezes antes de pesquisar sobre qualquer tipo de informação médica na internet.

"O WebMD está basicamente ligando pra todo mundo na cidade e espalhando por aí que é aquilo que você está procurando"

Eis o que acontece, em mais detalhes: digamos que você faça uma busca por "herpes". Ligando esta busca em sistema de buscas retornará uma lista com diversos resultados. Possivelmente, independentemente do site escolhido, assim que você clicar nele, a informação será enviada não só para o site em questão – digamos o Centro de Controle de Doenças, que está no topo dos resultados no Google – mas também para empresas que detém os elementos instalados naquela página. Eis o porquê:

Publicidade

Quando você clica naquele link do CCD, você está fazendo uma tal de "solicitação de primeira parte". Esta solicitação chega então aos servidores do CCD, que lhe retorna com o arquivo em HTML da página que você busca. Neste caso, seria a página "Genital Herpes - CDC Factsheet", que possivelmente seria aquela página na internet que você menos gostaria que alguém soubesse que você leu. Mas como o CCD tem instalado o Google Analytics para mensurar seu tráfego, e por algum motivo, incluiu o código AddThis que permite compartilhamento no Facebook e Twitter (o que levanta a questão de quem socializa páginas sobre doenças), o CCD também envia uma solicitação de terceiros para cada uma destas empresas. Esta solicitação é mais ou menos assim – http://www.cdc.gov/std/herpes/STDFact-Herpes.htm – e torna explícito para estas outras empresas no referenciador do HTTP que sua pesquisa foi sobre herpes.

Assim sendo, LIbert descobriu que a maioria dos sites ligados à saúde, desde o WebMD, privado, até o CDC.gov, administrado pelo governo norte-americano, está cheio de módulos de rastreamento que enviam registros de suas pesquisas a gigantes da rede como Google, Facebook e Pinterest, além de coletores de dados como a Experian e Acxiom.

Daí em diante, fica relativamente fácil para as empresas que recebem as solicitações, muitas das quais coletam outros tipos de dados (através de cookies, digamos) sobre sua navegação também, para identificar você e sua doença. Aquele endereço ou identificador, que claramente contém a doença sendo pesquisada, é transmitido para o Google, Twitter e Facebook, junto com o IP do seu computador e outras informações de identificação.

Publicidade

"A significância implícita do número 91% é que isto é algo endêmico em todos os tipos de sites", disse Libert a mim, "não são apenas sites comerciais que visam algum lucro, isso inclui também instituições em que você confia: o governo, organizações sem fins lucrativos, universidades".

O exemplo do CCD é notável porque é um site governamental, daqueles que esperamos não ter qualquer interesse em lucro, e que seja 100% seguro. "Isso é negligência, basicamente", afirmou Libert.

Mas os sites que visam lucro muitas vezes são bem piores. O WebMD, por exemplo, ocupa a 106ª posição como site mais visitado dos EUA, de acordo com o Alexa, e figura proeminentemente em resultados de busca para as doenças mais comumente pesquisadas. O mesmo site que envia solicitações para impressionantes 34 domínios diferentes, incluído aí corretores de dados como Experian e Acxiom.

"O WebMD está basicamente ligando pra todo mundo na cidade e espalhando por aí que é aquilo que você está procurando", disse Libert. Levando em conta que há uma boa chance de que poderia ser um doença delicada, seus usuários não gostariam nada disso.

O mesmo vale para o About.com (que envia suas solicitações para empresas como comScore, Experian, Google e Microsoft, entre outras), Health.com (que envia seus dados para mais de uma dezena de diferentes empresas), e muitos outros sites – se você está visitando um site de saúde com fins lucrativos, pode ter certeza de que você está sendo monitorado e que suas solicitações estão caindo nas mãos não apenas de empresas que ganham dinheiro com anúncios (o que explica porque Facebook e Google coleta estes dados), mas também nas que vendem dados explicitamente (caso da Experian e Acxiom).

Publicidade

Muitos dos melhores resultados para solicitações médicas não vem de sites explicitamente voltados para a saúde – FreeDictionary, eHow, Merriam-Webster, Answers, e LiveStrong todos figuram nos primeiros lugares – mas contam com boa parte dos módulos de rastreio constantes nos sites de saúde analisados por Libert. É razoável presumir que uma visita a qualquer um dos sites acima é registrada em pelo menos outras dez empresas de monitoramento.

Até mesmo sites públicos e sem fins lucrativos monitoram você – Mayo Clinic e Planned Parenthood, por exemplo, enviam seus dados para outras empresas como Google e Ensighten. Não que qualquer um destes tenha intenções nefastas; mas sim porque instalaram softwares gratuitos que lhes eram convenientes – e que ainda assim enviam dados de questões de saúde as quais você busca mais informações para outras empresas. (WebMD, o CCD e a Mayo Clinic não responderam imediatamente quando entramos em contato.)

O trabalho de Libert confirma relatos da Associated Press e da Electronic Frontier Foundation de que o site Healthcare.gov estava expondo dados de seus usuários.

"O Healthcare.gov é só a ponta do iceberg", disse Cooper Quintin, tecnólogo da equipe da EFF que expôs como o site estava disponibilizando dados dos usuários inadvertidamente através de referenciais, após saber da pesquisa de Libert. "Você pode até pensar que os dados que você acessa através da internet são privados, apenas entre você e seu provedor de serviço", disse Quintin. "Mas não são."

Publicidade

Uma amostra aleatória de 1.000 solicitações de terceiros. Visualização de dados por Tim Limbert. O Google supera os outros grandemente

Então por que tantos sites estão transmitindo suas informações confidenciais, possivelmente embaraçosas e danosas para outras empresas? Em sites sem fins lucrativos como o do CCD e da Mayo Clinic, não há nada de sinistro por trás; seus desenvolvedores simplesmente instalam ferramentas "gratuitas" como o Google Analytics e botões de "compartilhar" de mídias sociais em suas páginas, e a maioria dos usuários não tem ideia de que isso significa que seus dados estão sendo compartilhados com terceiros.

"O problema é que usar estas ferramentas 'gratuitas' de terceiros é muito fácil para desenvolvedores web. O que estes desenvolvedores não levam em consideração, é por que estas ferramentas são grátis?", disse Libert. "Estas empresas não são instituições de caridade – eles estão fornecendo estas ferramentas para ganharem dinheiro a partir de dados de usuários. Então o que acontece é que um desenvolvedor web do governo está repassando o custo aos usuários que não fazem ideia de que seus dados estão sendo comercializados sem seu consentimento."

O Google é o principal infrator neste caso, não só em sites governamentais, mas em todo o espectro – é de sua propriedade a maior parte dos módulos que monitoram você. Libert descobriu que "78% das páginas analisadas incluíam módulos de propriedade apenas do Google", um resultado que ele afirma ter lhe surpreendido.

Certamente o Google não é a única empresa monitorando sites de saúde. Mas o segundo lugar fica bem atrás: 38% das 80 mil páginas analisadas enviava solicitações de terceiros à comScore, outra empresa de análise de internet. Enquanto isso, 31% dos sites repassava dados ao Facebook, 22% ao AppNexus, 18% ao AddThis (uma empresa de monitoramento na rede),. 18% no Twitter, 16% à Amazon e 12% ao Yahoo. Diversas outras enviavam solicitações para uma combinação de muitas das empresas listadas acima, e mais. Vale notar que o Google recebe muito mais dados do que qualquer outra empresa.

Publicidade

"Por mais que eu esperasse que o rastro deixado pelo Google fosse grande, não imaginei o quão grande seria exatamente", disse Libert. "Mesmo que você use um iPhone, DuckDuckGo e Hotmail, o segundo em que você abre seu navegador há uma enorme chance de que o Google obtenha seus dados." Isso porque o Google está absorvendo suas informações através de uma série de serviços hospedados e domínios, do Google Analytics, que mede o tráfego em sites, ao DoubleClick, um serviço de publicidade, e o YouTube, sua plataforma de vídeos.

Se um site tem o Analytics instalado no seu backend, então uma solicitação de terceiros é automaticamente enviada ao Google – porque isso ocorre no que Libert chama de "rede invisível", o usuário nunca sabe do que está ocorrendo. Libert descobriu que o Analytics incitava tais solicitações em 45% das 80 mil páginas de saúde analisadas.

"Independente do tipo de serviço, de alguma forma todas estas solicitações de HTTP retornavam informação ao Google", escreve Libert na pesquisa. "Isso significa que uma única empresa tem a habilidade de recordar a atividade na rede de um grande número de indivíduos em busca de informações delicadas relacionadas à questões de saúde sem seu conhecimento ou consentimento."

O que pode acontecer assim que o Google começa a aspirar as suas informações sobre saúde? Um incidente ocorrido na caixa de entrada de um canadense dá pistas.

Em janeiro de 2014, a comissão de privacidade do Canadá decidiu que o Google havia violado as leis de privacidade do país após um usuário ter descoberto estar sendo alvo de anúncios de dispositivos que afirmavam tratar apneia do sono. Ele havia usado o site de buscas anteriormente para saber mais sobre a doença e também para buscar aparelhos similares, mas nunca havia dado consentimento. O Gabinete do Comissário de Privacidade do Canadá foi capaz de replicar a experiência e decidiu que o Google havia quebrado a lei.

Publicidade

"A maioria dos canadenses considera informações relacionadas à saúde serem extremamente sigilosas", disse o comissário à época. "É desapropriado que este tipo de informação seja usada em propaganda comportamental online." O Google argumentou que "os critérios de visualização e listas de usuários para anúncios em sua rede são determinadas por anunciantes individuais", não o Google, de acordo com o The Register, e que era contra suas práticas usar informações sensíveis como estas para fazer anúncios, mas admitiu que "certos anunciantes ou terceiros podem fazer o remarketing de produtos erroneamente". Nenhuma multa foi cobrada, porém, visto que o país mostrou-se satisfeito com a insistência do Google de que passaria a adotar políticas de privacidade mais severas. Ainda assim, deixa bem claro do que o Google é capaz – caso ele ou a rede de anunciantes a qual atende quisessem exibir anúncios direcionados sobre supostos tratamentos para herpes para aqueles que pesquisaram pelo termo, é algo ao seu alcance.

Este risco encaixa-se em um de dois que Libert identifica em sua pesquisa; identificação pessoal e diferenciação cega. O caso do Google é exemplo caro do primeiro – caso o Google queira, ele tem dados para discernir quem é você e o que lhe aflige. Isso é assustador, com certeza, mas também tem ramificações no mundo real que vai além do fato de que seu provedor de busca saber que você tem síndrome do intestino irritável. Os usuários não tem controle sobre como estes dados são armazenados ou protegidos, por exemplo, e talvez estejam vulneráveis ao ataque de hackers.

Publicidade

Um porta-voz do Google me enviou a seguinte declaração: "Muitos sites usam nossos serviços para medir seus tráfego, incorporar vídeos do YouTube, ou financiar seus conteúdos por meio de publicidade. Temos práticas restritas que proíbem tais sites de passarem adiante dados pessoalmente identificáveis. Não queremos e não usamos este tipo de informações sensíveis. E sendo bem claros: nós definitivamente não permitimos que nossos sistemas de propaganda sejam usados para traçar perfis ou direcionar anúncios, com base em informações de saúde ou médicas".

A empresa não respondeu imediatamente quando questionado como esta negação genérica poderia se encaixar com as descobertas de Libert. Libert, da sua parte, chamou a resposta de "sua resposta pronta típica".

"A única coisa que guia o uso destes dados é lucro"

As possibilidades mais desconcertantes não estão nas mãos do Google ou Facebook, que coletam dados de toda a rede e armazenam em seus servidores, mas sim na ação de corretores de dados como a Experian, cujos produtos Libert encontrou em cerca de 5% das páginas na amostragem – tipicamente, em sites com fins lucrativos como o WebMD, About.com e MedicineNet.com. A Experian é uma agência de crédito que se expandiu para um "um grupo de serviços de informação global". A mesma foi alvo de uma severa investigação do Senado liderada por Jay Rockefeller em 2013, pro tratar-se de uma empresa cujo interesse é coletar o máximo de dados sobre indivíduos quanto possível, então reorganizando-os e vendendo-os. E sim, isso inclui informações privadas sobre saúde.

Publicidade

"Encontrei a Experian em milhares de sites", disse-me Libert, "aqui temos uma empresa que sabe os detalhes íntimos de meu empréstimos estudantis, e talvez também saibam sobre minhas questões de saúde? Fiquei embasbacado".

"É de arrepiar pensar que as empresas que monitoram seu crédito fazem o mesmo com a sua saúde", adicionou.

Há uma série de razões pelas quais é problemático que corretores de dados ao redor do mundo estão armazenando informações sobre sua saúde sem seu conhecimento ou permissão. A primeira parte é simples – eles poderiam usá-lo de forma inapropriada. Em 2013, a Experian foi multada por vender uma quantidade absurda de dados de consumidores para ladrões de identidade no Vietnã. Além disso, os dados, armazenados por entidades desconhecidas com níveis desconhecidos de segurança, talvez esteja sob risco de ataques de hackers. "Meramente armazenar informações pessoalmente identificáveis sobre condições de saúde levanta possibilidades para perdas, roubo, abuso", escreve.

E como Libert destaca em sua pesquisa, outra empresa, Medbase200, foi citada pelo uso de "modelos proprietários" para gerar e vender listas com classificações como "vítimas de estupro", "vítimas de abuso doméstico" e "pacientes de HIV/AIDS", o que possivelmente deve ser o mais terrível uso de publicidade direcionada já concebido.

"O problema é que as informações das pessoas não existem em um vácuo. A Experian pode pegar estes dados e adicionar às informações que ele já tem", disse Quintin. "O Google faz o mesmo, eles tem um cookie com o seu nome e seus dados e tudo mais. E ocorre compartilhamento de dados por trás dos panos. A Experian pode compartilhar estas informações com outras empresas".

Publicidade

E este tipo de prática leva ao que Libert chama de diferenciação cega.

"A Experian é uma corretora de dados bastante conhecida por vender informações de crédito – o que inclui dados sobre falências", disse Libert. "Pesquisas acadêmicas realizadas pela Senadora Elizabeth Warren mostrou que 60% das falências são relacionadas à saúde. Levando em conta que me deparei com a Experian monitorando usuários em centenas de páginas relacionadas à saúde, é perfeitamente possível que a empresa saiba não só quem foi à falência por razões médicas, mas também quando eles entraram na internet pela primeira vez para pesquisar sobre suas doenças. Em essência, a Experian pode acompanhar um indivíduo desde seu primeiro espirro até sua última conta não paga no hospital". (A Experian não respondeu às nossas tentativas de contato.)

Quintin concorda que esta é uma ameaça real. "Eu diria que é totalmente possível." Ele sugere ser plausível que as informações médicas colhidas por estes corretores poderiam eventualmente ser adicionadas às informações de crédito – e até mesmo utilizadas para determinar o quanto o indivíduo gasta com saúde. "Olha, isso tudo é especulativo, certo? Mas se eu sou um banco e você quer um empréstimo, não haveriam razões pelas quais eu não gostaria de ter estas informações." E os corretores de dados poderiam fornecê-las. "Existem este demográfico de publicidade seu, e agora inclui-se dados de cuidados com a saúde seus também. Quanto vamos lhe cobrar pelo plano de saúde se você tem pesquisado por 'câncer' e mais um monte de doenças? Os planos de saúde poderiam aumentar suas taxas."

"Outra possibilidade terrível se aplica a quem está em busca de emprego", Quintin prosseguiu. "Uma empresa talvez consiga um perfil demográfico seu a partir de um destes corretores de dados e usar esta informação para decidir se você será contratado ou não."

Mas o principal problema é que tudo que foi citado acima, sob a legislação atual, é legal.

"A única coisa que dita o que acontecerá com os dados é quem lucrará com eles", disse Libert. "A única coisa que guia o uso destes dados é o lucro. Sem supervisão, sem leis, sem nada." Procede, nos EUA, para as práticas do Google e o vasto monitoramento da Experian em sites de saúde.

"Informações sobre saúde são alguns dos dados mais pessoais que alguém pode ter. É algo que revela muito sobre você. Há um motivo pela qual temos leis como a HIPAA – infelizmente elas não se aplicam aqui", disse Quintin. HIPAA é a sigla em inglês para Ato de Portabilidade e Responsabilidade de Seguro de Saúde de 1996, que força o governo e os médicos a manterem registros médicos seguros e confidenciais. Não dispõe de qualquer jurisdição sobre empresas de sites de busca e corretores de dados que colhem dados "oferecidos" por seus usuários.

"Por mais que a Experian seja sujeita ao Fair Credit Reporting Act, ela não está sob jurisdição da HIPAA, ou seja, as informações sobre saúde colhidas pela empresa na rede são, virtualmente, independentes de regulamentação", disse Libert. "Claramente, o Congresso precisa agir aqui."

Quintin diz que há coisas que os usuários para se protegerem de tais monitoramentos agora – instalando bloqueadores de anúncios como o Privacy Badger. Ou dar um fim a sites de saúde que visam lucro como um todo. Há uma luz no fim do túnel aqui – a Wikipédia. Era um dos poucos sites que fornecia informações sobre saúde que não enviavam solicitações de terceiros para empresas.

Agora, porém, milhões de pessoas estão expondo seus perfis pessoais de saúde à anunciantes de internet e corretores de dados, bem no momento em que elas fazem as pesquisas mais confidenciais possíveis.

"Este é um grande problema da rede", disse Quintin. "É assim que ela funciona, e precisa funcionar de outra forma – especialmente se tratando das informações sobre a saúde das pessoas."

Tradução: Thiago "Índio" Silva