Como a Google está a treinar a sua IA com conteúdo de editores não licenciados
CIÊNCIA & TECNOLOGIA
6 min de leitura
Como a Google está a treinar a sua IA com conteúdo de editores não licenciadosArquivos da empresa divulgados mostram que a Google traçou uma «linha vermelha rígida» contra dar aos editores a opção de escolher o treino da IA, optando por «atualizar silenciosamente» as políticas.
Em vez de dar opções, a Google decidiu “atualizar silenciosamente”, a forma como estava a utilizar os dados dos editores. / AP
11 de junho de 2025

De acordo com um testemunho divulgado em tribunal, descobriu-se que a Google utiliza conteúdos online para treinar as suas ferramentas de IA baseadas na pesquisa sem o conhecimento ou o consentimento dos editores que os produziram.

Os documentos, que foram divulgados durante o julgamento anti-monopólio dos Estados Unidos sobre o domínio da Google nas pesquisas online, revelam também que os executivos da empresa rejeitaram abordagens alternativas que teriam permitido aos editores ter uma palavra a dizer sobre a utilização dos seus conteúdos pela empresa tecnológica.

As revelações surgem num momento de maior escrutínio global de práticas anti concorrenciais semelhantes, que levaram a inúmeros processos judiciais e medidas governamentais contra gigantes da tecnologia.

O julgamento da Google baseia-se numa ação judicial com base em queixas de que o motor de busca da empresa detém um monopólio ilegal na pesquisa online sobre rivais como a Perplexity e a OpenAI.

Chetna Bindra, executiva de gestão de produtos da Google Search, afirmou explicitamente que a empresa havia traçado uma “linha vermelha rígida”, exigindo que todos os editores que desejassem que seu conteúdo aparecesse nos resultados de pesquisa permitissem que o conteúdo alimentasse os recursos de IA da Google.

Os documentos sugerem que a Google descreveu uma proposta de abordagem alternativa como “provavelmente instável” e decidiu não impor controlos adicionais. Os editores que “não estivessem satisfeitos” poderiam optar por se retirar totalmente da indexação de pesquisa.

Em vez de oferecer opções alternativas, a gigante tecnológica escolheu deliberadamente um caminho restritivo e planeou implementar as alterações através de «atualizações silenciosas» e «sem anúncio público» sobre como estavam a utilizar os dados dos editores.

«Faça o que dizemos, diga o que fazemos, mas com cuidado», disse Bindra no documento.

160 mil milhões de fragmentos de conteúdo

As deliberações internas da Google, apresentadas no tribunal federal durante o depoimento em maio, mostram que a empresa considerou várias abordagens para lidar com o conteúdo dos editores para o treino de IA.

Entre as opções discutidas estava a «SGE (experiência generativa de pesquisa) apenas com opções de exclusão», que teria permitido aos editores ficarem fora dos resumos gerados por IA sem desaparecerem do motor de pesquisa.

A Google teve que remover cerca de metade do que estava a usar — 80 mil milhões de fragmentos de conteúdo de um total de 160 mil milhões — do seu material de treino de IA para cumprir as solicitações de exclusão.

De acordo com a abordagem da Google, os editores que usavam uma opção chamada Google-Extended para bloquear o treino de IA com base no seu conteúdo, mas optaram por permanecer no motor de busca, ainda viam o seu conteúdo alimentando os produtos de IA mais visíveis da empresa.

Os documentos internos validam o que os editores há muito suspeitavam.

O suposto respeito da Google pelos criadores de conteúdo era uma encenação teatral destinada a fornecer cobertura legal enquanto a empresa colhia sistematicamente o seu trabalho.

Paul Bannister, Diretor de estratégia da Raptive, que representa criadores online, considerou a revelação «um pouco condenatória».

Ele observou que os documentos “mostram claramente que eles sabiam que havia uma variedade de opções e escolheram a mais conservadora e protetora delas — a opção que não dava nenhum controle aos editores”.

Monopólio das pesquisas online

Em agosto passado, quando um juiz federal dos EUA decidiu que a Google violou as leis antitrust ao manter um monopólio ilegal no mercado de pesquisas online, o tribunal concluiu que o gigante das pesquisas controlava aproximadamente 90% do mercado de motores de busca dos EUA e utilizava acordos de exclusão com fabricantes de dispositivos e programadores de navegadores para suprimir a concorrência.

As apresentações internas da empresa reconheceram isso, ao mesmo tempo que recomendavam como apresentar as mudanças na política e o que não dizer explicitamente.

“Se estivermos alinhados, como próximo passo, trabalharemos na linguagem real e divulgaremos isso”, disse o documento de Bindra, escrito em abril de 2024.

Um mês depois, na conferência anual de programadores da Google, a empresa lançou a sua experiência de pesquisa “totalmente renovada” com inteligência artificial.

Quando alguém pesquisa informações na Google agora, em vez de clicar num site de notícias ou blog, muitas vezes obtém a resposta diretamente do resumo da IA da Google no topo dos resultados da pesquisa.

Isso significa que os editores perdem as visitas ao site das quais dependem para exibir anúncios e vender produtos aos leitores, resultando em prejuízo financeiro imediato.

Perda de receita

Executivos do setor relatam que o tráfego dos seus sites caiu drasticamente desde que a Google lançou estas caixas de respostas de IA, cortando uma fonte de receita crucial de que muitos editores precisam para sobreviver.

“Editores e alguns governos em todo o mundo estão a tentar descobrir como obter pagamentos justos pelo conteúdo original de jornalistas, escritores e outros criadores”, diz Schiffrin.

“A autoridade da concorrência francesa multou a Google. O New York Times está a processar a OpenAI. Outros veículos de comunicação acham que não vale a pena processar e, por isso, estão a fazer acordos por conta própria”, acrescentou.

O processo movido pelo New York Times alega que a OpenAI e a Microsoft usaram milhões dos seus artigos sem permissão para treinar sistemas de IA, violando a lei de direitos autorais.

Embora a autoridade de concorrência francesa tenha multado a Google em 250 milhões de euros por violar os compromissos de licenciamento com as editoras francesas, ela concluiu que a empresa treinou o seu chatbot de IA, Bard (agora Gemini), com conteúdo de notícias sem informá-las, violando assim as regras de propriedade intelectual da UE.

A explicação da Google para rejeitar controlos mais detalhados parece ter como objetivo manter a sua flexibilidade e, ao mesmo tempo, limitar o poder das editoras.

A Diretora de pesquisa da Google, Liz Reid, testemunhou que criar várias opções de exclusão seria «desafiador», pois exigiria modelos separados para diferentes recursos, adicionando «enorme complexidade» e custos significativos de hardware.

«Isso significaria que, se a Pesquisa tivesse vários recursos GenAI na página, o que é fácil de fazer, cada um deles precisaria ter um modelo separado para alimentá-lo. Mas não criamos modelos separados para eles», disse Reid.

No entanto, os defensores dos direitos dos editores argumentam que essa explicação é falsa.

“Esta é uma estratégia para garantir que a Google tenha poder total no mercado e que os editores percam uma de suas principais cartas na negociação”, diz Brooke Hartley Moy, CEO da startup de IA Infactory, que trabalha com editores.

No entanto, as consequências vão além dos balanços financeiros. A base da informação confiável está a começar a desgastar-se.

Se a abordagem da Google conseguir enfraquecer o jornalismo e a criação de conteúdo profissional, as consequências irão muito além dos balanços financeiros das empresas.

Dê uma espreitadela na TRT Global. Partilhe os seus comentários!
Contact us