Inteligência Artificial: o básico para entendê-la : Projeto Comprova

Menu rápido

1. Introdução
2. Inteligência Artificial e Inteligência Artificial Generativa
3. O jornalismo e a Inteligência Artificial Generativa
4. Inteligência Artificial, desinformação e deep fakes
5. O que diz a decisão do TSE sobre IA nas eleições de 2024

1. Introdução

Ilustração de um chip de computador no formato de um cérebro.

No fim de novembro de 2022, a Open AI, uma companhia baseada em San Francisco e, até então, pouco conhecida, lançou a versão gratuita do ChatGPT, um assistente virtual que ganhou notoriedade em todo o mundo. O chatbot (“robô conversador”) da companhia, fácil de usar e programado para simular uma conversa entre humanos, se tornou popular inicialmente por conseguir resolver alguns problemas matemáticos, por escrever, em uma velocidade impressionante, textos como redações escolares, contratos e receitas, e auxiliar na criação de códigos de programação.

Captura de tela da primeira versão do ChatGPT.

Poucos meses depois, estava claro que o lançamento do ChatGPT era o evento catalisador de uma “revolução”: a Inteligência Artificial Generativa, tecnologia embutida no ChatGPT e em seus competidores lançados na sequência, poderia modificar os sistemas educacionais e afetar diversos setores da economia de forma profunda por sua habilidade de realizar atividades antes reservadas exclusivamente aos humanos, como processar informações complexas e gerar soluções criativas.

Também de forma rápida, associados aos avanços positivos que a nova tecnologia poderia trazer, emergiram diversas preocupações a respeito de seu impacto negativo: determinadas profissões poderiam se tornar obsoletas, arrastando diversos profissionais consigo; a nova tecnologia poderia, em vez de aumentar a produtividade da economia, concentrar ainda mais a riqueza, aprofundando a desigualdade; os chatbots cometiam erros clamorosos na coleta de informações e sofriam de alucinações, entregando a seus usuários respostas equivocadas ou sem nexo; e as tecnologias tornavam mais fácil a produção de conteúdos falsos, acelerando a crise da desinformação que marca a última década.

Em agosto de 2024, a maioria das dúvidas levantadas pela Inteligência Artificial Generativa continua em aberto. O que é certo é que o impacto desta tecnologia já pode ser sentido na atualidade. Diante disso, o objetivo deste manual é trazer a seus leitores, em linguagem simples e acessível, os elementos básicos da IA e discutir como os jornalistas podem lidar com este fenômeno.

Menu

2. Inteligência Artificial e Inteligência Artificial Generativa

Ilustração de um cérebro com braços mecânicos pintando a si próprio usando pincéis.

2.1 O que é Inteligência Artificial

A Inteligência Artificial é uma área da ciência da computação dedicada ao desenvolvimento de sistemas e tecnologias capazes de realizar tarefas equivalentes às desempenhadas pela inteligência humana. O termo IA foi criado em 1956, durante a Conferência de Dartmouth, nos Estados Unidos, onde pesquisadores como John McCarthy, Marvin Minsky, Nathaniel Rochester e Claude Shannon se reuniram para discutir a possibilidade de criar máquinas que pudessem ‘pensar’ e resolver problemas.

Entre as tarefas humanas que podem ser realizadas por computadores estão o reconhecimento de fala e de imagens, a tradução de idiomas e, em determinadas situações, a tomada de decisões. Outras qualidades humanas que as máquinas podem desenvolver é a capacidade de aprender e se adaptar a novas informações. Quando falamos de machine learning (“aprendizagem de máquinas”), estamos falando de uma Inteligência Artificial capaz de aprender a partir de uma determinada base de dados sem que receba explicitamente um comando para fazer isso.

Ao longo das décadas, a IA teve diversos avanços, sempre associados à aceleração da capacidade dos computadores de armazenar e processar informação. Assim, nos últimos anos, este avanço tem sido extremamente rápido. Os sofisticados algoritmos presentes nas redes sociais, nas plataformas de streaming e de comércio eletrônico e nos veículos autônomos são exemplos de Inteligência Artificial.

Com o advento da Big Data (“grandes bases de dados”) nos últimos anos, o setor passou a trabalhar com a ideia de deep learning (“aprendizado profundo”), que diz respeito a uma máquina capaz de aprender não a partir de bases de dados comuns, mas sim a partir de Big Data.

2.2. O que é a Inteligência Artificial Generativa

A Inteligência Artificial Generativa (IAG) é um subcampo da Inteligência Artificial que promove a criação – ou a geração, daí o nome generativo – de novos conteúdos. Aqui, estamos falando de textos, imagens, vídeos, códigos de computação, áudios e músicas, por exemplo.

A IAG utiliza modelos treinados em grandes volumes de dados para aprender padrões e características que podem ser combinados e transformados em novos conteúdos, diferenciando-se de outras formas de IA que são mais focadas em análise ou previsão.

2.3. O que são Grandes Modelos de Linguagem

Os Large Language Models (“Grandes Modelos de Linguagem” ou LLMs, na sigla em inglês) são modelos treinados a partir de grandes bases de dados textuais e são baseados em arquiteturas de redes neurais profundas. Esses modelos são projetados para compreender os textos em que foram treinados e, a partir daí, realizar tarefas como resumo, edição, tradução ou geração de novos textos.

Os LLMs não ‘pensam’ no sentido humano, mas utilizam probabilidades aprendidas durante o treinamento para prever e gerar a sequência mais provável de palavras que aparecem em um texto. Essa previsão é baseada em padrões observados em grandes quantidades de dados textuais, permitindo aos LLMs criar textos que parecem naturalmente escritos.

Esse treinamento consiste, essencialmente, em expor os modelos a grandes volumes de texto, onde precisam prever palavras ou preencher lacunas em frases com base nos padrões aprendidos, semelhante aos exercícios de completar frases que nós fazemos ao aprendermos um novo idioma.

No entanto, nós aprendemos a partir de experiências diretas e intuições, e as máquinas utilizam cálculos estatísticos para identificar e reproduzir os padrões observados nos dados.

Quando acertam ou erram, os modelos recebem feedback que é incorporado ao seu processo de aprendizado, ajustando os parâmetros internos para melhorar a precisão das previsões futuras.

Esse ‘feedback’ é frequentemente fornecido por anotadores humanos contratados por empresas de IA, que trabalham remotamente em várias partes do mundo. Esses trabalhadores, muitas vezes especializados, recebem salários significativamente mais baixos do que os que seriam pagos nos países onde as empresas de IA são sediadas, com variações de remuneração baseadas na especialização e localização.

De forma mais simples, portanto, podemos dizer que os LLMs, em vez de pensar, estão encaixando uma palavra atrás da outra com base na probabilidade de uma palavra aparecer após a outra nos textos que “leram” sobre o assunto perguntado pelo usuário.

Quando falamos de modelos de linguagem “grandes”, estamos falando de algo realmente grande: os LLMs são treinados para aprender bilhões de padrões de linguagem, a partir de fontes como livros, artigos científicos, sites e outras fontes de linguagem escrita.

Os LLMs mais avançados são capazes, também, de compreender o contexto e o significado subjacente dos textos. Essa capacidade faz com que os modelos sejam capazes de responder, também de forma coerente, perguntas que não apareceram diretamente em seus treinamentos.

É essa característica que faz os LLMs serem capazes de se engajar em diálogos complexos com um ser humano ou de escreverem sobre determinado assunto em formato de poesia ou como se fosse a letra de uma música.

2.4. O que são Modelos de Difusão

Os modelos de difusão, embora compartilhem alguns princípios com os LLMs, operam de maneira diferente. Eles são treinados para adicionar e remover ruído em dados, como imagens ou sons, até que uma saída clara e coerente seja gerada. Em vez de gerar textos ou códigos, os modelos de difusão criam imagens, vídeos ou sons (como músicas ou vozes) de forma realista e variada, tornando-os ferramentas poderosas para a criação de conteúdo visual e auditivo.

O que é importante ter em mente é que os Modelos de Difusão, como o DALL-E e o Stable Diffusion, para imagens, e o Suno, para músicas, também funcionam de forma simples para o usuário. As imagens e sons gerados por eles não são fruto do trabalho de um designer ou de um engenheiro de áudio, mas sim de um prompt de texto escrito por um usuário comum.

2.5. O que são os Modelos de Fundação? Quais são os principais hoje?

Modelos de Fundação são uma categoria que engloba tanto os LLMs quanto os Modelos de Difusão. O termo Modelo de Fundação foi criado em 2021 por pesquisadores da Universidade Stanford para designar “qualquer modelo (de Inteligência Artificial) que seja treinado em dados amplos que pode ser adaptado a uma ampla gama de tarefas posteriores”. Como o desenvolvimento desses modelos é extremamente custoso, as grandes companhias de tecnologia foram as únicas que, até aqui, foram capazes de criá-los e torná-los disponíveis.

Por isso, não há a necessidade de treinar um novo modelo do zero para cada aplicação específica. Isso os diferencia de outros modelos mais especializados, que são criados para tarefas específicas e não possuem a mesma versatilidade ou escalabilidade.

O Modelo de Fundação da OpenAI, que em 2022 lançou o ChatGPT, é o GPT, cujo nome significa Transformador Generativo Pré-Treinado (do inglês Generative Pre-trained Transformer). A OpenAI tem uma parceria com a Microsoft e, desta forma, o GPT é o modelo que está por trás do Copilot, a ferramenta de IA disponível em muitos programas da Microsoft e nas versões mais recentes do sistema operacional Windows.

Ex-integrantes da OpenAI criaram uma companhia concorrente, chamada Anthropic, que desenvolveu seu próprio Modelo de Fundação. Trata-se do Claude. Sua utilização foi liberada no Brasil em agosto de 2024.

O Google, por sua vez, desenvolveu o Gemini (que antes se chamava Bard).

Esses três modelos podem ser usados de forma gratuita, mas também possuem versões pagas (treinadas em mais dados e, portanto, mais avançados). Tanto o Claude quanto o GPT e o Gemini também permitem que desenvolvedores externos produzam ferramentas baseadas em seus modelos. Isso se dá por meio de acessos via API (sigla em inglês para Interface de Programação de Aplicações), que são pagos.

A Meta (dona do Facebook, do Instagram e do WhastApp) também tem seu Modelo de Fundação, chamado de Llama. Ao contrário dos concorrentes, o Llama é um modelo open-source, ou seja, está disponível para que desenvolvedores e empresas criem ferramentas e aplicativos a partir dele de forma gratuita.

Menu

3. O jornalismo e a Inteligência Artificial Generativa

Ilustração da cabeça e mão de um robô. A cabeça tem um cérebro humano aparente e a mão segura uma caneta.

3.1 Direitos autorais

Do ponto de vista empresarial, um dos impactos mais imediatos das ferramentas de inteligência artificial para o jornalismo é o fato de que, muito provavelmente, os modelos existentes foram, são e serão treinados por seus desenvolvedores com base em conteúdos produzidos pela imprensa, livros e artigos científicos.

Geralmente, as grandes empresas responsáveis pelas ferramentas de IA dizem ter treinado seus modelos com base em textos disponíveis na internet. Esta afirmação genérica não deixa claro que tipo de material foi usado, mas como os conteúdos de livros, artigos científicos e de veículos de imprensa são, em geral, considerados de alta qualidade, é muito provável que tenham destaque nos treinamentos.

O grande problema é que uma boa parte dessas principais fontes têm direitos autorais. Na visão de muitas empresas jornalísticas, a utilização de seu conteúdo sem anuência e sem pagamento por parte dos desenvolvedores de inteligência artificial consiste em um ato lesivo. O argumento contrário é que as máquinas estariam simplesmente aprendendo e não copiando o conteúdo, o que não infringiria os direitos autorais.

É importante destacar que não apenas empresas jornalísticas estão apreensivas. Artistas, músicos e cineastas, por exemplo, também estão preocupados com a possibilidade de uso de seus trabalhos no treinamento de modelos de IA sem compensação. Assim, nos próximos meses e anos, um dos debates que deve marcar este tema serão as disputas entre empresas de mídia, de tecnologia e legisladores sobre como o avanço da inteligência artificial afeta as questões de propriedade intelectual.

3.2 Utilização atual

Em abril de 2024, um grupo de acadêmicos e jornalistas publicou, sob os auspícios da agência Associated Press, um relatório com os resultados de uma pesquisa feita com cerca de 300 editores em posições de comando em veículos jornalísticos. Os dados mostram como a IA vem sendo utilizada nesta fase inicial.

A forma mais disseminada de uso de IA é a geração de conteúdos em texto, como manchetes, postagens para redes sociais, newsletters, questionários e rascunhos de reportagens. Há jornalistas que usam as ferramentas de IA para editar os textos, resumi-los ou para adequá-los a plataformas diferentes das quais ele foi pensado originalmente. Ferramentas de tradução e de transcrição de áudios e vídeos também são populares entre os jornalistas, pois ajudam a acelerar a apuração.

Muitos jornalistas também disseram utilizar ferramentas de IA para a produção de conteúdo multimídia, como ilustrações, vídeos e áudio. Ilustrações geradas por IA podem complementar o texto e ajudar na divulgação do conteúdo nas redes sociais. A geração de áudio, por sua vez, pode ser usada para produzir a narração de um conteúdo também para redes sociais.

Outro uso popular das ferramentas de IA é, segundo o relatório, a coleta de informações, o que pode incluir pesquisa sobre determinados assuntos, curadoria de textos, automação de etapas e a criação de sistemas de notificação.

3.3 Uma lista básica de ferramentas úteis para jornalistas

O setor de Inteligência Artificial está em constante mudança, com plataformas e ferramentas novas surgindo a todo instante, bem como outras sendo encerradas ou modificadas. Há serviços gratuitos, mas muitos pagos ou híbridos, em que o usuário pode realizar uma parte das tarefas de graça, mas precisa pagar para realizar ações mais avançadas.

Aqui, segue uma lista curta de ferramentas úteis que podem ajudar os jornalistas a realizar certas tarefas mais rapidamente. Ao usá-las, lembre-se de que se tratam de ferramentas automatizadas e que sua intervenção é necessária para garantir a precisão antes da publicação.

Transcrição: Escriba | Descript | SpeechText | Transkriptor
Tradução de arquivos: DeepL | Google Translate
Geração de narração a partir de texto: Eleven Labs
Assistente de escrita: Grammarly | LanguageTool
Buscador de ferramentas de IA: Future Tools

3.4 Como utilizar os LLMs

A utilização de ferramentas como o ChatGPT, o Gemini e o Claude (ver mais sobre elas abaixo) é bastante simples. A interação se dá por meio da chamada “janela de contexto”, o espaço no qual você dá as diretrizes de funcionamento aos modelos. É importante estar ciente de que as respostas geradas levarão em consideração não apenas o comando atual, mas também o histórico de interações inserido nessa janela. Idealmente, você deve abrir uma janela de contexto para cada tema diferente trabalhado.

Todas essas ferramentas geram resultados melhores conforme a qualidade do comando (o prompt) inserido pelo usuário. Assim, escrever o prompt de acordo com o que você deseja obter é fundamental.

Atualmente, a melhor forma de interagir inicialmente com os LLMs parece ser por meio de prompts que sigam as seguintes diretrizes:

Dê um papel (“você é um editor de jornal” ou “você é um repórter de meio ambiente”)
Defina o objetivo (“explique a teoria do aquecimento global”)
Especifique uma audiência (“para adultos com formação universitária” ou “para crianças”)
Restrições/estilo (“em linguagem simples”, “sem usar termos jurídicos complexos”
Formate o resultado (“em um parágrafo”, “em quatro tópicos”, “em até 500 caracteres”)

É fundamental saber das limitações e considerações éticas envolvidas no uso desses modelos. Eles podem gerar respostas que parecem convincentes, mas que são incorretas ou enganosas, e, portanto, todo conteúdo gerado deve ser revisado e verificado antes de ser publicado. Além disso, os LLMs podem reproduzir vieses presentes nos dados de treinamento, o que exige uma supervisão cuidadosa para evitar a disseminação de informações preconceituosas ou tendenciosas. A transparência sobre o uso de IA no processo editorial é igualmente importante para manter a confiança do público.

3.5. Como utilizar os Modelos de Difusão

Três dos mais utilizados geradores de imagem por Inteligência Artificial são o DALL-E, o Midjourney e o Stable Diffusion.

O funcionamento deles é semelhante: basta descrever uma imagem a ser gerada, confirmar o comando com um enter e aguardar o resultado.

O segredo, em geral, é fazer uma descrição objetiva e equilibrada. Fazer pedidos muito genéricos (“um prato de comida”) dificilmente dará o resultado desejado (“um prato de arroz com feijão” seria uma descrição mais precisa). Por outro lado, fazer um pedido com muitos detalhes também aumenta a chance de confusão.

A partir do resultado, é possível fazer ajustes na imagem, até se chegar ao que se deseja. Em geral, também se pode fazer prompts negativos, ou seja, pedir para que certos elementos não apareçam na imagem. Por exemplo, se você deseja uma imagem de um ‘cachorro correndo em um parque’, mas sem pessoas na cena, é possível adicionar um prompt negativo como ‘sem pessoas’ para garantir que o modelo não inclua humanos na imagem.

O DALL-E é utilizado através de um web app, ou seja, basta abrir o site do serviço no navegador, logar e, finalmente, digitar os comandos. O Midjourney pode ser utilizado através do Discord, que é um aplicativo de comunicação em grupo, ou em uma versão web.

Por ser de código aberto, o Stable Diffusion é mais flexível: há ferramentas via web, programas que podem ser instalados no computador e até aplicações mais interessantes, que permitem o treinamento de seu próprio modelo, a partir de imagens da sua biblioteca.

Em geral, é preciso ter assinaturas pagas para ter acesso a funções mais robustas.

Imagens geradas por IA podem ser confundidas com fotografias reais, especialmente quando usadas fora de contexto, o que pode levar à disseminação de desinformação. Portanto, vale sempre considerar o impacto e a possível interpretação das imagens geradas, e ser transparente sobre o uso de IA na criação desses materiais.

3.6 Os riscos da utilização de IA no jornalismo

Quando lemos ou ouvimos a respeito de como a Inteligência Artificial é utilizada no jornalismo, a primeira impressão é de que, rapidamente, essas ferramentas vão substituir os jornalistas, levando a uma ainda maior redução do tamanho das redações e do valor dos salários, prejudicando a qualidade do jornalismo e do debate público como um todo.

Ainda que este risco não seja desprezível, a possibilidade de se concretizar depende diretamente dos interesses da direção das empresas jornalísticas e da ética de quem comanda as redações.

Como mencionado anteriormente, essas máquinas não pensam. Elas não são, portanto, capazes de exercer julgamento crítico nem têm a sensibilidade para realizar uma entrevista, desconfiar dos poderosos ou para realizar grandes investigações. Essas são habilidades essencialmente humanas, que continuarão a ser exercidas por seres humanos.

Como é evidente, porém, os humanos são imperfeitos e a utilização da IA precisa ser acompanhada de boas doses de bom senso.

O risco mais claro da utilização de ferramentas da IA no cenário atual é que os jornalistas percam o controle sobre o processo editorial. Isso pode acontecer tanto na confecção de uma pauta quanto na do texto final da reportagem.

Ao “debater” uma pauta com o ChatGPT, o Gemini ou o Claude, os jornalistas precisam estar atentos ao fato de que esses modelos podem cometer erros factuais básicos, capazes de deturpar a reportagem a partir de seu início. Essas ferramentas também podem sofrer “alucinações”, caracterizadas por respostas fora de contexto ou simplesmente inventadas a respeito de determinado assunto.

Também importante é os jornalistas estarem atentos ao fato de que, por serem treinadas com base em conteúdos disponíveis na internet, as ferramentas de IA podem gerar conclusões e caracterizações que reflitam preconceitos existentes, comprometendo a qualidade do trabalho. A priori, a “terceirização” para os modelos de IA da confecção dos textos finais deveria ser uma prática completamente banida nas redações.

Importante é ter em mente, portanto, que a IA é uma ferramenta complementar ao trabalho jornalístico e não uma substituta dele. Todo conteúdo gerado a partir de Inteligência Artificial deve ser conferido e verificado pelos jornalistas antes de ser levado ao público.

3.7 Verificação e jornalismo: como a IA pode ajudar

As ferramentas de Inteligência Artificial podem ser aliadas importantes para os jornalistas na luta contra a desinformação. Isso pode se dar em vários estágios.

No monitoramento das redes, a IA pode servir para detectar padrões de disseminação de desinformação ou para agregar diferentes conteúdos enviados por leitores aos jornalistas. O Comprova, por exemplo, utiliza o Check, desenvolvido pela companhia Meedan, para organizar as mensagens recebidas via WhatsApp.

Ferramentas como as citadas anteriormente, como as utilizadas para transcrição e tradução, podem acelerar a apuração das verificações.

Além disso, há usos mais particulares que podem surgir a partir da demanda de cada iniciativa de verificação. Um exemplo mais específico e interessante é o da Faktisk Verifiserbar, uma organização norueguesa de checagem de fatos especializada em zonas de conflito. Eles estão utilizando inteligência artificial de três maneiras principais para combater a desinformação.

Primeiro, eles usam uma plataforma de IA chamada GeoSpy para geolocalizar fotos, extraindo características únicas das imagens e comparando-as com regiões geográficas. Isso ajuda a verificar a origem e a autenticidade de fotos compartilhadas em áreas de conflito.

Segundo, eles desenvolveram, em parceria com a Universidade de Bergen, ferramentas para acelerar o trabalho. Uma delas se chama Tank Classifier, e identifica e classifica veículos militares em imagens. A outra detecta o idioma falado em um vídeo para identificá-lo.

Além disso, a organização norueguesa usou o ChatGPT para visualizar suas investigações, geralmente baseadas em inteligência de fonte aberta. Eles estruturaram sua base de dados com a ajuda do ChatGPT para criar mapas que mostram coordenadas geográficas associadas a imagens e vídeos verificados, facilitando a visualização e compreensão de suas investigações.

Cabe lembrar, porém, uma potencial barreira importante de todas essas iniciativas: o fato de que as ferramentas são prioritariamente desenvolvidas com base no idioma inglês e treinadas a partir de dados oriundos deste idioma. Isso faz com que muitas das ferramentas sejam mais eficientes para conteúdos em inglês do que em português.

Menu

4. Inteligência Artificial, desinformação e deep fakes

Ilustração de uma cabeça metade humana, metade robô.

4.1 Os novos riscos da desinformação

As informações trazidas neste relatório até aqui demonstram que, se por um lado os jornalistas podem utilizar a IA para acelerar seu processos de trabalho e mesmo para fazer investigações, por outro os desinformadores também têm uma enorme gama de novas ferramentas para acelerar seu objetivo de poluir o debate público.

Um texto com informações falsas, por exemplo, pode ser produzido em um piscar de olhos em qualquer dos LLMs disponíveis. Este mesmo texto pode ser modificado de inúmeras maneiras pelo mesmo chatbot, o que facilitaria sua distribuição em múltiplas contas de redes sociais, atrapalhando a detecção por parte de quem monitora as redes sociais.

Também em uma questão de minutos, uma pessoa pode abastecer uma janela de contexto apenas com informações falsas e pedir aos LLMs a elaboração de um texto longo e complexo para ser publicado na internet, enviado por email ou distribuído nas redes e em aplicativos de mensagens.

Os Modelos de Difusão, por sua vez, podem ser utilizados na fabricação de imagens e vídeos falsos. Emular a voz de um político, fazer com que ela leia uma texto inverídico e inserir este áudio em um vídeo que mostre o político em questão é algo possível atualmente para quem tem alguma verba e tempo disponível.

Também mais fácil se tornou a manipulação de vídeos e imagens. Enquanto até poucos meses atrás era necessário alguém com alguma especialização em edição para montar um vídeo crível com informações falsas, as ferramentas de inteligência artificial elaboradas a partir dos Modelos de Fundação tornaram este processo acessível até para leigos.

Com alguma prática, é possível editar vídeos e imagens de modo a inserir ou remover pessoas e objetos, trocar rostos ou modificar o cenário. Em resumo, as possibilidades de adulteração são enormes, e seu limite é a criatividade humana.

Os novos celulares lançados em 2024 começam a integrar ferramentas avançadas de inteligência artificial nos aplicativos de fotos, o que pode aumentar os riscos de desinformação. Essas funcionalidades permitem aos usuários adicionar ou remover elementos visuais, como pessoas ou objetos, com facilidade e precisão quase imperceptível. Embora essa tecnologia ofereça novas possibilidades criativas, ela também facilita a criação de imagens manipuladas que podem ser usadas para enganar o público, espalhar desinformação e comprometer a confiança na autenticidade visual.

4.2 Dicas de como lidar com o problema

O primeiro ponto importante já está resolvido caso você esteja lendo este manual. Isso porque estar atualizado a respeito das capacidades da Inteligência Artificial é uma tarefa essencial daqui para frente. À medida que entendemos o que os modelos e as ferramentas movidas por IA podem fazer, podemos nos antecipar a elas e identificar conteúdos que sejam criados utilizando essa tecnologia. Não pare de se informar sobre este tema, portanto, lembrando que ele está em constante atualização.

O segundo ponto é a necessidade de compartilhar esses conhecimentos com seus colegas de redação. Quem está na vanguarda do combate à desinformação tem, até por dever de ofício, uma tendência a estar mais informado a respeito dos avanços tecnológicos envolvendo a IA. Esses conhecimentos, porém, podem demorar a chegar até outros setores da redação, o que pode expor o veículo a riscos desnecessários. Uma publicação prejudicada por um conteúdo falso, por exemplo, pode ter um efeito negativo sobre o veículo em questão e o jornalismo como um todo. Esteja atento, portanto.

Em terceiro lugar, é fundamental que os jornalistas consigam repassar as informações sobre as capacidades da IA para o público. Parte determinante do combate à desinformação envolve a chamada educação midiática – o nível de conhecimento do público a respeito do funcionamento da imprensa e de seus meandros. Explicar ao público como a desinformação pode ser produzida, assim, torna a sociedade mais resiliente à desinformação.

Além disso, quem trabalha com desinformação sabe que um dos gargalos desta atividade é, cada vez mais, o monitoramento das redes sociais. Quanto mais os leitores/ouvintes/telespectadores entenderem o problema, mais vão poder participar do monitoramento, enviando aos jornalistas conteúdos potencialmente problemáticos.

4.3. Tipos de deep fakes

Como o termo ‘fake’ sugere, o deepfake é uma técnica que utiliza inteligência artificial e algoritmos de aprendizado profundo para criar vídeos, áudios, ou imagens que parecem incrivelmente reais, mas que são, na verdade, falsificações. Esses conteúdos podem ser usados para enganar o público, formando um cenário confuso sobre o que entendemos por realidade.

O termo ‘deepfake’ foi criado no final de 2017 por um usuário do Reddit com o mesmo nome. Esse usuário compartilhou vídeos pornográficos que usavam tecnologia de código aberto que tornavam mais fácil trocar o rosto de pessoas. Desde então, o termo passou a ser utilizado para descrever uma variedade maior de conteúdos manipulados digitalmente, como vídeos, imagens e áudios.

Os deepfakes podem difamar, enganar e desinformar.

Na difamação, o objetivo é a humilhação ou o abuso de uma vítima e seus impactos podem ser devastadores.

Conteúdos feitos para enganar também são perigosos. Golpistas podem criar representações falsas de pessoas para pedir uma transferência de dinheiro, por exemplo.

Já a desinformação em geral tem o objetivo de moldar a opinião pública sobre determinado assunto ou pessoa.

Em resumo, deepfakes são conteúdos audiovisuais gerados ou manipulados com uso de IA e que deturpam alguém ou alguma coisa, com a intenção de enganar ou prejudicar alguém.

O conteúdo pode ser humorístico, político ou mesmo pornográfico. São inúmeras as possibilidades: troca de rostos, clonagem de voz, sincronização labial a uma faixa de áudio diferente da original, entre outras.

4.4. Como se cria um deepfake

Para criar um deepfake, a inteligência artificial usa algoritmos de aprendizado de máquina (machine learning) para fundir, combinar, substituir ou sobrepor fotos, vídeos ou áudios e, assim, criar conteúdos falsos em que pessoas ou personagens podem ser colocadas em qualquer situação, dizendo frases nunca ditas ou assumindo atitudes jamais tomadas.

Em geral, são usados conteúdos verdadeiros da pessoa que é alvo da manipulação. Quanto mais material à disposição, maior é a chance de um bom resultado, porque a inteligência artificial aprende com o conteúdo e reproduz padrões, como movimentos, expressões e vozes. Mas a tecnologia também pode ser usada para criar pessoas ou situações que nunca existiram.

Um dos exemplos do uso político de deepfake foi verificado pelo Comprova durante a campanha presidencial de 2022 no Brasil. Um vídeo publicado no TikTok mostrava o âncora do Jornal Nacional, William Bonner, supostamente chamando de “bandidos” o então candidato Lula e seu vice Geraldo Alckmin. Neste caso, a técnica provavelmente utilizada foi a Text to Speech (TTS), que é capaz de gerar áudios sinteticamente a partir de um conteúdo em texto e de um banco de dados com áudios de Bonner.

4.5. Shallowfakes

Enquanto o processo de criação de deepfakes utiliza uma base de dados para servir de modelo à inteligência artificial, edições comuns de peças audiovisuais são feitas a partir de ferramentas que não exigem esses dados.

Os chamados shallowfakes também são conteúdos manipulados, mas que não utilizam inteligência artificial no processo de criação. Em inglês “deep” é algo “profundo”, enquanto “shallow” é “raso”. Portanto, o deepfake corresponde a uma técnica mais sofisticada, enquanto o shallowfake geralmente usa uma edição simples, tirando imagens ou áudios de contexto.

Também nas eleições de 2022, um vídeo checado pelo Comprova foi manipulado para mostrar Bolsonaro à frente de Lula em uma pesquisa. O Jornal Nacional tinha divulgado o resultado real, com Lula na frente, mas o material indicava o oposto. A conclusão foi de que a adulteração foi feita com uma técnica relativamente simples de edição. Ou seja, o conteúdo era um shallowfake.

4.6. Como identificar deep fakes

A maior facilidade de acesso à inteligência artificial generativa tornou muito mais fácil a criação de deepfakes. Nem só isso: essa tecnologia é capaz de criar materiais mais convincentes: rastros que eventualmente denunciam a manipulação dos conteúdos estão cada vez mais sutis e podem passar despercebidos.

O acesso mais fácil também permitiu a criação de mais tipos de conteúdos, como vídeos inteiramente novos de pessoas, e não só versões de conteúdos existentes. A tecnologia disponível hoje também é bastante adaptável a casos específicos. Modelos de código aberto, por exemplo, permitem uma série de ajustes finos para ‘personalizar’ um conteúdo.

Assim, o caminho para driblar deepfakes deve passar muito mais pelo olhar atento ao conteúdo do que por uma análise técnica do material suspeito.

Por isso a importância da educação e do desenvolvimento da ‘arte da suspeita’, ou seja, da importância de desconfiar e checar os conteúdos recebidos antes de tomá-los como verdade. Assim, avaliar o contexto do conteúdo deve estar sempre entre os primeiros passos de uma verificação.

Ainda assim, há técnicas para tentar detectar um deepfake. Além de ferramentas específicas para isso, que também funcionam à base de IA, especialistas recomendam atenção a problemas nas transições entre o rosto e o restante da cabeça, entre lábios e dentes, além de eventual padrão robótico na movimentação. Incompatibilidades de nitidez, cor e sombras entre a pessoa e o fundo da imagem também podem ajudar a denunciar um deepfake, bem como palavras não existentes ou letras e números distorcidos.

4.7. Quatro pilares

Mas a verificação sozinha não é capaz de evitar o problema. Como a tecnologia que o possibilita está cada vez mais acessível, a tendência é de que a quantidade de conteúdo produzido supere com folga a capacidade dos verificadores. Assim, além da detecção, especialistas também veem como necessários outros três pilares: prevenção, integração e aplicação.

A ideia da prevenção é limitar a capacidade de criação de deepfakes com potencial danoso. Esse é um papel dos desenvolvedores dos modelos de linguagem e de difusão. O trabalho deles passa pela remoção de conteúdos danosos das bases usadas para treinamento e aperfeiçoamento dos filtros dos prompts e dos resultados.

A integração envolve incluir informações contextuais aos conteúdos criados com IA. Assim, imagens sempre teriam marcas d’água, por exemplo. Outros detalhes podem ser adicionados nos metadados das imagens, facilitando a detecção por pessoas ou robôs. Esse também é um papel dos desenvolvedores, em conjunto com as plataformas.

A aplicação passaria por políticas criadas e reforçadas pelas plataformas, sites de hospedagem e os desenvolvedores. Termos de serviço mais detalhados e punições mais rigorosas contra usuários que burlam as regras podem fazer parte dessas ações.

Em outra instância, o papel do Estado como agente regulamentador e fiscalizador dessa tecnologia também não pode ser ignorado. Além do Brasil, a União Europeia e países como os Estados Unidos, o Canadá, a China, a Índia, o Japão, a Suíça, o Reino Unido e a Austrália estão discutindo a regulamentação de produtos que usam IA.

4.8. Exemplos

Em março de 2023, em meio a boatos sobre uma possível prisão de Donald Trump, o jornalista britânico Eliot Higgins, fundador do site de investigação digital Bellingcat, usou IA para produzir imagens que rapidamente circularam pela internet como se fossem reais.

Imagens geradas por inteligência artificial mostram Donald Trump sendo preso por policiais.

Outra imagem notória produzida por IA, e que circulou amplamente pelas redes como se fosse real, foi a do papa Francisco vestindo uma moderna jaqueta de inverno.

'Deepfake' mostrando o Papa Francisco usando uma jaqueta branca moderna.

Casos como esses geraram reações de algumas plataformas, que passaram a restringir a produção de imagens envolvendo pessoas específicas. Ainda assim, usuários podem recorrer a ferramentas com menos restrições para contornar limitações. O Grok, IA criada por Elon Musk para os assinantes do X, é um exemplo. Fotos do próprio empresário foram criadas sem maiores problemas na plataforma, que também não se negou a produzir imagens ofensivas envolvendo personagens ou pessoas famosas.

Imagem gerada por inteligência artificial mostrando Elon Musk comendo um bife com as mãos.

Um dos problemas da disseminação de imagens geradas artificialmente é que imagens reais podem ser colocadas em dúvida por desinformadores. É o que aconteceu com materiais produzidos em um comício de Kamala Harris durante a campanha presidencial dos Estados Unidos em 2024. A AFP Checamos concluiu que não havia nenhum indício de IA nas imagens, apesar de alegações em contrário terem se espalhado pelas redes sociais.

Ferramentas como o Hive podem ser úteis para ajudar a detectar imagens criadas por inteligência artificial. O serviço analisa aspectos dos materiais e retorna uma probabilidade de que a imagem foi ou não gerada artificialmente. Mas o resultado, por si só, não deve ser usado como conclusivo, mas sim como um ponto de partida: é importante avaliar contexto e investigar outras possíveis pistas ou inconsistências que corroborem a avaliação.

Neste exemplo, a Agência Lupa usou o Hive para constatar que uma imagem de “Elon Musk com sua namorada robô” tinha 93% de chances de conter elementos gerados por inteligência artificial ou deepfakes. Ao mesmo tempo, os investigadores buscaram outras inconsistências, como a “mão desproporcional de Musk” e talheres com deformações nas pontas.

Menu

5. O que diz a decisão do TSE sobre IA nas eleições de 2024

Um robô colocando seu voto numa urna com o texto 2024.

Em fevereiro de 2024, o Tribunal Superior Eleitoral (TSE) aprovou a resolução 23.732, que introduz ao regramento das eleições uma série de obrigações envolvendo a utilização de inteligência artificial pelos candidatos.

A grande motivação para as mudanças foi o perigo das deep fakes. Este é o tema do artigo 9C da resolução, que veda o uso de “conteúdo fabricado ou manipulado para difundir fatos notoriamente inverídicos ou descontextualizados com potencial para causar danos ao equilíbrio do pleito ou à integridade do processo eleitoral”.

No parágrafo primeiro deste artigo, a resolução define deep fakes como “conteúdo sintético em formato de áudio, vídeo ou combinação de ambos, que tenha sido gerado ou manipulado digitalmente” para “criar, substituir ou alterar imagem ou voz de pessoa viva, falecida ou fictícia” e proíbe sua utilização.

Antes, no artigo 9B, a resolução determina que todo conteúdo multimídia gerado por meio de inteligência artificial deve vir acompanhado da informação, ao eleitor, de que se trata de um conteúdo fabricado ou manipulado utilizando tal tecnologia. As únicas exceções são imagens ou sons cuja qualidade tenha sido melhorada por IA, elementos gráficos como vinhetas e logomarcas criadas por IA, e os chamados “santinhos”, folhetos de divulgação em que candidatos e apoiadores aparecem, bem como seus números de urna.

No primeiro semestre de 2024, o TSE julgou 43 casos envolvendo IA e, em 32% deles, considerou a utilização irregular, como mostrou este levantamento do Aos Fatos.

Texto e ilustrações: David Michelsohn, Helio Miguel e José Antonio Lima
Revisão técnica: Eduardo Acquarone

Menu