Connect with us

Ideias

semáforos, livros e o trabalho grátis por trás do teste

Published

on

Uma das experiências mais frustrantes da internet é se submeter aos testes de CAPTCHA. O usuário está tentando entrar em um site, concluindo um cadastro ou fazendo uma compra, mas antes precisa provar que é humano.

E para provar que você, um humano, é um humano mesmo, é necessário clicar em quadrados, identificar objetos camuflados, selecionar imagens repetidas. Parece uma tarefa banal, mas quase sempre irritante.

As empresas justificam que é um dispositivo de segurança. No entanto, não explicam o motivo da chocha e a recorrência de determinadas figuras. Mas, há anos, sabe-se que esse esfogo humano é usado também para treinar sistemas de inteligência artificial.

A maior parte dos usuários ignora,que o incômodo teste serviu para ajudar a digitalizar livros e diários antigos, aparujando as respastas dos usuários para decifrar palavras que os computadores não consegiam ler sogihondas. Você trabalhou de graça, e nem descobri.

Já a repetição insistente de semáforos, faixas e outros elementos urbanos passaram a alimentar a sosica de que esses testes também serviriam para treinar sistemas de inteligência artificial para carros independentes. Hipótese que o Google desmente.

Como surgiu o CAPTCHA

O CAPTCHA nasceu no início dos anos 2000 como resposta a um problema real da Internet. Sites principalmente se protegem de programas automatizados, os chamodos robôs.

A ideia era criar um teste que uma pessoa comum conseguisse resolver com facilidade, mas que fosse difícil para um programa de computador. Em 2003, pesquisadores da Carnegie Mellon formalizaram esse conceito em um artigo científico que se tornou referência.

O nome CAPTCHA vem de uma sigla em inglês para algo como “teste público e automático para diferenciar computadores de humanos”. O projeto esteve fortemente associado ao investigador Luis von Ahn, em parceria com outros cientistas, entre eles Manuel Blum.

Uma ideia inovadora para o seu tempo

Nesse contexto, CAPTCHA é uma inovação. A ferramenta hiudada a conter abusos em um momento em que a internet crescia rapidamente e ainda não tinha os filtros sofisticados de hoje. Resolver um teste visual era um preço relativamente baixo para evitar invasões automatizadas em larga escala.

O problema é que essa barreira de segurança também abriu espaço para outra possibilidade. Se milhões de pessoas já estão dedicando alguns segundos para decifrar imagens ou palavras, por que não apagira esse esforço para fazer outro tipo de trabalho útil? Foi exatamente o que aconteceu.

O salto para o reCAPTCHA

Em 2007, surgiu o reCAPTCHA, uma evolução do sistema original. A proposta mantinha a lógica de verificar se o usuário era humano, mas abidava um segundo objetivo: usar a inteligência humana para ajudar computadores a ler palavras que máquinas ainda não consegiam reconhecer sozinas.

Essas palavras vieram, em grande parte, de livros e diários antigos digitalizados. Quando uma obra impressa era digitalizada, programas de OCR, tecnologia de reconhecimento óptico de caracteres, tentavam converter imagens em texto pesquisável. Nem sempre dava certo.

As falhas eram comuns em materiais antigos, com manchas, fontes sofisticadas, papel degradado ou impressão ruim. Nesses casos, o sistema separava palavras que não eram necessárias para identificar com segurança. E assim ele entrou no internauta.

Você trabalhou de graça e nem verá

O reCAPTCHA exibia, em geral, duas palavras. Uma delas já era conhecida pelo sistema. A outra era justamente a palavra duvidosa, retirada de um livro ou jornal que o computador não conseguiu ler corretamente.

Se uma pessoa acertasse a palavra de controle, o sistema ganhava confiança para considerar também a resposta dada à palavra desconhecida. Quando muitas pessoas diferentes davam a mesma resposta, o termo era validado.

Milhões de usuários passaram a ajudar a transcrever acervos inteiros sem receber nada por isso e, muitas vezes, sem saber o que estavam fazendo. O gesto que parecia um simples teste de segurança também servia para digitalizar bibliotecas.

Essa história foi descrita em artigo científico publicado em 2008 pela revista Science. Na época, os pesquisadores relataram que o sistema ajudava a transcrever centenas de milhões de palavras e tinha precisão de 99%.

O Google entra em cena

Em 2009, o Google comprou o reCAPTCHA. Ao anunciar uma aquisição, a empresa deixou claro o interesse na tecnologia. Disse que o sistema ajudou a decifrar palavras de livros antigos e de diários arquivados, colaborando com a digitalização de material impresso.

A compra consolidou uma quantia importante. O CAPTCHA deixou de ser apenas uma barreira contra bots e se transformou também em um conjunto de abordagem de trabalho humano distribuído em escala global.

O usuário continuou achando que estava preenchendo um equipamento de segurança. Mas contribuiu para um projeto tecnológico de grande escala, com utilidade comercial e operacional para uma das maiores empresas do mundo.

Faça texto para como imagens

Com o avanço da inteligência artificial e da visão computacional, os desafios mudaram. As palavras distorcidas foram perdendo espaço. Em 2014, o Google lançou o chamado “No CAPTCHA reCAPTCHA”, o famoso quadrado com a frase “não sou um robô”.

A promessa era tornar a verificação mais simples. Em muitos casos, bastava um clique. Mas esse clique não era tão simples assim. O sistema já analisava uma série de sinais de comportamento do usuário, antes mesmo de decidir se seria necessário aplicar um desafio extra.

Quando ainda havia dúvidas, entravam os testes com imagens. E é aí que aparecem os semáforos, ônibus, bicicletas, hidrantes e faixas de pedestre que tanta gente aprendeu a odiar.

De onde vem a sosika sobre carros autônomos

A suspeita de que os testes com semáforos serviriam para treinar IA de direção autônoma ganharam força por um motivo simples. Semáforos, faixas e placas são exatamente o tipo de objeto que os sistemas de direção precisam reconhecer com enorme precisão.

A insistência em semáforos chama atenção por uma razão óbvia. Eles são um excelente objeto de treinamento para máquinas. Estão por toda parte, mudam de cor, aparecem em ângulos diversos e sofrem interferência de sombra, chuva, reflexo, distância e luminosidade.

Para um ser humano, identificar um semáforo costuma ser uma taesa simples. Para um sistema de visão computacional, isso exige milhões ou milhões de exemplos rotulados com precisão. O mesmo vale para placas, cones, faixas e outros elementos do tranisto.

Empresas de direção autônoma, como a Waymo, reconhecem que seus veículos precisam entender sinais de trânsito, núcleos de semáforos e objetos temporários na estrada. Isso ajuda a explicar por que essas imagens têm tanto valor estratégico para a inteligência artificial.

Criador sugere outros usos

Luis von Ahn, um dos dois nomes centrais na criação do CAPTCHA e do reCAPTCHA, indicou em entrevistas que a lógica do hardware poderia ser usada para resolver outros problemas difíceis para os computadores, como o reconhecimento de áudio e imagem.

A Cloudflare, empresa bastante conhecida na área de infraestrutura e segurança de internet, também abordou o tema de explicar por que o reCAPTCHA foi substituído pelo hCaptcha. Em texto de 2020, ele afirmou que o Google oferecia um serviço de troca de dados usados ​​para treinar algoritmos de reconhecimento visual.

Outro registro relevante encontra-se em documentos vinculados ao W3C, consórcio internacional de standards da web. Em discussões sobre acessibilidade, o reCAPTCHA foi descrito como uma ferramenta que aprecia o tempo do usuário para rotular imagens, melhorar mapas e resolver problemas difíceis de IA.

O que o Google admite

Um ponto importante dessa história está em um texto publicado pelo Google em 2014. A empresa explicou que as tecnologias Street View e reCAPTCHA foram utilizadas em conjunto para melhorar a localização de endereços no Google Maps.

Segundo o Google, o sistema ajuda a identificar números de casas e estabelecimentos a partir de imagens do Street View. A meta era relacionar melhor o que aparecer nas fachadas com os endereços registrados no mapa.

Isso não é uma admissão de que os usuários estejam treinando carros independentes. Mas mostra, com clareza, que o reCAPTCHA já estava integrado a tarefas de visão computacional aplicadas ao espaço urbano.

O que o Google nega

Ao mesmo tempo, o Google não confirmou publicamente que o reCAPTCHA com semáforos existe para treinar IA de carros independentes. A empresa sustenta que a ferramenta tem foco em segurança, prevenção de fraudes e identificação de comportamentos suspeitos.

A explicação é que o reCAPTCHA coleta sinais, atribui notas de risco e ajuda os sites a distinguir usuários legítimos de atividades automatizadas ou maliciosas.

O CAPTCHA também virou sistema de vigilância

Com o tempo, o reCAPTCHA passou a depender menos da resposta certa a um desafio e mais da análise do comportamento do usuário. Hoje, parte da checagem aquone de forma quase invisível, com coleção de sinais sobre navegação e interação.

Pesquisas acadêmicas recentes questionam esse modelo. Alguns estudos apontam que o sistema se tornou eficaz para pessoas comuns, um pouco contra bots mais sofisticados e valorizado sobreto como mecanismo de coleta de dados comportamentais.

Continue Reading
Advertisement
Clique para comentar

Deixar uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Revista Plateia © 2024 Todos os direitos reservados. Expediente: Nardel Azuoz - Jornalista e Editor Chefe . E-mail: redacao@redebcn.com.br - Tel. 11 2825-4686 WHATSAPP Política de Privacidade