O que diz a máquina

Recentemente, no sétimo andar de um edifício de escritórios em Arlington, nos EUA, Rachael manteve o dedo sobre uma tela touchscreen e perguntou a Azis se ele conhecia o ancião da aldeia. O tablet portátil bipou uma imitação de R2D2 e depois disse o que soou como, "Aya tai ahili che dev kali musha". Azis respondeu em pashto, e o Streak disse com dicção monótona: "Sim, conheço". Rachael perguntou: "Poderia me apresentar a ele?" Aziz não conseguiu entender a tradução da máquina (embora fale inglês), de modo que ela perguntou de novo: "Poderia me apresentar ao ancião da aldeia?" Desta vez, houve algum sucesso. Azis, pelo aparelho, respondeu: "Sim, posso me apresentar a você." Aziz, que no máximo está na meia idade, não era o ancião.

O Estado de S.Paulo

25 Junho 2012 | 03h09

O software no tablet é o ápice do TransTac, esforço de cinco anos da Agência de Projetos de Pesquisa Avançada de Defesa (Darpa, na sigla em inglês) para criar um sistema de tradução de "fala para fala" (diferente dos sistemas baseados em texto) que concluiu no ano passado. Mari Maeda, diretora da Darpa que supervisionou o programa, disse que o TransTac acerta com 80% de precisão: suficiente para ser interessante, mas não para ser útil. Algumas dezenas de usuários no Iraque e no Afeganistão o testaram - além de pashto, o programa trabalhou com árabe e darió - mas ninguém impressionou-se a ponto de querer um.

Isso não significa que o TransTac foi um fracasso. A empreitada era difícil: fazer um computador ouvir a fala de uma pessoa em uma língua, traduzir essa fala para outra língua, e pronunciar a tradução em voz alta.

A Darpa não é a única organização financiando pesquisas em "tradução automática". Isso inclui tanto sistemas de fala para fala, como o TransTac, como sistemas que traduzem textos escritos, um problema mais simples, embora as dificuldades básicas sejam as mesmas. Mas a agência tem um papel central. O Departamento de Defesa dos EUA gastou quase US$ 700 milhões em um único contrato de tradução (para intérpretes humanos, sobretudo, no Afeganistão) em um ano. De modo que os US$ 80 milhões que está gastando no sucessor do TransTac, chamado Bolt, é uma pechincha.

A questão é: mesmo os seres humanos têm dificuldade de classificar traduções. Isso torna ainda mais drástico o desafio de avaliar automações.

Por décadas, pesquisadores foram incapazes de programar computadores para produzir traduções úteis. Soldados dependiam de livros de frases com pronúncias fonéticas ("VO ist NAWR-den?" é como um panfleto do Departamento de Guerra em 1943 dizia para os soldados americanos perguntarem "De que lado fica o norte?" em alemão). O "Phrasealator", que o Exército começou a usar em 2004, não era muito mais avançado - era um livro de frases computadorizado. Mas os últimos anos assistiram à ampla adoção da tradução automática estatística (TAE), uma técnica melhorada. Em vez de tentar codificar regras para traduzir de uma língua para outra, o objetivo da TAE é obter algoritmos partindo de bancos de dados existentes de textos traduzidos.

A tradução é boa? A melhor maneira, até agora, de avaliar programas de tradução automática é um padrão de medida criado pela IBM. A medida, chamada BLEU, compara uma tradução de um texto particular com uma tradução do mesmo texto feita por um humano, e calcula o quão "distante" está dele. Ele faz isso produzindo uma contagem composta baseada em quantas palavras na tradução do computador também estão na versão humana.

Mas o que se quer saber é se a tradução captou o significado, e não se ela usou as mesmas palavras. A Darpa já usa um humano para comparar significados e determinar quantas palavras precisam ser mudadas de uma tradução de computador para bater com o significado de uma tradução de referência. Mas esse tipo de intervenção é lento e caro.

O significado é escorregadio. Um programa não precisa obter todas as camadas de significado de uma frase como "eu te amo". Ele pode ajudar apenas a determinar que "amo" não é apenas um verbo, mas uma palavra com carga emocional, e que "te" não é apenas o objeto da frase, mas também a pessoa amada. Prender os significantes às palavras é a "etiquetagem semântica".

Uma equipe da Universidade do Colorado construiu um etiquetador semântico chamado ClearTK. Eles mencionam dificuldades como lidar com a frase: "The Coach of Manchester United states that his team will win" ("O treinador do Manchester United afirma que seu time vencerá"). Nesse exemplo, "United states" não significa Estados Unidos.

A dificuldade de saber se a tradução é boa não é apenas técnica: é fundamental. A única maneira durável de julgar a fidelidade de uma tradução é decidir se o significado foi transmitido. Quem tiver um algoritmo que faça esse julgamento, terá resolvido um problema realmente muito difícil.

Se um sistema de tradução automática eventualmente funcionar bem, quando ele "compreender significado, seu funcionamento será um mistério quase tão grande para seus criadores como é para o ancião da aldeia.

/ TRADUÇÃO DE CELSO PACIORNIK

Konstantin Kakaes

Slate

Encontrou algum erro? Entre em contato

publicidade

publicidade

publicidade

O Estadão deixou de dar suporte ao Internet Explorer 9 ou anterior. Clique aqui e saiba mais.