Trechos de gravações de áudio de usuários de produtos da Apple, da Amazon, do Facebook, do Google e da Microsoft foram enviados a colaboradores terceirizados dessas empresas para checagem de conteúdo e aprimoramento da tecnologia.
A prática não era secreta, mas pessoas que fizeram esse trabalho de revisão relataram à imprensa que, em muitos casos, as gravações incluíam conversas sensíveis.
Por que essa interferência humana é necessária?
O reconhecimento de fala hoje depende de “machine learning” ou “aprendizagem de máquina”. Esse tipo de “inteligência artificial” é obtido quando um programa é treinado a partir de exemplos que relacionam um problema — um áudio a ser reconhecido, por exemplo — com a sua solução, nesse caso a transcrição correta do áudio.
Como o software precisa ser treinado, são humanos que fazem a “calibragem”, indicando onde o programa acerta e onde ele erra.
Isso é feito para que a inteligência por trás dos assistentes de voz consiga entender as nuances da fala humana. O Google, em uma publicação oficial sobre o caso, disse que essa revisão humana é “crítica para o processo de construção das tecnologias de reconhecimento de fala”.
Um dos erros possíveis no reconhecimento de fala é a “falsa ativação”. Ela ocorre quando a inteligência reconhece indevidamente a frase de acionamento (como “Ei Google” ou “E aí Siri).
No Comment