Tecnología

El reconocimiento de voz siempre será estúpido

14:15 ET(18:15 GMT) 20 agosto, 2013

El reconocimiento de voz siempre será estúpido

Por David R. Wheeler, especial para CNN
Sigue a @David_R_Wheeler

Nota del editor: David R. Wheeler vive en Lexington, Kentucky, donde es escritor independiente y profesor de periodismo en la Universidad de Asbury.

(CNN) -- "Por favor diga su nombre", le dice una voz robótica femenina a la persona que llama.

"Larry Valentine", responde quien llama.

"Su respuesta fue 'Barry Shmalenpine'. ¿Es correcto?"

Así comienza el intercambio entre el actor Kevin James y el sistema telefónico automatizado en la película "I Now Pronounce You Chuck and Larry" (Yo los declaro marido y Larry), estrenada en 2007. Ésta es una escena que asume correctamente que el público ha tenido una experiencia personal con lo absurdo que es el servicio al cliente con máquinas o grabaciones.

¿Quién no ha pasado por esto? Todos hemos esperado mientras nos recitan las opciones del menú, ninguna de las cuales responde a nuestra pregunta. Hemos presionado cero repetidamente, con la esperanza de que nos transfieran a una persona real. Cuando esto no ha funcionado, tal vez hasta hemos perdido los estribos, y hemos gritado "¡Quiero hablar con un representante!" una y otra vez, sin importar si el robot nos daba esa opción o no.

¿Por qué no ha habido una rebelión masiva en contra de estos sistemas automatizados? La respuesta es simple: Creemos que esta tontería es algo temporal. Creemos que las computadoras están a punto de poder entender el lenguaje humano. Según varios lingüistas y científicos cognitivos, esta creencia es completamente incorrecta.

En primer lugar, existe un problema con el reconocimiento de voz en sí. Julie Sedivy, profesora de lingüística y psicología en la Universidad de Calgary, dice que el simple hecho de reconocer los sonidos del habla y unirlos con palabras específicas es mucho más complicado de lo que la mayoría de personas cree.

"La forma en que digo 'perro' dependerá de mi edad, sexo, dialecto geográfico, la anatomía específica de mi tracto vocal, y qué tan rápido o claro hablo", explicó Sedivy. "Las personas pueden calibrar su percepción después de escuchar hablar a alguien luego de tan sólo un par de segundos, pero lograr un buen reconocimiento del habla todavía es un problema para muchos programas".

Aunque esta tecnología ha mejorado a un ritmo constante en los últimos 20 años, "los sistemas de reconocimiento del habla todavía son notablemente inferiores a los seres humanos para entender el lenguaje oral", dijo John Nerbonne, lingüista y profesor de ciencias de la información, quien reside en los Países Bajos. "Los teléfonos son un medio especialmente difícil, porque limitan mucho la señal".

Además, estudios muestran que casi en todo el mundo, las personas no soportan los sistemas telefónicos automatizados, y que la mayoría de clientes hasta están dispuestos a pagar más con tal de hablar con una persona real.

"Ally Bank, Discover Card y TD Bank ahora pasan anuncios por televisión en los que presumen de que si llamas a su número telefónico, te atenderá una persona real", comentó Adam Goldkamp, portavoz de GetHuman, una organización dedicada a mejorar el servicio al cliente. Ésta es la triste situación del mundo actual de servicio al cliente. En otras palabras, es hasta ahora que las compañías están empezando a darse cuenta del potencial de ingresos perdidos al tener clientes frustrados que se desesperan con los sistemas automatizados y llevan su negocio a otro lado.

"El hecho de que las compañías lancen anuncios como estos denota que comprenden que hay cosas que pueden hacer para mejorar sus ingresos al darle a los clientes lo que ellos quieren: una persona real con la que puedan hablar si tienen algún problema", dijo Goldkamp.

Tal vez más adelante los sistemas automatizados podrán identificar nuestras palabras con impecable precisión. Aún entonces, estaremos frente a un problema insuperable: la capacidad de entender nuestra verdadera intención al usar esas palabras.

"Todavía falta mucho para que podamos comunicarnos con las computadores utilizando un lenguaje real", expresó Suzanne Kemmer, directora de Ciencias Cognitivas y profesora asociada de Lingüística en la Universidad Rice. "El lenguaje humano tiene una poderosa característica de diseño que funciona muy bien con las interacciones normales entre personas, pero se opone a la manera en que funcionan las computadoras".

Las computadoras se basan en la lógica formal y en categorías fijas, explicó. El lenguaje humano es flexible y dinámico, y sigue una lógica cognitiva que en esencia difiere de las computadoras. En resumen, las palabras que usan las personas y las estructuras gramaticales no tienen significados fijos. En cambio, tienen una cierta cantidad de imprecisiones y ambigüedades incorporadas, así que su significado se ve bastante afectado por el contexto.

Entender realmente el significado es un problema muy diferente del reconocimiento de voz, o de la opción de auto-corrección que tienen las computadoras o teléfonos, dijo Kemmer.

Cuando discutí este tema con el profesor de Harvard Steven Pinker, uno de los lingüistas más influyentes del mundo, comentó que las principales compañías, al buscar patrones estadísticos en grandes conjuntos de datos y aplicarlos a la participación de los usuarios, han fracasado cuando se trata de la inteligencia artificial real: "La estupidez de tener lenguajes de computadora que entiendan sistemas viene del hecho de que le han dado la espalda a la inteligencia genuina y se han conformado con estadísticas".

En otras palabras, las computadoras todavía no consiguen adivinar qué es lo que queremos decir en realidad cuando hablamos.

Tampoco entienden nuestra psicología social y emocional. "Con frecuencia, los sistemas telefónicos automatizados fueron desarrollados con una incapacidad para entender la forma en que las personas interactúan unas con otras", me explicó Pinker. "Suenan como personas, pero si pensamos en ellos como tales, son las personas más exasperantes del mundo". Cuando presiono '0' para que me comuniquen con una persona real, una voz en la que percibo una mezcla de preocupación y confusión con un tono de burla me dice, 'Lo siento, pero no comprendí su respuesta'. En ese momento, me dan ganas de montar en cólera".

"Si fuera una persona real", agregó Pinker, "podría ser tonta, mentirosa y condescendiente al mismo tiempo".

Llegó la hora de ponerle fin a esta locura. No estamos cerca de inventar computadoras que entiendan el lenguaje humano. Silicon Valley puede y seguirá luchando por alcanzar esta meta.

Mientras tanto, dejemos de engañarnos. Admitamos que las computadoras en sí no pueden dar un buen servicio al cliente. Admitamos que en esta época de incertidumbre económica y de pérdidas de empleo, deberíamos apoyar a las compañías que emplean a personas reales para responder nuestras dudas. Admitamos que, a menos que lo exijamos, nos veremos forzados, para siempre, a tratar con un sistema automatizado que cree que nuestro nombre es Barry Shmalenpine.

(Las opiniones expresadas en este artículo corresponden exclusivamente a David R. Wheeler)

Aplicaciones