Por Jessica Ravitz
Sandy Springs, Georgia (CNN) – Durante los últimos dos años, ella ha sido un accesorio de bolsillo y cartera para millones de estadounidenses. Tuvo un papel protagónico junto a Samuel L. Jackson y Zooey Deschanel. Ha dado pronósticos del tiempo y consejos sobre restaurantes; la han tachado de inútil y ha respondido preguntas absurdas acerca de su ropa.
Ella es Siri, el “asistente” virtual de reconocimiento de voz de Apple, presentado a las masas con el iPhone 4S el 4 de octubre de 2011.
Detrás de esta revolucionaria tecnología hay una mujer real. Mientras que Apple, reservada como siempre, nunca la identificó, todas las señales indican que la voz original de Siri en Estados Unidos es una artista de narración que hizo grabaciones para un cliente hace ocho años. No tenía idea de que algún día le estaría hablando a más de 100 millones de personas por medio de un teléfono que aún no había sido inventado.
Su nombre es Susan Bennett y vive en las afueras de Atlanta.
Apple no lo confirma. Sin embargo, Bennett dice que ella es Siri. Profesionales que conocen su voz, han trabajado con ella y la representan legalmente dicen que es Siri. Y un experto en acústica forense con 30 años de experiencia ha escuchado ambas voces y dice que está “100%” seguro de que las dos voces son iguales.
Bennett, quien no revela su edad, empezó a hacer trabajos de voz por accidente en la década de los 70. Hoy, puede ser escuchada alrededor del mundo. Presta su voz para anuncios e incontables sistemas telefónicos. Da direcciones por medio de aparatos GPS y se dirige a los viajeros en las terminales de Delta en aeropuertos.
Hasta ahora, ha sido una carrera que le ha dado anonimato.
Sin embargo, el nuevo sistema operativo de Apple, iOS 7, el cual presenta nuevas voces para el sistema Siri, implica que el reinado de Bennett como la Siri estadounidense poco a poco está llegando a su fin. Al mismo tiempo, el sitio de noticias de tecnología The Verge publicó un video el mes pasado, llamado “Cómo Siri encontró su voz”. Esto llevó a algunos espectadores a creer que Allison Duffy, de quien era la voz superpuesta, era Siri. Duffy, horrorizada, se apresuró a dar una respuesta; escribió en su página web: “definitivamente, y con toda seguridad puedo decir que NO soy la voz de Siri”, pero no lo hizo antes de que algunos blogueros creyeran la afirmación.
Y ahí estaba Bennet, con su secreto bien guardado, riendo y observándolo todo. Durante mucho tiempo había sido incitada por otros, entre ellos su hijo y su esposo, a salir a luz. Después de todo, quienes hacían la voz de Siri en el Reino Unido y Australia ya habían revelado sus identidades.
¿Entonces por qué no hacerlo también? Batalló con esta pregunta, y finalmente encontró su respuesta.
“Realmente tenía que evaluar la importancia que esto representa para mí a nivel personal. No estaba segura si quería esa notoriedad, y tampoco estaba segura de legalmente, cuál era mi posición. Así que adopté una posición conservadora durante mucho tiempo”, dijo. “Y luego salió este video de Verge… Y parecía como si todos estuvieran clamando por encontrar quién es la verdadera voz detrás de Siri. Entonces pensé, bueno ¿qué más da? Llegó la hora”.
La sorpresa de Siri
La historia de cómo Bennet se convirtió en esta emblemática voz inició en 2005. ScanSoft, una compañía de software, estaba buscando una voz para un nuevo proyecto. Contactó a GM Voices, una compañía en las afueras de Atlanta que ya había establecido un nicho grabando voces para las tecnologías de voz automatizadas. Bennett, un talento confiable quien ya había trabajado con GM Voices en varias ocasiones, fue una de las opciones que presentaron. A ScanSoft le gustó lo que escuchó, y en junio de 2005, Bennett firmó un contrato en el que ofrecía su voz para hacer grabaciones que se usarían en una base de datos para desarrollar un lenguaje.
En julio de 2005, durante cuatro horas al día, Bennett se encerraba en su cabina de grabación. Hora tras hora, leía frases y oraciones sin sentido para que los “super nerds” -como los llama de cariño; la dejan anonadada- pudieran hacer lo que sólo ellos saben hacer al tomar vocales, consonantes, sílabas y diptongos, y jugar con su entonación y velocidad.
Estos fragmentos luego eran sintetizados en un proceso llamado concatenación, el cual forma palabras, oraciones y párrafos. Y así es como voces como la de ella llegan a los sistemas GPS y telefónicos.
“Hay algunas personas que pueden pasar leyendo hora tras hora, y no tienen ningún problema. En mi caso, me aburro demasiado… Así que me tomo varios descansos. Por eso es que a veces Siri podría sonar arrogante o superior”, dijo Bennett en medio de risas. “Esos sonidos podrían haber sido grabados durante los últimos 15 minutos de esas cuatro horas”.
Sin embargo, Bennett nunca supo exactamente cómo iba a usarse su voz. Asumió que la usarían las compañías de sistemas de telefónicos, pero no se imaginó algo que fuera más allá. Pasó a su siguiente trabajo.
La sorpresa vino en octubre de 2011, luego de que Apple lanzara su primer iPhone 4S, el primero en presentar el sistema Siri. Bennett no tenía ese teléfono, pero las personas que conocían su voz sí lo tenían.
“Un colega me mandó un correo electrónico [sobre Siri], y me dijo ‘Oye, hemos estado jugando con este nuevo teléfono Apple. ¿Eres tú?’ “
Bennett se dirigió a su computadora, buscó el sitio de Apple y abrió los videos promocionales que anunciaban Siri. Sin duda, se trataba de su voz.
“Oh, lo sabía”, dijo. “Obviamente soy yo. Es mi voz”.
Buscando pruebas
Ciertamente suena como Bennett. Sin embargo, probar quién hace la voz de Siri no es fácil. No es como que Steve Jobs le envió a Bennett una nota de agradecimiento, o un certificado para que lo colgara en su pared.
Hay otros que responden por ella. Sin embargo, el mundo de la tecnología -y en especial la síntesis de voz o TTS (por sus siglas en inglés)- es un negocio complicado, uno que está envuelto en secretos y enredado en una telaraña de acuerdos que evitan la divulgación.
Bennett no está atada a tales restricciones, razón por la cual se decidió a hablar. Sin embargo, la industria tiene un fuerte interés en mantener las voces anónimas.
“Las compañías están compitiendo para crear los sistemas que suenen mejor y tengan un mejor funcionamiento. Se preocupan por generar ingresos”, dijo Marcus Graham, director ejecutivo de GM Voices. “Hablar acerca del talento de voz, desde su perspectiva, probablemente se ve como una distracción”.
El abogado de Bennett, Steve Sidman, no puede violar la relación de confidencialidad entre el abogado y su cliente para compartir documentos y contratos, pero desde que empezó a representar a Bennett en 2012, ha estado muy consciente de su conexión con Siri.
“Me he dedicado a hacer negociaciones importantes -varias negociaciones, que han tomado meses- con las partes en la cadena alimenticia de la economía, por así decirlo, que involucraron la prestación de sus servicios como la voz de Siri”, le dijo a CNN. “Es tan simple como eso”.
Y luego está Graham, de GM Voices, un hombre que ha hecho carrera en proveer talentos de voz superpuesta para las tecnologías interactivas de voz.
Graham no revela los detalles de cualquier negocio que haya hecho en 2005. Sin embargo, ha trabajado con Bennett durante 25 años, ha grabado “literalmente millones de palabras con Susan” y le ha presentado su voz a clientes alrededor del mundo. Él conoce su voz mejor que nadie, y no duda cuando alguien le pregunta si su voz es la misma de Siri.
“La mayoría de voces femeninas son algo débiles, pero ella tiene una voz fuerte y profunda”, indicó. “Sí, ella es la voz de Siri. …Definitivamente lo es”.
Concuerdan al 100%
En octubre de 2005, unos meses antes de que Bennett hiciera esas grabaciones, ScanSoft compró y tomó el nombre de Nuance Comunications. Nuance es la compañía que se sabe le dio a Apple la tecnología detrás de Siri.
Cuando CNN contactó a Nuance para tratar de confirmar la identidad de Bennett como la voz de Siri, una portavoz expresó, “Como compañía no hacemos comentarios sobre Apple”.
Apple tampoco hizo comentarios al respecto.
Así que CNN llevó la investigación un paso más allá, y contrató acústica forense para que comparara la voz de Bennett con la de Siri.
Ed Primeau, de Rochester Hills, Michigan, ha estado haciendo este tipo de trabajo por tres décadas. Ha testificado en tribunales, ha analizado “cientos, si no es que miles” de grabaciones, y es miembro de la Junta Estadounidense de Evidencia Grabada. Pasó cuatro horas estudiando nuestra “voz conocida” -en este caso Siri- con la voz desconocida de Bennett.
“Creo, y he vivido esto por 30 años, que no hay dos voces iguales”, dijo, luego de terminar su análisis de la voz de Siri y la de Bennett. “Son idénticas; concuerdan al 100%”.
Para llegar a su conclusión, Primeau creó archivos de comparación, tomó y escuchó consonantes, y revisó el material que había sido entregado. Tomó el siseo del sonido de Siri, creado en una grabación de un teléfono, y lo puso en el archivo de Bennett.
Luego de estudiar la voz normal de Bennett al hablar, estaba 70% seguro de que concordaban. Pero una vez que tuvo archivos en audio en los que Bennett pronunciaba las mismas palabras que Siri, supo que su trabajo había terminado. Aún así, pidió una segunda opinión de un colega.
“Entiendo la importancia de la precisión”, dijo Primeau. “Quédate tranquilo: Es 100% Susan”.
Cómo obtuvo CNN esta historia
Este no es el tipo de historia que normalmente buscaría hacer. La tecnología no es mi campo. De hecho, la primera vez que hablé con Siri fue en mi teléfono de trabajo, el tipo de teléfono que se encuentra conectado a una toma en la pared y tiene un cordón enredado conectado al auricular.
Bennett era una artista de narración a quien entrevistaba en el aeropuerto con mayor actividad del mundo, Hartsfield-Jackson Atlanta International, para un proyecto especial de CNN que planeaba sacar el mes siguiente. Estaba buscando a las voces de los aeropuertos y ella, la voz de las terminales de Delta, era una de ellas.
Durante nuestra conversación telefónica, le pregunté acerca de algunos trabajos que ha tenido a través de los años. Me dio un resumen rápido y general y luego agregó que ha realizado muchos trabajos de IVR.
¿”IVR”? pregunté.
“Respuesta interactiva de voz”, respondió. “El tipo de cosas que escuchas en el sistema telefónico de una empresa”.
Por razones que no puedo explicar -aún luchaba por comprender a mi primer iPhone- se me salió, “Oye, ¿tú eres Siri”?
Ella jadeó. Y yo jadeé.
“Ay, Dios mío”, dije. “Tú eres Siri, ¿verdad”?
Lo que siguió fue un corto chaparrón lleno de pánico de algo que no eran ni negaciones ni afirmaciones, y luego mi promesa de no decir o hacer nada alguna vez.
Esto ocurrió hace algunos meses. Hará hace un par de semanas, después de la confusión del vídeo de Verge, Bennett se comunicó conmigo. Estaba preparada para hablar de sí misma y de aclarar las cosas.
“Mi carrera como una máquina”
De niña, el juguete favorito de Bennett era un sistema de operador telefónico de juguete, un gran ladrillo rojo con receptor y líneas que podía conectar para ayudar a personas imaginarias que llamaban.
Años después, mientras cantaba melodías, accedió ser la voz en la radio y la televisión de la melodía del “Tillie the All-Time Teller” del First National Bank, la voz del primer cajero automático. Aunque esto fue hace casi 40 años, todavía puede -y lo hace- cantar impecablemente esta canción de tonos agudos.
“Comencé mi carrera hace muchos años como una máquina”, dijo Bennett. “Estoy segura en escucharás mi voz en algún momento todos los días”.
Pero incluso para ella es una sorpresa por la forma en que se le escucha.
La música y las canciones siempre han sido parte de la vida de Bennett. En la Universidad de Brown, cantó en una banda de jazz y también cantó con otro grupo en la Berklee School of Music. Luego de graduarse, viajó como corista con Burt Bacharach y Roy Orbison. En la actualidad, ella y su esposo, Rick Hinkle, un guitarrista compositor e ingeniero de sonido, todavía tocan en una banda, mayormente en eventos privados.
Comenzó a trabajar en el campo de la narración en la década de 1970 cuando entró en los Doppler Studios en Atlanta para realizar un trabajo en un anuncio publicitario y el narrador no se presentó. El dueño del estudio miró alrededor y dijo, “Susan, ven aquí. Tú no tienes acento. Ven y lee esto”.
Lo hizo y comenzó una nueva carrera.
Sin embargo, Bennett no siempre estuvo libre de acentos. Nació en Vermont y se crió en toda Nueva Inglaterra. Su voz -con las R fuertes y todo- estaba lista para trabajar en “SNL”. ¿Podría imaginar a Siri como nativa de Nueva Inglaterra? “¡Nunca, nunca”!
Una temporada en el norte de Nueva York le ayudó a perder el acento. Para cuando llegó a Atlanta en 1972, con su primer esposo, el ex-jugador de la NHL Curt Bennett de los Atlanta Flames, estaba lista para luchar contra el ritmo sureño. Se enamoró de Atlanta y, luego que el matrimonio terminó, se quedó.
Aunque su voz se puede escuchar por todos lados, ha disfrutado permanecer fuera de los reflectores.
“Tienes un cierto anonimato que puede ser muy ventajoso”, dijo. “Las personas no te juzgan por cómo te ves… Esto es liberador en muchas maneras”.
“Parte de la historia”
Bennett trabaja en una cabina de grabación a prueba de sonidos en su casa, con una lata de pastillas para la garganta a la mano. Su voz se transmite al mundo, mientras ella, si lo desea, está en pijama, o más probablemente en su atuendo para hacer Zumba. Las audiciones se llevan a cabo por correo electrónico. Puede hacer la compra sin ser reconocida.
No es como si su voz natural al hablar, cuando se escucha fuera de contexto en el pasillo de las verduras, causa reacciones.
Así que la idea de presentarse como la voz de Siri fuera algo que fuera a poner de lado. Probablemente nunca le hubiera ocurrido si no fuera por el aguijoneo de otros, entre ellos su hijo de 36 años, a quien se refiere como el “Hijo de Siri”.
“Su voz ha estado por todos lados durante mi vida. Podía llamar a mi banco cuando estaba en la universidad en Colorado, y allí estaba mi madre diciéndome que tenía $4”, dijo Cameron Bennett, un fotógrafo de Los Ángeles.
Descubrió por primera vez que ella es la voz de Siri cuando miraba un comercial de iPhone 4S en la televisión. Allí, en la pantalla, estaba el director Martin Scorsese, hablando con su madre. Cuando Cameron compró el teléfono, ella le comenzó a gritar instrucciones por medio de la función de GPS, lo que lo hizo gritar, “”¡Mamá, cállate”!
“Ella es parte de la historia”, indicó. “Fue curioso tratar de explicarle el alcance. Ella utiliza sólo el 8% de lo que su celular puede hacer”.
Cuando Bennett cambió su teléfono y habló por primera vez con… bueno, ella misma, dice que se sintió un poco horrorizada. Fue extraño, como mínimo. Sin embargo, le impresionó, según dijo, haber jugado un papel en tal hazaña tecnológica.
No obstante, ser la voz de Siri no significa que está inmune al tipo de frustraciones que otras personas pueden experimentar con la tecnología.
“Pero nunca le grito; esto sería un muy mal karma”, dijo Bennett. Habiendo dicho esto, sabe que no todos son tan gentiles: “Sí, me preocupa pensar cuántas veces al día me insultan”.
Sin embargo, ahora, con el iOS 7, le estará pasando la antorcha telefónica a una nueva Siri. Bennett mentiría si no dijera que está un poco decepcionada, pero en su campo de trabajo ha aprendido a esperar la evolución, e incluso la revolución.
A medida que la tecnología mejora, y el proceso de concatenación se hace menos robótico y más humano, Bennett cree que todo será posible.
“Realmente veo una época en la que probablemente podrás poner tu propia voz en tu teléfono, y esa misma voz te responderá”, indicó. “Estoy acostumbrada a esto, pero probablemente tú no”.