CNNEarrow-downclosecomment-02commentglobeplaylistsearchsocial-facebooksocial-googleplussocial-instagramsocial-linkedinsocial-mailsocial-moresocial-twittersocial-whatsapp-01social-whatsapptimestamptype-audiotype-gallery
Inteligencia artificial

Spotify recorta personal para avanzar más rápido hacia la Inteligencia Artificial, y a Wall Street le encanta

Por Sergio Padilla

(CNN) -- Spotify se hizo un nombre en el negocio de la transmisión de audio a través de su experiencia de usuario hiperpersonalizada, gracias a la inteligencia artificial y a un equipo de 9.800 empleados con los que contaba a finales de 2022.

Pero después de tres rondas de despidos en un año: 590 puestos en enero, 200 en junio y otros 1,500 esta semana, las inversiones de Spotify en inteligencia artificial para aumentar los márgenes de sus divisiones de podcasting y audiolibros parecen una revisión completa de la estrategia en la que Wall Street parece confiar en que puede funcionar.

“Spotify está aprovechando la IA en toda su plataforma, lanzando AI DJ, simulando una experiencia de radio tradicional, en 50 mercados adicionales e implementando AI Voice traducción de podcasts”, dijo Justin Patterson, analista de investigación de acciones de KeyBanc Capital Markets, en una nota de investigación. "Junto con el lanzamiento de audiolibros para los suscriptores Premium, creemos que Spotify tiene varias oportunidades para impulsar la participación y, en última instancia, una monetización más sólida".

Las acciones de la empresa matriz Spotify Technology SA subieron más del 30% en los últimos seis meses y más del 135% en lo que va del año.

La empresa se une a otras empresas de tecnología en la reducción a medida que la demanda de la era de la pandemia se ha agotado. También tiene que compensar los más de mil millones de dólares que gastó en podcasting, gran parte de los cuales se destinó a acuerdos con celebridades para hacer podcasts que nunca se materializaron y a la adquisición de estudios de podcasts que luego cerró.

publicidad

“El crecimiento económico se ha desacelerado drásticamente y el capital se ha encarecido. Spotify no es una excepción a estas realidades”, escribió Ek en una carta al personal publicada en el sitio web de la empresa.

Subiéndose al tren de la IA

En noviembre, Spotify dio a conocer una asociación con Google Cloud para revisar la forma en que la plataforma recomienda audiolibros y podcasts mediante el uso de uno de los modelos de lenguaje de Google Cloud, Vertex AI Search.

Los grandes modelos de lenguaje como ChatGPT son programas informáticos entrenados con grandes conjuntos de datos que pueden recitar texto e información de tipo humano a los usuarios en función de lo que el programa "sabe".

Spotify presentó un “AI DJ” en febrero y comenzó a utilizar la herramienta de traducción de voz “Whisper” de OpenAI para traducir episodios seleccionados de podcasts en inglés al español, francés y alemán.

Un representante de Spotify dijo en un correo electrónico a CNN que la compañía planea expandir la tecnología en el futuro en espera de los comentarios de los creadores y la audiencia. También señalaron algunos comentarios hechos por Ek durante la conferencia telefónica sobre resultados del tercer trimestre de la compañía, donde la palabra "eficiencia" se utilizó más de 20 veces.

“La forma principal en que se debe pensar en estas iniciativas (de IA) (es que crean) una mayor participación y esa mayor participación significa que reducimos la deserción”, dijo Ek durante la conferencia telefónica sobre ganancias de Spotify en octubre. “Un mayor compromiso también significa que producimos más valor para los consumidores. Y esa relación valor-precio es lo que nos permite aumentar los precios como lo hicimos el último trimestre con gran éxito”.

En una nota de investigación, Douglas Anmuth, director general y analista de Internet de JP Morgan, dijo que, junto con las inversiones en anuncios de artistas, las inversiones en podcasts tienen el potencial de impulsar el compromiso a largo plazo.

Spotify también anuncia despidos 1:14

Entonces, ¿cómo funciona la personalización?

Spotify hiperpersonalizó su experiencia para los usuarios durante aproximadamente una década. Pudo agregar ese toque personal una vez que adquirió la firma de análisis musical, The Echo Nest Corp, en 2014, para combinar el aprendizaje automático y el procesamiento del lenguaje natural.

La tecnología de Spotify crea una base de datos de canciones y artistas reconociendo tonos y tempos musicales y conectando las obras de los artistas dentro de un contexto cultural compartido.

Metadatos como la fecha de lanzamiento y métricas como el volumen, la duración y la probabilidad de que una canción haga bailar a alguien también influyen en la determinación de qué canciones se ajustan al gusto del usuario.

De aquí nacen listas de reproducción como “Daily Mix” y “Discover Weekly”. Las llamadas Time Capsules y las listas de reproducción "On Repeat" reúnen las canciones más escuchadas por un usuario, ya sea para mantenerlos enganchados a lo que ya están escuchando o para volver a visitar canciones que no han escuchado en mucho tiempo.

En un correo electrónico a CNN, Anil Jain, director general global de industrias de consumo estratégicas de Google Cloud, dijo que su Vertex AI Search permite a las empresas de medios y entretenimiento crear capacidades de descubrimiento de contenido a través de video, audio, imágenes y texto. Jain no comentó ningún detalle del acuerdo con Spotify.

Vertex AI Search considera una variedad de factores al recomendar contenido para los usuarios, como el comportamiento del usuario en tiempo real, la similitud del contenido y el contenido relacionado con lo que los usuarios están buscando.

Desafíos y oportunidades

Reece Hayden, analista senior de ABI Research, expresó su confianza en que los grandes modelos lingüísticos (LLM) podrían funcionar para aumentar la participación en toda la plataforma de Spotify.

"Los modelos de lenguaje grandes pueden mejorar la personalización, mejorar las recomendaciones y garantizar que las recomendaciones reflejen mejor los intereses de los usuarios al comprender el texto/video completo en lugar de utilizar palabras clave/metadatos”, dijo en un correo electrónico a CNN.

Añadió que, a diferencia de los “modelos predictivos básicos” que dependen de palabras clave/metadatos, los LLM pueden comprender e interpretar podcasts para ver si coinciden con los intereses de los usuarios y pueden obtener una comprensión más profunda de las preferencias del usuario al analizar todos los datos del usuario para determinar sus preferencias.

Pero eso tiene un costo.

“Ejecutar LLM para comprender todos los podcasts/audiolibros requiere muchos recursos y puede agregar un valor limitado en comparación con los modelos predictivos básicos... Los LLM plantean desafíos adicionales de privacidad de datos y costos/recursos que serán significativos”, dijo.

Expresó su fe en Whisper para ayudar a traducir podcasts, pero admitió que se pueden cometer errores en forma de oraciones o frases fallidas a medida que aprende la IA generativa.

“Dada la disponibilidad de puntos de datos, los diferentes modelos de traducción de idiomas como Whisper mejorarán rápidamente, garantizando un alto grado de precisión”, afirmó. "La desventaja del susurro es que su competencia principal es traducir de otros idiomas al inglés... La mayoría de los podcasts se graban en inglés y, por lo tanto, no se puede aplicar de manera efectiva en todos los ámbitos".