La revolución de las voces sintéticas que desafía a los gigantes tecnológicos

Una pequeña startup fundada por dos amigos polacos pasó en cuatro años de experimentar con modelos de voz en sus ratos libres a convertirse en una empresa valuada en miles de millones de dólares. Lo hizo con una tecnología capaz de crear voces casi indistinguibles de las humanas, un avance que hoy define parte del rumbo de la inteligencia artificial en medios, entretenimiento y servicios digitales, incluido el mercado hispanohablante donde México es un usuario creciente.

Un salto técnico que transformó la industria

Mateusz Staniszewski y Piotr Dabkowski, ambos ingenieros con experiencia en grandes tecnológicas, renunciaron a sus empleos en 2022 para desarrollar un modelo de texto a voz que evitara las voces planas típicas del doblaje polaco. Con un presupuesto mínimo entrenaron su sistema inicial y lo pusieron a prueba: generaba emociones, pausas creíbles y matices que superaron lo visto en asistentes digitales de gigantes como Apple o Amazon.

El lanzamiento en 2023 desató una adopción inmediata. Autores comenzaron a producir audiolibros sin esperar semanas de grabación; creadores de contenido tradujeron videos a múltiples idiomas; editoriales y empresas de meditación incorporaron narraciones personalizadas. La demanda creció al ritmo de nuevas funciones: clonación de voz, lectura en 29 idiomas y un catálogo que hoy supera las diez mil voces, incluidas algunas de celebridades que dieron permiso para ser replicadas.

El negocio corporativo también tomó fuerza. Empresas de telecomunicaciones, reclutamiento y videojuegos usan la tecnología para atención al cliente, entrevistas automatizadas y personajes interactivos. Fortnite, por ejemplo, integró voces generadas con modelos entrenados para conservar el estilo de actores icónicos. Con esta mezcla de usuarios profesionales y creadores independientes, la startup superó los 190 millones de dólares en ingresos anuales y alcanzó un margen de ganancia inusual en el sector.

Riesgos, controversias y expansión acelerada

El mismo realismo que impulsó su popularidad abrió la puerta a abusos: imitaciones de figuras públicas, audios falsos usados en estafas y deepfakes virales. La empresa tuvo que imponer controles más estrictos, desde listas de voces prohibidas hasta verificaciones de consentimiento para nuevos clones, además de un detector gratuito para identificar grabaciones generadas con IA.

También enfrentó acusaciones de uso indebido de audiolibros para entrenar sus modelos; un caso legal reciente se resolvió fuera de los tribunales. Aun así, la confianza de inversionistas no se debilitó. La compañía ya supera los 6 mil millones de dólares en valoración y ha recaudado más de 300 millones para ampliar su infraestructura de cómputo, necesaria para competir con Google, Microsoft y OpenAI.

Con un equipo de más de 300 especialistas, la empresa busca ahora integrar música, video y avatares generados con IA en una sola plataforma. Su meta es construir herramientas que permitan crear agentes de voz completos y usarlos en cualquier servicio, desde un videojuego hasta una aplicación educativa.

El impacto se extiende más allá de Europa. En México, donde creadores y medios adoptan rápidamente soluciones de IA para doblaje, podcasts y contenidos multilingües, el avance de estas tecnologías redefine expectativas sobre producción audiovisual y narración digital. A medida que evolucionen sus modelos y sus competidores se acerquen, la pregunta ya no es si estas voces reemplazarán métodos tradicionales, sino cómo convivirán con industrias que dependen cada vez más de herramientas automatizadas.

Compartir
No Comments

Leave A Comment