Clonación de voz con IA: el avance que está redefiniendo la comunicación digital

Foto: Google

Por: Christopher Martinez

Un hallazgo sorprendente sugiere que la inteligencia artificial no solo imita la voz humana, sino que puede hacerla más comprensible

Un reciente estudio realizado por investigadores del University College London y la Universidad de Roehampton, en el Reino Unido, reveló que las voces clonadas mediante inteligencia artificial pueden ser más fáciles de entender que las voces humanas en ambientes con ruido.

La investigación, publicada en la revista científica The Journal of the Acoustical Society of America, evaluó la inteligibilidad del habla comparando grabaciones de voces humanas con sus versiones clonadas digitalmente. Contra lo esperado, los resultados mostraron que las voces generadas por IA eran hasta un 20% más claras para los oyentes.

Los científicos Patti Adank y Han Wang, especialistas en percepción del habla, partían de la hipótesis de que las voces artificiales serían menos comprensibles por su carácter “no natural”. Sin embargo, los experimentos demostraron lo contrario.

Para validar sus resultados, el equipo repitió las pruebas en distintos grupos: adultos mayores, personas con diferentes acentos e incluso simulando condiciones auditivas como el uso de implantes cocleares. En todos los casos, las voces clonadas mantuvieron una ventaja consistente frente a las humanas.

A diferencia de los sistemas tradicionales de síntesis de voz —como los utilizados en asistentes digitales— que requieren largas sesiones de grabación, los modelos actuales de clonación pueden recrear una voz a partir de apenas 10 segundos de audio. Este avance amplía considerablemente sus posibles aplicaciones, desde servicios automatizados hasta accesibilidad.

Según los investigadores, una posible explicación de este fenómeno es el procesamiento digital detrás de estas voces, que optimiza aspectos como la claridad de la pronunciación, el ritmo y las frecuencias más perceptibles para el oído humano, reduciendo así las interferencias del ruido.

Pese a sus ventajas técnicas, los expertos advierten que las voces humanas siguen siendo superiores en la transmisión de emociones, matices y contexto social. Además, el avance de estas tecnologías plantea desafíos éticos, como el riesgo de suplantación de identidad o el uso indebido en fraudes.

El estudio abre la puerta a una nueva generación de sistemas de voz más eficientes, capaces no solo de imitar, sino de mejorar ciertas capacidades del habla humana en condiciones adversas.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio