OpenAI lanza un nueva IA generativa capaz de recrear la voz de las persona de forma natural

Voice Engine es un IA generativa que trabaja con entradas de texto y un audio de 15 segundos para generar una voz con sonido natural, muy parecida a la del hablante original. La voz clonada respeta la cadencia natural del habla humana dando como resultado un audio tan emotivo y realista que incluso respeta el acento nativo del hablante al traducir la voz a diferentes idiomas😨. Es por ello, que Open AI, la empresa detrás de este nuevo avance, no lo ha lanzado al público en general, sino que solo ha autorizado su uso a un grupo de socios seleccionados.

¿Cómo funciona? Grabas tu voz por 15 segundos, la compartes con la IA, y escribes un texto que desees que reproduzca con tu voz clonada o sintética, incluso puedes elegir los idiomas en que quieres que tu voz se escuche, y listo. Por ahora, solo podemos oír los resultados de esta tecnología en los ejemplos que ha compartido la propia empresa en su blog, y confiar en su eficacia tan elogiada por la propia OpenaAI.

En esa misma publicación la empresa también confiesa que desarrolló esta IA en el 2022, «lo hemos utilizado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz , así como ChatGPT Voice y Read Aloud«. Sin embargo, esta nueva tecnología se basa en clonar una voz de manera muy natural, y no solo leer algo en voz alta con el tono y la inflexión de un extraño.

Como toda IA generativa necesita ser entrenada, ¿qué datos utilizó?, la empresa señala que utilizó grabaciones de voz licenciadas, y bases de datos públicas para evitar problemas de copyright. No obstante, en su reseña sobre esta nueva IA, Gizmodo afirma que «no está claro qué tipo de datos de entrenamiento se utilizaron para construir Voice Engine«

¿Qué usos se le podrían dar a estas voces sintéticas? En su blog la empresa proporciona una serie de ejemplos como:

Brindar asistencia de lectura a niños en edad escolar y a personas que no son lectores habituales.
Traduciendo contenido, como vídeos y podcasts, para que los creadores y las empresas puedan llegar a más personas en todo el mundo, con fluidez y con sus propias voces en diferentes idiomas.
Apoyar a las personas que tienen problemas del habla, tanto a comunicarse como, a satisfacer sus necesidades de aprendizaje.
Ayudar a los pacientes a recuperar la voz perdida por alguna enfermedad como Esclerosis lateral amiotrófica (ELA)

Oir los ejemplos aquí

Todo suena muy bien, sin embargo, esta tecnología encierra riesgos muy serios, ese es el principal motivo por lo cual la empresa no ha realizado un lanzamiento mundial como en el caso de ChatGPT.

«Estamos adoptando un enfoque cauteloso e informado para una publicación más amplia debido al potencial de uso indebido de la voz sintética. Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo», afirma OpenAI en su blog.

¿Cuáles serían esos riesgos? El uso de esas voces sintéticas para generar fraudes bancarios, estafas utilizando voces de celebridades, extorciones utilizando voces de familiares, y desinformación política. Por ejemplo, en estos días en Perú, la empresa de investigación de mercados y consultoría Ipsos alertó a los ciudadanos de falsas encuestas telefónicas que se estaban realizando en su nombre. Los números en cuestión que hacían las llamadas eran del extranjero, y según aseguró el usuario de X (antes Twitter) Carlos Eduardo Zuñiga tenían la intención de grabar la voz de las víctimas con el fin de suplantarlas y realizar trámites telefónicos.

Gente🚨: están llamando de números de Turquía diciendo que son de @ipsosperu para una encuesta. NO ACEPTEN, NI DIGAN "SÍ". Si graban suficiente de tu voz tienen como para suplantarte a la hora de rehacer trámites telefónicos.
— Carlos Eduardo Zúñiga 🎗️ (@CarlosEZuniga) March 26, 2024

En los Estados Unidos a inicios de este año residentes de Nueva Hampshire recibieron una llamada automática con la voz del presidente Joe Biden advirtiéndoles que no voten en las primarias presidenciales democrátas y que guarden su voto para las elecciones generales de noviembre. La voz era falsa y causó confusión entre los votantes.

Ante este panorama nada esperanzador OpenAI brinda una serie de recomendaciones que la sociedad debe debatir ante la inminente llegada de modelos de IA generativa cada vez mñas potentes:

Eliminación gradual de la autenticación basada en voz como medida de seguridad para acceder a cuentas bancarias y otra información confidencial.
Explorar políticas para proteger el uso de las voces individuales en la IA
Educar al público para que comprenda las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de contenido engañoso de IA.
Acelerar el desarrollo y la adopción de técnicas para rastrear el origen del contenido audiovisual, de modo que siempre esté claro cuando interactúas con una persona real o con una IA.

OpenAI también ha agregado un sistema de marcas de agua para ayudar a detectar cualquier audio generado por IA desde Voice Engine.

Esto fue El Profe Mundus Artis

Comparte esto:

Relacionado

Deja un comentario Cancelar la respuesta