La inteligencia artificial ChatGPT ahora puede "ver, oír y hablar"

Nueva York (EFE).- OpenAI, la empresa creadora del chatbot con inteligencia artificial (IA) generativa ChatGPT, anunció este lunes una nueva versión de su popular herramienta que es capaz de «ver, oír y hablar» en voz alta con los s.

Hasta ahora solo se podía interactuar con las distintas versiones de ChatGPT por escrito, pero los s de pago en «dos semanas» podrán tener una conversación en voz alta y escuchar las respuestas de la máquina, así como mandar fotos, imágenes, capturas de pantalla y documentos al chat para obtener respuestas específicas.

Por su parte, los que usan la versión gratuita de esta herramienta podrán sacarle partido a estas nuevas actualizaciones «poco después», según OpenAI.

ChatGPT va «evolucionando»

«La voz y la imagen te brindan más formas de usar ChatGPT en tu vida. Cuando estés en casa, saca fotografías de tu refrigerador y despensa para saber qué hay para cenar (y haz preguntas para obtener una receta paso a paso)», anota la empresa en un comunicado.

Mientras que para ejemplificar cómo se puede usar la herramienta de voz, la empresa dice que se puede utilizar para «contar un cuento o resolver un debate».

Por ahora, este asistente de voz -que es similar a Alexa, de Amazon, y a Siri, de Apple,- estará disponible para iOS y Android, pero no en PC.

Se podrán elegir entre cinco voces distintas, aunque la voz que viene por defecto y la que salía en los ejemplos de hoy es una voz que imita a la de una mujer joven y aparentemente blanca, como suele ser habitual en este tipo de herramientas.

La tecnología de voz

Mediante Whisper -herramienta de OpenAI que usa la IA para trascribir audio- se convierte la voz del a texto, y la compañía luego usa su nuevo modelo de conversión de texto a voz para la respuesta de la máquina.

«Nuestra nueva tecnología de voz es capaz de crear voces sintéticas realistas a partir de tan solo unos segundos de voz real. Esto abre las puertas a muchas aplicaciones creativas y da herramientas de accesibilidad. Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude», advierte la empresa.

OpenAI, además, anunció hoy que la plataforma de música Spotify está utilizando el «poder de esta tecnología para traducir algunos de sus pódcast a «idiomas adicionales, pero manteniendo las propias voces de los presentadores e invitados».