La Inteligencia Artificial Generativa impactó de una forma revolucionaria en el mundo del marketing, en noviembre de 2022, con el lanzamiento, en abierto, de ChatGPT 3.5. Este nos mostró que los avances que se habían dado desde el Deep Learning, LLM y Transformers, dentro del Machine Learning, habían provocado que las IA no solo puedan interactuar con nosotros de una forma natural y sencilla, sino también desarrollar contenidos nuevos.
De ello precisamente nos hablan Niéves Ábalos, CPO y Cofundadora de Monoceros Labs, y Carlos Muñoz Romero, CEO de Monoceros Labs, en nuestra nueva entrega de Digital Talks by t2ó. De esta manera, ambos nos ayudan a comprender cómo funciona la IA Generativa, casos de uso actuales que ya se están viendo, así como miedos y retos que llegan.
¿Qué podrás escuchar en este podcast?
- Qué es la IA Generativa.
- Cómo funciona la IA Generativa.
- La implementación de la IA en las empresas.
- ChatGPT y su funcionamiento.
- Desarrollo de chatbots.
- Convivencia de las tecnologías como GPT con las tecnologías de IA Conversacional.
- El papel que juega la compañía dentro de la industria de las tecnologías de voz.
- Cómo abordar los problemas de sesgo y equidad en la IA.
- La Inteligencia Artificial y sus desafíos.
¡Te esperamos en Digital Talks by t2ó! Ya tienes este episodio disponible en nuestros canales de Spotify, Apple Podcast e iVoox 🎧
Si te ha gustado y te parece interesante de cara a tu negocio no dejes de escuchar el resto de episodios, ¡aprenderás de/con l@s mejores! 🤓
[Transcripción del Podcast]
EC: Hoy vamos a hablar sobre Inteligencia Artificial Generativa, profundizando en qué es, cómo funciona, sus limitaciones y cómo una marca puede utilizarla en su día a día. Para ello, hoy contamos con Nieves Ábalos, que es cofundadora y Chief Product Officer de Monoceros Labs y con Carlos Muñoz Romero, CEO de Monoceros Labs. Monoceros es un estudio de innovación especializado en estrategias, diseño conversacional y tecnologías del habla. En este estudio han desarrollado proyectos de voz para empresas como Grupo Planeta y Atresmedia e investigan en el estado del arte de la tecnología en Inteligencia Artificial para crear voces sintéticas en español y aplicaciones basadas en ella. Este tipo de proyectos los han podido aplicar en Radiotelevisión Española y Prisa.
Nieves lleva más de diez años en el sector de las interfaces conversacionales. En una primera etapa como investigadora de sistemas de diálogo en la Universidad de Granada y posteriormente en el Departamento de Innovación de Viva, una empresa de BBVA. Este año desde Monoceros ha creado Fonos, un producto para la creación de contenido sonoro con voces sintéticas personalizadas. Hoy nos contará más sobre este increíble proyecto.
Carlos es ingeniero informático con una amplia experiencia en el mundo empresarial y tecnológico. Ha sido director de Innovación de BBVA Next para España y para México, desde donde controló la estrategia de la compañía para posicionarla como una consultora puntera en nuevas tecnologías. Actualmente, su rol de CEO le ha permitido posicionar a Monoceros como una de las agencias top de Amazon Alexa en España y una de las primeras compañías especializadas en la creación de voces sintéticas en español mediante Inteligencia Artificial Generativa. Muchas gracias a los dos por estar hoy con nosotros. La verdad que es un auténtico lujo tener a parte del equipo de Monoceros Labs en el programa.
NA: Fue un placer Esther. En mi caso, volver y sobre todo para volver a hablar de este tema tan interesante de la IA Generativa.
CM: Muchas gracias. En mi caso, es la primera vez que voy a participar y es un placer siempre hablar contigo Esther sobre todo esto. Es un tema súper apasionante, la verdad. Todo el mundo habla de esto, parece que está cambiando las reglas del juego y lo complicado es hablar en términos que no son tecnológicos, muy técnicos, que muchas personas se distraen, todo evoluciona muy rápido. Entonces para estar al día, la verdad, vamos a intentar hacer lo posible para explicar lo más simple y más claro y que los oyentes que nos escuchen pues se lleven algo que puedan compartir después también.
EC: Pues lo vamos a hacer así. Gracias Carlos. De hecho, esto último que has dicho, llevamos varios meses hablando de IA Generativa, de sus impactos, pero me gustaría aprovechar que estáis vosotros hoy aquí y aprovechar el conocimiento que tenéis para que nos dieseis esa visión de qué es la IA Generativa, su impacto, y cómo está funcionando dentro de las organizaciones.
CM: Pues la IA Generativa es una rama de la Inteligencia Artificial que, como dice su propio nombre, está orientada a generar contenido nuevo. ¿Cómo lo hacen? Pues básicamente los modelos se entrenan, digamos el modelo es un software que entrena a partir de unos datos. Cuando entrena lo que hace es extraer ciertos patrones del contenido que está interpretando. Pueden ser imágenes, puede ser audio, puede ser texto, extrae patrones y extrae un aprendizaje. Ese aprendizaje se refleja en ese software que llamamos el modelo de Inteligencia Artificial, que es luego el que se utiliza para generar algo que es nuevo, que no replica exactamente el contenido del que ha aprendido. En este caso es muy fácil, lo hemos visto con imágenes, ha aprendido de miles o millones de imágenes y le puedes pedir que genere una imagen nueva a partir de unas indicaciones. En este caso puede ser una indicación de texto. Podría ser también de otra imagen como referencia y con esas indicaciones el modelo a partir de el algoritmo y las técnicas que se han utilizado en el modelo de IA generativa, porque hay muchos, podemos hablar de miles en realidad, pues es capaz de generar algo que no ha visto nunca. Esa es la parte más creativa de todo. Y hay distintas técnicas, la verdad. A los oyentes les puede sonar modelos de difusión o las gans famosas, que son redes neuronales generativas adversarias. Hay otros modelos Transformers, Autoencoders Variacionales. Hay distintas técnicas que se utilizan y a veces se pueden utilizar varias de estas técnicas para conseguir el resultado final. Pero básicamente, ¿cómo funciona? Pues como he comentado, se entrena a partir de unos datos, de todos los datos con los que se entrene la red neuronal o las redes neuronales extraen un aprendizaje y con ese aprendizaje generan algo nuevo que antes no existía.
EC: Oye Carlos, llevamos como más de seis meses hablando de IA Generativa y parece que no existe otro tipo de InteligenciaAartificial. Y ahí sí que me gustaría que nos dieses tu punto de entender la diferencia entre la IA Generativa y otros enfoques de Inteligencia Artificial.
CM: La Inteligencia Artificial es muy amplia, es un campo enorme de conocimiento muy, muy amplio. En este caso lo que diferencia los modelos de IA Generativa de otros es básicamente ese objetivo, generar algo que antes no existía. Y podemos encontrar miles de casos diferentes de aplicación de la IA de la Inteligencia Artificial que no es generativo, por ejemplo, predicción o detección o comprensión. Es decir, en nuestro campo de expertise más profundo que es las tecnologías del habla, pues podemos entender que un ChatGPT genera un texto que antes no existía. Ya sea un resumen o que le pidas un cuento. Pero antes de eso, el modelo es capaz de entender unas palabras y con esas palabras pues aplicar y generar algo nuevo. Esa parte de comprensión no tiene por qué ser generativo, sino que simplemente se pueden utilizar otras tecnologías que son capaces de pasar el habla humana, o sea, de un sonido, y traducirlo a texto. Eso no es generativo como tal, no es la misma idea, sino que es una traducción de un sonido a un texto. O se puede aplicar también a cosas súper simples que se han utilizado antes más del campo del Machine Learning, que pertenece a la Inteligencia Artificial. Como detectar que es spam y que no es spam en un email, o sea, desde cosas muy simples a cosas más complejas. Entonces se diferencia básicamente en lo que buscamos al utilizar este tipo de modelos.
EC: Nieves, aquí hemos estamos viendo constantemente, además las redes sociales ya se encargan o todos nos encargamos dentro de las redes sociales, a amplificar determinadas aplicaciones que puede tener esa IA Generativa. Pero en vuestra experiencia, ¿cuáles son estas aplicaciones en la actualidad con las que estáis más familiarizados, con las que estáis viendo que se están llevando a cabo dentro de las empresas?
NA: Pues así, a priori, vemos dos grandes potenciales. El primero está en la creación de contenido. Se está viendo cómo la IA Generativa facilita esa creación de contenido multimodal, desde imágenes a artículos de blog hasta audio. Y por otro lado, también se está viendo en la capacidad de asistencia. ChatGPT ha llegado en un momento en el que ha sido un cambio brutal con los asistentes tradicionales que teníamos ahora. Y, con este tipo de tecnologías, vemos que podríamos tener un asistente con el que podríamos conversar y del cual podríamos tener información o ayuda para prácticamente cualquier cosa. Entonces esas dos grandes áreas se están viendo potenciadas con la IA Generativa.
EC: Aprovechando esto que comentas, nos lo preguntan muchos clientes, es cómo la IA Generativa puede ser utilizada con sus datos de negocio. Porque oye, sí, yo estoy utilizando ChatGPT, pero si yo quiero utilizar mis datos de negocio para tener una conversación similar, ¿cómo lo utilizo?
NA: En este caso podemos verlo desde dos enfoques diferentes. Por ejemplo, hablando de GPT, como lo mencionaba, ChatGPT sí que está habilitando la capacidad de adaptar la información que tiene con datos propios y servicios propios que tenga una empresa, a través de los plugins que permite a cualquier usuario incorporarlo a la conversación que está teniendo con ChatGPT, de tal manera que la respuesta final está adaptada al lenguaje técnico, a los datos que puedas tener específicos del plugin. Esto también lo está haciendo Microsoft en realidad… Lo explicaba en ese vídeo inicial en el que ellos tienen como una capa que adaptan la respuesta que da un modelo de lenguaje a los datos específicos del usuario y a los datos que tengan ellos almacenados y a otra serie de datos. Ahí están, adaptando la conversación y haciéndola más fiable con esos datos. Pero más allá de Chat GPT y la familia de GPT, sí que podemos ver que no dejan de ser este tipo de software, no dejan de ser modelos que han aprendido de datos, como comentaba Carlos al principio, y que siempre vamos a poder en seguir enseñándole a ese modelo hacer que siga aprendiendo, pero ya con unos datos específicos que podamos tener desde nuestro negocio. A eso también lo llamamos hacer un “finetune”, hacer una adaptación del modelo inicial que teníamos con unos datos específicos. Aquí lo que habría que tener en cuenta es que los datos tienen que casar. Si estamos hablando de modelos que han aprendido en base a textos, podremos hacer un finetune de ese modelo con otros textos que nosotros tengamos y hacer que el aprendizaje sea adaptado a esa información que le estamos proporcionando. En el caso de imágenes, pues sería similar o en el caso de una voz sería similar. Tendríamos que darle datos que enganchan, digamos.
EC: Otra de las preguntas que nos hacen mucho es si se quiere desarrollar un chatbot ahora mismo. ¿Cómo estarían conviviendo las tecnologías como GPT con las tecnologías de IA Conversacional que hasta ahora teníamos y que seguimos teniendo en ese proceso de diseño conversacional de las experiencias con chatbot?
NA: Ya en sí mismo, un modelo como GPT, que es 100% conversacional, no nos hace pensar que lo podríamos usar de manera aislada para crear un chatbot, ¿no? Es verdad que una tecnología así simplemente puede tener una serie de limitaciones
que ahora mencionaremos. Yo creo no me voy a meter todavía en eso, pero la mejor manera en la que se está viendo que se pueden resolver problemas reales de negocio es incorporar o hacer una mezcla de tecnologías tradicionales que están diseñadas y desarrolladas para resolver un caso de uso concreto de negocio, un problema concreto. Y ese tipo de tecnología puede ser complementaria a una tecnología más abierta, como GPT, que te pueda dar una respuesta que no teníamos consideradas con los datos iniciales, pero que puede dar respuestas que complementen y hagan la conversación un poco más fluida y natural. Por ejemplo, para respuestas de fallback que decimos en este mundo, que son respuestas en las que normalmente decimos algo tipo “lo siento, disculpa, no te hemos entendido eso, pero te puedo redirigir a la conversación”. Pues a lo mejor con tecnologías como GPT sí que podemos generar otro tipo de respuestas y continuar la conversación o hacer que la conversación sea un poco más fluida. Entonces se complementan. No estamos yéndonos a un modelo 100% generativo, sino que seguimos usando herramientas tradicionales.
Si habláramos de voz, asistentes de voz, pues Carlos también estaba mencionando antes que seguimos necesitando tecnologías tradicionales del habla para pasar de la voz al texto que luego entendemos y procesamos y al revés, para pasar luego de de de un texto a una voz. Aunque ahí ya hago inciso en la parte de la síntesis de voz también hay modelos de IA Generativa. Entonces, bueno, no deja de ser esto un una conexión entre diferentes herramientas para darle al usuario la mejor experiencia posible y que esté alineada 100% con el caso de uso y con el negocio, que no vayamos a dar información que no es correcta y que y que no es la mejor para el usuario.
EC: Esto que estás comentando Nieves, yo creo que va a ser un salto cualitativo muy importante en las experiencias conversacionales. Se espera que podamos llegar a tener conversaciones con las máquinas mucho más humanas, que era lo que hemos estado esperando, desde la ciencia ficción hasta ahora.
NA: Eso es, efectivamente.
EC: Hablamos de las oportunidades que nos ofrece esta tecnología. Pero en vuestra experiencia, Carlos, ¿cuáles son las limitaciones actuales que tiene esta IA Generativa? Y sobre todo, ¿cómo ves que se pueden superar?
CM: Podemos hablar de limitaciones, por un lado, de la propia tecnología, y por otro lado, de cómo utilizarlas en negocio a la hora de generar algo nuevo, un negocio o una idea, un producto nuevo con ellas. Desde el punto de vista de la tecnología, lo que vemos ahora mismo, y esto es verdad que puede quedar desfasado en unos pocos meses también, es que si una empresa quiere crear un modelo propio tecnológicamente, los últimos modelos de IA generativa más potentes, como los grandes modelos de lenguaje como ChatGPT o los grandes modelos de generación de imágenes, y si quieres personalizarlo, siguen necesitando, digamos, unos requisitos de datos muy grandes. Es verdad que si hay un modelo base Open Source, pues te puede valer para aportar algunas imágenes extra y generar algo nuevo que es 100% válido y personalizado. Pero en otros casos sigues necesitando muchos datos para entrenar algo que sea 100% propio y no solo datos, sino que también necesita unos requisitos de computación muy altos comparados con otras tecnologías. Eso por un lado. Luego es verdad que desde el punto de vista del resultado, la IA Generativa nos trae algunas sorpresas que no son tan controlables, no como alucinaciones, que de repente en un resultado te saque algo inesperado que no eres capaz de controlar hasta que ha salido el resultado, ¿no? Ese tipo de cosas son las sorpresas que poco a poco, con más entrenamiento o mejores datos, revisiones, supervisión de personas y demás, van mejorando pero, es verdad que todavía no es tan controlable como pueden ser otro tipo de técnicas.
Y aquí estamos hablando de técnicas como modelos de difusión o basados en una gran cantidad de datos como los grandes modelos de lenguaje. Pero es verdad que esas limitaciones, muy de manera muy rápida, se están solucionando. La verdad es que nosotros, que llevamos años investigando en tecnologías similares, la velocidad que está tomando el mercado y el conocimiento a nivel académico y empresarial en la creación de este tipo de tecnologías es brutal, por llamarlo de alguna manera, y esto impacta también en cómo lo podemos utilizar nosotros a la hora de crear productos. Por ahora, estos modelos de IA Generativa están maduros para un caso en particular, por ejemplo, para generar imágenes, generar texto, generar audio o generar habla como hacemos nosotros. Pero es verdad que cuando quieres crear algo más complejo, más allá de lo que te da un solo modelo, pues tienes que empezar a unir distintos modelos y distintas tecnologías para crear un producto. Entonces, la limitación está en que sigue siendo complejo crear cosas, crear algo avanzado que aporte valor a nuestros clientes, y eso está cambiando. Entonces la limitación también está, por nuestra parte, en cómo de rápido nos vamos a quedar desfasados al aplicar este tipo de tecnologías, y en lo que nos cuesta personalizarlas. Yo creo que eso también es bastante doloroso, el hecho de personalizar una tecnología como antes hablabais, de personalizarlo con los datos de negocio, pues dependiendo del caso de aplicación, pues puede ser más o menos difícil para un negocio personalizar un modelo de estos para nosotros. Entonces, ¿cómo superarlos? Pues es muy buena pregunta, pero es verdad que todo avanza tan rápido que tenemos que estar preparados para adaptarnos a la incertidumbre desde el punto de vista de de cómo usamos esta tecnología en nuestro negocio, y ser capaces de de ser flexibles para poder cambiar de una tecnología a otra, siendo conscientes de que van a solucionar el problema que estamos buscando o que estamos buscando solucionar. Entonces, la verdad es que no es muy sencillo, incluso nosotros que estamos creando este tipo de tecnologías vemos que tenemos que estar pendientes constantemente de cómo avanza y entenderlas mejor para poder aplicarlas mejor en nuestro negocio.
EC: Sobre todo pensando en el reto desde la capa de desarrollo, no dejáis de ser la avanzadilla de lo que puede ser útil para una marca, para la sociedad, para las personas. Oye, Carlos, vamos a hablar de un proyecto que me gusta mucho. Desde Monoceros Labs habéis lanzado Fonos, que es un producto de voces sintéticas impresionante que ya hemos testeado, y me gustaría que nos hablases de en qué consiste este producto de voces sintéticas.
CM: Pues digamos que es la evolución, después de varios años investigando en tecnologías de síntesis de habla, intentando solucionar, como decía antes, un problema concreto. Ya conocemos las voces sintéticas de siempre, pero como llevamos años creando conversaciones con asistentes virtuales y tú también lo comentabas antes, ¿no? Ese objetivo de crear una comunicación, conversaciones más naturales, más humanas. Siempre hemos visto que había un problema a la hora de crear esas experiencias conversacionales, cuando la voz que escuchaba el usuario no era tan humana o tan expresiva como lo podría llegar a ser cuando hablamos entre nosotros, Y buscando solucionar eso, pues investigamos las voces sintéticas. ¿Qué ocurre también con las voces sintéticas? Que como se llevan utilizando muchos años, buscan solucionar algo muy concreto, que es llevar la voz humana donde las personas no pueden estar. La voz es algo que solo tenemos nosotros, el lenguaje hablado como tal y, la verdad, es que no escalamos, digamos no podemos tener una persona leyendo los mensajes que dice Alexa constantemente, por ejemplo, sino necesitas una voz sintética para que Alexa lea los mensajes. Entonces, buscando tener tecnologías del habla en español, sobre todo que es en el mercado en el que trabajamos nosotros, que sea más natural, expresivo, introdujimos esta línea de investigación que nos ha llevado a crear Fonos. ¿Con qué objetivo? Pues llevar tu propia voz, si quieres clonar tu voz, donde normalmente tú no puedas hacerlo. Por ejemplo, crear contenido automatizado o crear contenido conversacional. Y en el caso de las marcas, ser capaces, con esta guía generativa, de generar voces que no pertenecen a una persona real pero que suenan naturales, y que puedan ser naturales y expresivas, y las puedes utilizar en distintas aplicaciones conversacionales, sobre todo de generación de contenido.
EC: Nieves, ¿qué papel juega Fonos dentro de la industria de las tecnologías de voz? ¿Cómo ha sido ese aterrizaje?
NA: Pues la verdad es que nos hemos centrado sobre todo en esos problemas que podemos resolver gracias a las voces sintéticas. Hay muchísimo contenido escrito en todas las empresas, y el hecho de tener esa información escuchada o hablada hace que todo esto sea mucho más accesible, comprensible, que llegue a más gente y que incluso se entienda mejor y se recuerde mejor. Entonces, el hecho de que una voz sintética, de manera automática pueda, a partir de un texto, darte un audio con las características de la voz que tú deseas que se adecúa mejor a tu marca o que se adecúa mejor a quien lo va a escuchar, es algo que realmente aporta muchos beneficios a todo el mundo. Desde el punto de vista de quienes escuchamos ese contenido, nos están permitiendo que lo consumamos donde queramos, como queramos. Ya no es solo voz, sino que al final lo que estamos haciendo es que creamos contenido multimodal. Entonces es algo que nos enfocamos, que estamos hartos de crear contenido y que hay muchísimo contenido en la web, pero no todo es accesible ni consumible cuando queramos, y yo creo que eso es súper importante.
Y luego, desde el punto de vista de de la voz en sí, aquí mencionaba Carlos la clonación de la voz. Podemos tener voces sintéticas que lean muy bien y que se adecúen muy bien a unos casos de uso concreto. Me refiero a, por ejemplo, mi voz. Si yo me clonó la voz, le voy a enseñar que mi voz lea los discursos que pueda dar o las charlas que yo pueda ofrecer a una audiencia, pues esa voz sintética va a aprender a imitar muy bien cómo hablo yo en ese caso de uso. Pues será maravilloso que yo pueda utilizar esta voz en ese contexto, sin necesidad de usar la mía propia porque no pueda o no me convenga. Pero si yo no quisiera mantener mi identidad, que en muchos casos la identidad es relevante, hace falta que se mantenga esa identidad, por eso la clonación de voz es muy útil. Si yo no quisiera mantener mi identidad, aquí ya podría usar una voz, o bien de otra persona que para la cual yo tenga permiso, y luego podríamos tener como marca ya, pues una voz que es que está diseñada al 100% para mí, que lee muy bien este tipo de artículos que yo tengo en este blog, y la lee con las características de lo que realmente represento. Ahora ya hablamos de voz de marca, ¿con qué características fonéticas?, ¿con qué acento, dialecto, tono,velocidad…? O sea, lo puedes adaptar 100% para que puedas obtener y tener ese contenido, y quien lo escucha te está escuchando a ti como marca.
EC: Carlos, a mí me gustaría que aprovechando esto que está comentando Nieves, para una marca que nos esté escuchando, si tiene que incorporar dentro de su estrategia de marca Fonos, aquí ¿dónde estarían las claves, cómo lo incorporaría?
CM: Pues lo primero es decidir si quieren una voz única generada con Inteligencia Artificial que le represente, pues tienen que tener muy claros esos valores de marca y ese estilo de la voz que quieran llevar a contenido sonoro de voz. ¿Con qué objetivo? Pues ser consistente. Igual que tienes una imagen, un branding de marca y lo tienes pensado para todos los canales a los que con los que llegas a tu cliente, la voz debería ser lo mismo, que sea reconocible, que una persona cuando escuche tu voz sepa asociarla automáticamente a tu marca, que a menudo pueden ser personas famosas. Pero cuando hemos visto casos de marcas que llevan experiencias conversacionales, por ejemplo al canal Alexa, y vas a utilizar la voz de Alexa para tu marca, probablemente no sea lo más conveniente. Ahí es cuando veíamos que era recomendable tener una voz distinta para diferenciarte de un canal como es un asistente virtual, en este caso Alexa, y personalizar la experiencia para que la relación entre tus clientes y tu marca sea 100% personalizada y consistente en todos los canales. Cuando llames por teléfono a un call center, escuches la voz de marca y la reconozcas, o seguramente cuando escuches un anuncio en la radio, pues lo más conveniente y lo ideal sería que también mantuvieras esa voz. O en un comercio, por ejemplo, que escuches de fondo, como pasa en El Corte Inglés, los audios anunciando cosas, sea la misma voz. Eso sería lo más idóneo pensando en cualquier tipo de comercio. Pero vendrán más cosas donde la voz sea más oportuna, por ejemplo, cuando hemos estado escuchando más la tendencia al Metaverso o experiencias en Internet que son sonoras, o otro tipo de de experiencias interactivas donde haya contenido sonoro y voz. Es un elemento fundamental. La marca sonora se ha utilizado siempre, es reconocible y funciona estupendamente, casi mejor, diría, que la visual. Pero es todo una suma, una suma de beneficios para una marca, y para empujar y poner en valor la experiencia que estés creando para tus clientes.
EC: Totalmente. De hecho me gusta mucho esto que estáis diciendo Carlos y Nieves, porque una cosa en la que estamos muy acostumbrados como consumidores, somos omnicanal, habitamos en diferentes canales, utilizamos diferentes dispositivos y el que una marca tenga armonizado aspectos gráficos, aspectos de audio, aspectos textuales, hace que el usuario se sienta muy identificado con la marca y conecte muy rápidamente con ella. Y, además, una cuestión muy importante que lo estáis comentando: va a llegar un momento que estamos acostumbrados a esa parte de pantallas de toda la vida, desde hace más de 20 años. Pero es que entramos en entornos donde la marca va a tener esa presencia y, a lo mejor no va a haber pantallas y entonces la voz ahí va a tener un rol muy importante de conexión con con el consumidor. Así que me gusta mucho esto que estáis diciendo. Otra cosa que también me gusta mucho es el mensaje que lanzáis desde desde Fonos, cuando decís que creáis voces digitales basadas en Ias respetuosas y seguras. Me gustaría lanzaros esta pregunta porque es algo que genera bastante controversia. ¿Cómo pueden los investigadores y en este caso los desarrolladores de Inteligencia Artificial Generativa abordar esos problemas de sesgo y equidad en los modelos?
NA: Pues aquí hay que pensar que lo más importante es que lo llevamos mencionando desde el principio, ¿no? Este tipo de tecnología aprende de datos, entonces tenemos que ser súper súper conscientes de los datos que estamos utilizando para entrenar este tipo de modelos. Cuando hablamos de voces sintéticas hay que pensar que además la voz es un dato personal, nos identifica, por lo que tenemos que ser todavía mucho más respetuosos a la hora de tratar esos datos y utilizarlos para crear modelos de Inteligencia Artificial. Pero vamos, esto lo podemos pensar también en imágenes y en texto. Seamos conscientes de que tenemos que tener permiso para utilizar estos datos como datos de entrenamiento. Y, además, ser conscientes de qué datos estamos utilizando también, que en sí mismo ya no estén sesgados y nos puedan llevar a que luego, cuando utilicemos estos modelos, pues nos den unas respuestas que sigan perpetuando esos sesgos que ya existen en lo social. Entonces eso es muy importante, ser súper consciente de qué datos estamos utilizando y tener el permiso para ello. Además, esto nosotros nos cansamos de decirlo, pero es que es súper importante y la Unión Europea ya se está poniendo en serio con esto también. Los datos pueden tener copyright, pues la propiedad intelectual del dato no hay que tenerla en cuenta también más allá de la identidad, que, como decía la voz, la voz es un dato de identidad y, esto, la ley de protección de datos, que ya está presente en todos nosotros, tenemos que cumplirla, y con la voz es así también. Entonces, por un lado está el dato y luego, por otro lado, está el uso que hagamos de este tipo de modelos.
Es importante cuando hagamos una locución, avisemos al inicio de que está generada con síntesis de voz, o que si estamos hablando con un asistente de voz, no llevar al engaño a la gente y que piense que está hablando con una persona. Con las imágenes es igual. En muchos de los casos nos lleva a un paso intermedio, que es que hay muchos productos lanzados en el mercado de Inteligencia Artificial Generativa que permiten a cualquiera generar cualquier cosa y no avisar que eso está generado con IA. ¿Cómo podemos contrarrestar eso? Pues aquí está nuestra responsabilidad a la hora de crear productos y establecer algunos mecanismos de control. Es verdad que puertas al campo no se pueden poner, pero sí que establecer unos mecanismos de control. Lanzar un producto en el que nos aseguremos que esa clonación de voces se está haciendo con un permiso, con el permiso de la persona que está poniendo la voz es indispensable. También que podamos asegurar que esa voz se está utilizando con el control de la persona que está poniendo la voz, Es decir, que yo te permito Esther que utilices mi voz clonada, pero que yo sé qué texto estás tú introduciendo y que estás generando con mi voz, ¿no? Que yo pueda tener de alguna manera el control sobre ello. Pues que eso lo podamos controlar también a través de la plataforma de la herramienta. Son tres aspectos muy importantes, desde los datos hasta el producto y, luego, el uso final como usuario, la responsabilidad que tenemos al respecto de ello.
EC: Totalmente. De hecho, una pregunta que también me gustaría que nos respondieras es… ¿qué papel crees que deberían tener, tanto a nivel ético como de responsabilidad, las empresas en ese uso de la IA Generativa?
NA: Pues efectivamente, esto es algo también muy importante. Pensemos en esas empresas que puedan utilizar esos modelos y en las empresas que crean productos basados en esos modelos. Son las dos vertientes. A quienes crean productos, ya lo decía, pues establecer una serie de mecanismos o asegurar que todo eso está controlado. Yo estaba hablando mucho de la voz, pero también podemos pensar en el texto, pues pensemos en el hecho de generar contenido que no sea veraz, que no esté basado en en datos reales que puedan llevar a engaño también y que nadie revise que esos datos no son correctos. Pues las empresas que crean ese tipo de soluciones y herramientas deberían también tenerlo en cuenta para que luego quien use su producto sepa qué limitaciones tiene y qué cosas se pueden controlar y qué cosas no. Y luego, como empresas que utilizan ese contenido, empresas finales que estamos viendo que, lo decía al principio, tanto para generar imágenes, artículos de blogs u otro tipo de contenido, seamos responsables también y entendamos qué tipo de contenido podemos generar, a qué tipo de contenido se adecúan mejor este tipo de herramientas y qué contenido nos conviene seguir generando con otros procedimientos, con los habituales, ya que no todo vale, y debemos avisar siempre a quienes van a consumir nuestro contenido de cómo está generado.
EC: Yo creo que es una parte de responsabilidad como ciudadanos, como sociedad y como empresas, el tener la oportunidad de utilizar estas herramientas, ver cómo conviven con lo que hasta ahora hemos estado manejando, pero sí muy importante buscar ese equilibrio e informar, porque llegará un momento que no vamos a saber qué es lo que es real y que es no real, y es imposible para las personas como sociedad, saber cómo transitamos entre lo que es real y no es real. Y eso sí que es una responsabilidad muy importante que tenemos que asumir. Carlos, para terminar, me encantaría que nos dijeses cómo ves las tendencias futuras dentro de este campo de la IA Generativa y, sobre todo, tal vez entender a qué nos estamos enfrentando sobre todo desde un punto de vista profesional, ¿cuál es nuestro desafío?
CM: Pues es un tema, aparte de apasionante, inquietante a la vez, pero también que nos trae unas posibilidades que antes la verdad es que no veíamos muy lejos y que ya están muy cerca y, de hecho ya se empieza a utilizar. Os pongo el ejemplo de cómo editores de vídeo ya están empezando a utilizar en su software profesional modelos de IA Generativa para reducirles las horas de trabajo en tareas tediosas a la hora de de editar y crear contenido. Es una realidad, es un hecho, y la rapidez con la que se están empezando a implantar cada vez es mayor. Y el futuro, en realidad, que más o menos hemos comentado ya este tipo de cosas durante nuestra charla, que es la multimodalidad o la integración de distintas tecnologías, el futuro va por ahí. Tener modelos multimodales significa que no solo van a ser capaces de generar texto o audio o imagen, sino que vamos a empezar a ver modelos que son capaces de generar todo esto al mismo tiempo. Por ejemplo, imaginad cuando un mismo modelo sea capaz de generar la respuesta tanto en voz como en texto simultáneamente, entendiendo el texto y entendiendo cómo llevarlo una voz. Y, de ahí, podemos irnos a distintos mercados. como el mercado de la música, donde un modelo generativo puede generarte sonidos de instrumentos, podrías llegar a generarte ritmos, pero también una voz que canta y que suene realista y que no desafine. Ese tipo de ideas son ya una realidad. En el fondo cada vez serán mejores y cada vez se empezarán a utilizar como una herramienta que nos hará capaz a la sociedad de generar más cosas, generar más contenido, ser más creativos… Cuanto más generamos, más capacidad creativa tiene la sociedad en su conjunto y, por tanto, más calidad creativa. Es una herramienta que nos potencia como personas. Los usos negativos están ahí y eso también, a futuro, va a ocurrir. Que tengamos herramientas que controlen la detección de Deep Fakes, la detección de contenido generado de manera automática. Vamos a empezar a ver ese tipo de cosas, pero parece que cada vez va más rápido y es imparable. Pero es verdad que veo que somos conscientes. Ha habido un momento, unos pocos meses donde había mucha incertidumbre y mucha inquietud, pero parece que empezamos a ser todos muy conscientes de los retos y los desafíos, e intentamos poner cierto control. Y el debate está ahí, es un hecho. Lo vemos en periódicos, revistas, publicaciones, Internet, redes sociales… Y yo creo que poco a poco vamos, vamos poniendo control y mecanismos que nos llevan a utilizar esto de manera adecuada, y a evitar esos riesgos que sabemos que están ahí. Así que la verdad es que es súper apasionante, y nosotros nos sentimos un poco como desfasados, aunque estemos haciendo cosas muy punteras, pero a la vez como con ese miedo a quedarnos por detrás. Pero será parte de la incertidumbre y de la ansiedad que está produciendo toda esta evolución tan rápida.
EC: En absoluto. De hecho, hay una cosa que siempre comento, y es que nuestra capacidad de aprendizaje es lineal, y el crecimiento de la tecnología es exponencial, y habrá un punto de corte en el que tendremos que delegar muchas cosas a la tecnología. Pero yo creo que hay una cosa que has comentado muy interesante y es que somos conscientes o empezamos a ser muy conscientes como sociedad en tratar de buscar ese equilibrio de cómo incorporar estas tecnologías que nos pueden potenciar, pero que al mismo tiempo hay que buscar el control y la seguridad, que no vayamos a impactar de forma negativa. Muchísimas gracias por vuestro tiempo, sobre todo por el conocimiento. Siempre es una maravilla escucharos, por el conocimiento que desplegáis en lo que hacéis y sobre todo por la pasión que ponéis. Así que muchísimas gracias.
NA: Gracias a ti Esther, por invitarnos.
CM: Muchas gracias Esther. Muy interesante también hablar contigo siempre.