En los últimos meses la búsqueda por voz o Voice Search se ha convertido en una tendencia que está provocando una gran revolución en el ámbito de la inteligencia artificial. Tanto es así que, según el último informe de HubsSpot, más del 60% de los usuarios la usa (incluso sin ser plenamente conscientes). Apple fue pionera en este tipo de asistentes, pero le han seguido muchos nuevos que están siendo actualidad en el panorama digital.
¿Quieres saber cuál ha sido su evolución, qué ventajas tienen y qué nos espera en lo referente a estos dispositivos de voz? Te lo contamos a continuación 😉
¿Qué entendemos por búsqueda de voz o Voice Search?
Esta tecnología consiste en el reconocimiento del lenguaje hablado que permite a los usuarios realizar búsquedas mediante voz sin tener que escribir esos términos en la caja en un motor de búsqueda ni activar funciones de ciertas aplicaciones de forma táctil.
Las búsquedas se realizan a través de los denominados: Asistentes de Voz, Asistentes Virtuales, Asistentes Personales, Asistentes Inteligentes, Voice Assistants, etc. Se trata de Asistentes Personales Inteligentes (IPA) programados con Inteligencia Artificial, Machine Learning y tecnología de reconocimiento, con el fin de ejecutar una serie de funciones o servicios solicitados por un usuario. A día de hoy los asistentes más usados en occidente son Siri, Google Assistant, Cortana y Alexa.
Para que los Asistentes de Voz puedan llegar a los usuarios se sirven de ciertos dispositivos y plataformas. Los más utilizados actualmente son los altavoces inteligentes y los smartphones, los cuales pueden tener incorporados a estos asistentes virtuales tanto en sus sistemas operativos como mediante aplicaciones.
Las funciones de los Asistentes de Voz no sólo se limitan a satisfacer búsquedas informativas como las que podemos llevar a cabo en cualquier motor de búsqueda de forma manual, sino que también pueden ejecutar otras tareas más funcionales como activar una alarma, poner música a través de otras apps como Spotify, leer libros de audio, consultar recetas mientras cocinas, controlar los dispositivos del hogar, poner vídeos, películas y programas de TV y radio, comprar productos (ej. Amazon) y muchísimas más opciones.
Además se pueden completar con aplicaciones extra o skills, desarrolladas expresamente para estos sistemas; de hecho, Alexa (asistente virtual de Amazon) ya contaba con más de 10.000 aplicaciones en el Q1 de 2017.
Ventajas de la Búsqueda por Voz
- La búsqueda por voz es 3 veces más rápida que la escrita: en el lenguaje hablado las personas podemos pronunciar, de media, unas 150 palabras por minuto frente a las 40 que podemos escribir en un ordenador o smartphone, haciendo de las búsquedas por voz un medio de comunicación mucho más rápido e instantáneo.
- Fácil, conveniente y «Hands-free»: no hacen falta las manos por lo que se puede usar en muchas más situaciones que la búsqueda escrita (en la ducha, mientras conduces, mientras cocinas, mientras caminas, etc).
- Low cost + Small Footprint (Internet of Things): su uso requiere sólo un micrófono, un altavoz, el procesador y conectividad, encajando perfectamente dentro del concepto Internet de las Cosas (IoT). Además del bajo coste te permite operar a través de pequeños dispositivos sin ocupar grandes cantidades de memoria (small footprint device o app).
- Inteligencia Artificial (Personalización Contexto): la IA que impulsa estos asistentes los hace capaces de interpretar el significado semántico de las búsquedas de los usuarios en función a las consultas previas, la localización de los usuarios, las interacciones con el dispositivo u otros.
- Reconocimiento y Procesamiento del Lenguaje Natural (PLN): están desarrollados para procesar tanto el lenguaje natural de los usuarios como sus peticiones (NLP: Natural Language Processing), por lo que se adapta más a la comunicación lingüística real de los individuos.
¿Cuál es la evolución de la interacción humanos-ordenadores?
Para entender el contexto en el que ha surgido y evolucionado la Búsqueda por Voz, te cuento algo de “ historia” respecto a la relación de los humanos con las distintas interfaces de ordenadores que han ido surgiendo desde los inicios hasta el día de hoy.
Fuente: KPCB, Universidad de Calgary, History of Computer Interfaces (Saul Greenberg)
Como muestra la evolución de estos dispositivos en los últimos 75 años, en todas y cada una las décadas hasta la actual, ha habido cambios paradigmáticos en nuestra forma de interactuar con los ordenadores. Sus interfaces han ido evolucionando hasta que llegaron dos momentos clave:
- 2011 – Año en el que nace Siri, el primer Asistente por Voz de la historia que opera a través del iPhone de Apple.
- 2014 – Sale al mercado Amazon Echo, el primer altavoz inteligente con reconocimiento de voz que funciona mediante el asistente virtual Alexa.
Con la llegada de los asistentes de voz, se experimenta un nuevo cambio en la relación de los humanos con los ordenadores que da paso a la Era de la Programación Congnitiva o Cognitive Computing (CC).
El Cognitive Computing (CC) consiste en un sistema que se desarrolla tomando como inspiración el funcionamiento del cerebro humano. Es decir, simulan el proceso de aprendizaje de este mediante un modelo programado, implicando sistemas de auto-aprendizaje, reconocimiento de patrones, y procesamiento del lenguaje natural, de tal manera que acaban imitando su funcionamiento.
Asistentes de Voz: ¿ por qué surgen ahora?
La eficiencia de los Asistentes de Voz depende de la precisión en el reconocimiento del lenguaje hablado (Speech Recognition) y del tiempo de espera en el procesamiento y ejecución de las solicitudes o latencia (Latency). El objetivo es que estos dispositivos nos entiendan cuando hablemos y obtener una respuesta rápida a cualquier tipo de búsqueda.
En el siguiente cuadro puedes ver la evolución de la precisión en el reconocimiento del lenguaje hablado del Machine Learning de Google. La raya discontinua azul muestra el umbral a partir del cual el sistema empieza a ser realmente eficiente en cuanto a la interpretación y respuesta del lenguaje hablado (lengua inglesa):
Nota: los datos se refieren a la precisión en el reconocimiento de la lengua inglesa, por lo que la evolución de la lengua española se encuentra en niveles inferiores.
Como puedes ver, a finales de 2016 se llegó a pasar el umbral en el que estos sistemas empezaron a alcanzar un nivel de precisión suficiente (a partir del 95%) como para poder tener una comunicación de forma fluida con las personas. A esto se le suma una latencia de respuesta de estos asistentes más baja en los últimos años, lo que ha producido que desde mediados de 2013 haya un crecimiento continuo en el volumen de las búsquedas por voz, hasta batir récords en 2016. Echa un vistazo a esta gráfica:
Fuente: KPCB (Google Trends)
Esta tendencia en el comportamiento del volumen de este tipo de búsquedas también ha tenido su repercusión en el consumo de altavoces inteligentes en los últimos 2 años. La siguiente gráfica muestra el crecimiento progresivo e imparable de las ventas del Amazon Echo desde el 2015 en EEUU:
Fuente: Amazon, Consumer Intelligence Research Partners LLC, Geekwire, Technology Review, Wired, Fast Company
Estando en el punto en el que apenas se ha pasado el umbral de eficiencia, todavía queda mucho camino por recorrer hasta llegar al 99% o el 100%, ya que la diferencia entre el 95% y el 99% de precisión en el reconocimiento del lenguaje es abismal. Pasaríamos de usarla diaria pero ocasionalmente (como es ahora para el 95% de precisión) a poder usarla prácticamente en todas las acciones de nuestra vida diaria a medida que nos acercásemos al 99% de precisión.
Asistentes de Voz y Dispositivos en el Mercado
Además de smartphones y altavoces inteligentes, también puedes encontrar estos sistemas instalados en tablets, ordenadores, wearables, etc., y además puedes sincronizarlos con los dispositivos del hogar (Internet de las Cosas).
¿Cuáles son los Asistentes de Voz más usados en occidente, y mediante qué altavoces inteligentes o smartphones operan? (se pueden usar de forma cruzada mediante las apps concretas de cada asistente):
*Fuente datos: USA TODAY/SurveyMonkey test en estados unidos del 26/5/2017, de 1.004 adultos (Janet Loehrke).
Se trata de un test realizado en EEUU en el que hay que tener en cuenta que Siri lleva en el mercado desde el 2011. Por otro lado, si bien la mayor cuota de mercado en cuanto a sistemas operativos se la lleva Android frente a iOS (53% vs 44%), en lo que se refiere a cuota de smartphones en el mercado la palma se la llevan los iPhone con el 44.6% de éstos (comScore en 2017).
Estos cuatro gigantes no están solos, son ya otros muchos los que se han lanzado a crear sus propios asistentes como por ejemplo Bixby de Samsung o “M”, el asistente personal de Facebook, que está integrado dentro de la aplicación de mensajería Messenger.
En cuanto a los altavoces inteligentes, ahora mismo el Amazon Echo sólo está disponible en EEUU, Reino Unido y Alemania, mientras que el Google Home, que a día de hoy se puede encontrar en EEUU y Reino Unido, estará disponible en Canadá, Japón, Australia y Francia, a lo largo de este verano. A finales de este año también saldrán al mercado el HomePod de Apple, y el Invoke de Microsoft.
De izq. a derecha: Amazon Echo, Google Home, HomePod y el Invoke de Harman Kardon’s. Fuente: Reuters/Peter Hobson, Reuters/Beck Diefenbach, Reuters/Stephen Lam, Harman Kardon)
Pero de momento la “batalla” en cuanto a diseño, integración con los dispositivos inteligentes de la casa (smarthome devices), entretenimiento, y a la capacidad semántica y conversacional está entre los dos únicos altavoces inteligentes disponibles actualmente en el mercado: Echo VS Home.
El gigante Apple no se queda atrás: su asistente Siri a finales de este año podrá empezar a operar a través de su deseado altavoz inteligente, el HomePod. Este altavoz, a diferencia de otros que ya están en circulación, traerá una calidad acústica muchísimo más alta, por lo que en cuanto a dispositivo será un gran “rival”. Sí que es cierto que Siri se tendrá que poner las pilas para poder alcanzar el nivel del Machine Learning y toda la data con la que cuenta Google a través de sus búsquedas.
La gran pregunta: ¿cuándo podremos hacer Paid Voice Search?
A medida que las búsquedas por voz vayan predominando, la monetización de estas se convertirá en una realidad. A día de hoy las búsquedas por voz son mayoritariamente informativas pero es muy probable que más adelante aumenten las búsquedas comerciales; es cuestión de tiempo que los usuarios se vayan sintiendo cada vez más cómodos con los asistentes.
En cuanto a la ética de este nuevo sistema, hay muchas consideraciones alrededor de la visibilidad de los anuncios (ad visibility) donde asistentes como Alexa y Siri dibujan una línea entre lo que es una “recomendación” y una “promoción”, y cómo de visibles deben ser estas para los usuarios.
El hecho de que las búsquedas por voz se pueden realizar prácticamente en cualquier situación, y de que estas sean procesadas por un sistema de inteligencia artificial que aprende de nuestros hábitos para ejecutar nuestras solicitudes (los conoce), las hace ser potencialmente más invasivas que las búsquedas realizadas a través de un teclado.
Foco en Términos Longtail
A nivel del análisis de los términos de búsqueda por voz, para poder adaptarse a la nueva tendencia, los anunciantes tienen que empezar a poner el foco en una sintaxis diferente, pasando de los términos de búsqueda truncados a consultas de búsqueda más conversacionales con palabras clave que abarquen las consultas más longtail. Muestra de ello quizá sea el hecho de que Google haya modificado su concordancia exacta, haciéndola más flexible a los posibles términos de búsqueda realizados por voz.
Por ello, tendremos que estar más atentos a los Search Query Reports, vigilando de cerca la evolución de las búsquedas longtail, para poder adaptarnos a los cambios en las tendencias de búsqueda de los usuarios que se puedan dar debido al uso de estos asistentes.
Anuncios Tipo Radio-TV
En abril de este año, el dispositivo Google Home ya testeó la forma de adaptar anuncios a la búsqueda por voz. Este test consistía en terminar las respuestas que daba a las búsquedas de sus usuarios con preguntas que les invitaban a llevar a cabo una llamada a la acción.
Por ejemplo, alguien que al preguntar por la nueva película de La Bella y la Bestia, recibiese al final de la respuesta del asistente una frase del tipo: “Por cierto, la Bella y la Bestia se estrena hoy”.
La ética de este tipo de prácticas es debatible, pero sin duda abrirá la posibilidad de lanzar anuncios como los de la radio, dirigidos y personalizados además para una audiencia concreta que haya mostrado alguna intención en su búsqueda.
La gran diferencia en cuanto a formato entre los resultados de búsqueda por voz y los vistos en la SERP a través una pantalla, es que mediante en estas últimas, nuestros ojos pueden saltar por encima de los anuncios en cuestión de milisegundos, en las búsquedas por voz se tendría que esperar algunos segundos hasta que acabase un solo anuncio (como ocurre con la publicidad en la TV o la radio).
Realidad Virtual y Aumentada: una buena solución
Al igual que los humanos somos capaces de pronunciar las palabras 3 veces más rápido de lo que las escribimos, el cerebro humano es capaz de procesar imágenes completas en 13 milésimas de segundo.
Se estima que a finales de esta década habrá más de 20.000 millones de dispositivos de todo tipo conectados (IoT), por lo que se espera que muchísimos más usuarios interactúen mediante voz en vez de usar una pantalla.
El problema principal radica en que seguimos necesitando las pantallas para poder procesar las grandes cantidades de información que no podríamos asimilar mediante la voz de los asistentes.
La alternativa más probable a esta situación sería la proyección de pantallas de realidad virtual y aumentada, que permitan a los usuarios visualizar los productos o servicios que esté buscando sin tener que tocar un ratón o cualquier tipo de pantalla a través de comandos de voz (Voice Speech Recognition).
Por esta razón, no sería de extrañar que a la oleada de altavoces inteligentes le siguiese otra de gafas de realidad virtual o aumentada.
Fuente: Venture Beat, Jordan Novet – Datos: Oculus incluye una beta de Voice Speech Recognition en sus Oculus Rift de Realidad Virtual (marzo 2017)