A propósito del Humane AI Pin

(Soy yo, lo sabe quien ha leído alguna vez este blog, de paréntesis largos. Como este. Pero hoy me disculpo especialmente, porque se me ha ido la mano con ellos. Quizá algún día edite la entrada para eliminarlos o reducirlos (o no, más probablemente (sí, en esta casa anidamos paréntesis por encima de nuestras posibilidades)), pero tenía yo prisa por darle a publicar. Pues eso. Que mis disculpas.)

Esta es la semana que pasará a la historia de la electrónica de consumo como la de las críticas del Humane AI Pin, uno de esos cacharritos que se anuncian como una revolución. Yo no he pasado de la crítica de The Verge, «not even close» (vídeo aquí abajo), pero el titular de la de Engadget tampoco está mal: The Humane AI Pin is the solution to none of technology’s problems. No parece una gran revolución.

No sé en Engadget, pero en The Verge no dejan de preguntarse por las potencialidades revolucionarias de la cosa: un dispositivo con una cámara, un asistente de voz ligado a una IA generativa y multimodal (o sin la IA generativa, que hay muchas cosas a las que se les puede dar respuesta sin ChatGPT y similares) que es capaz (vale: debería serlo) de entenderte (algún día deberíamos definir qué entendemos por «entender») y explicarte qué tienes delante… sí debería ser una resolución. Una curiosidad que comparto y… no entiendo por qué no tenemos ya respondida de mejor manera.

Planteémonoslo. Lo que queremos es, si no lo leo mal, una manera mejor de interactuar con Google / Apple / Microsoft / Amazon / Facebook / otros, por un lado, y con nuestro entorno más cercano, por el otro. Y digo «mejor» porque ahora ya lo hacemos todos de la misma manera. Cierto es que es un peñazo sacar ese paralelepípedo presuntamente smart del bolsillo para añadir algo a la lista de tareas pendientes, o para ver la última notificación que nos ha disparado la aplicación de turno. Más cierto aún es que hacerle una foto al menú en checo y traducirlo, aunque sea la hostia, no es la experiencia de usuario más amigable del mundo. También parece, eso sí, que esas maneras de hacer funcionan (o funcionan mucho más que el dichoso Pin, al menos).

Pero… hoy en día la cantidad de gente que llevamos los auriculares puestos casi todo el santo día, o algo en la muñeca con una pantallita y conectado al móvil, y con una cierta frecuencia ambas cosas a la vez, somos multitud. Vamos, que tenemos otras maneras de recibir información del móvil, más a mano que el propio móvil.

Por otro lado, cuando hace unos meses salió la segunda versión de «las Raybans de Facebook» (hasta aquí comentamos el tema, aunque centrándonos en las utilidades olvidadas que debería tener un cacharro así para hacer el mundo más accesible a las personas con discapacidad visual) a casi todo el mundo le sorprendió lo amigable que podía ser llevar unas gafas con una cámara, lo relativamente poco que molesta a la gente del entorno esa cámara usada con moderación (un obturador físico, como el de algunas webcams, tampoco estaría de más, opino) y también era práctico (en esto se hizo menos énfasis del que a mí me parece adecuado) llevar un micro muy cerca de la boca… Vamos, que las dichosas gafas apuntan a una buena manera de ver lo que vemos y de escuchar lo que (les) decimos, a poder ser solo con nuestro permiso y respetando nuestra privacidad, pero no nos metamos en ese berenjenal ahora.

Y, por tanto, ¿por qué queremos sustituir al móvil cuando lo que queremos es sacarlo menos del bols(ill)o y ya llevamos múltiples dispositivos encima que parecen adecuados para ello? Si no necesitamos una grandísima resolución, la cámara del Humane AI Pin ya la podríamos tener en las gafas (y si nos hace falta más, entonces sí valdrá la pena sacar el móvil con sus trescientas ópticas), y su punto de vista sería mucho más cercano al nuestro. Podemos añadir que si el móvil ya sabe dónde estamos con muchísima precisión, con unas gafas, aun sin cámara, saber qué es lo que estamos mirando, cuando tienes una brújula y un sensor de orientación, se antoja bastante fácil. Y los micrófonos en las gafas deberían ser capaces no solo de escucharnos a nosotros, sino de ser direccionales y escuchar especialmente bien a la persona a la que estamos mirando. Y la interfaz sencilla para interactuar con el agente que sea la llevamos en la muñeca (mirad el vídeo para ver qué «solución» propone Humane, que no tengo el cuerpo para ponerme con eso). Esa misma cosa que llevamos en la muñeca nos puede mostrar visualmente informaciones breves, que se pueden complementar con audio en los auriculares…

La capa de software tampoco parece tan difícil si tienes a mano el asistente de Google, Alexa o Siri (hasta podemos aceptar en la lista a Bixby), o un modelo grande de lenguaje, a poder ser multimodal.

Y, sin embargo, nadie ha hecho un Humane AI Pin sin el Humane AI Pin, ni parece que nadie esté diciendo que «está en ello». Mí no entender.

(Estoy convencido de que como mínimo en Facebook, en Meta y en Apple hay gente que ha hecho el mismo proceso mental que yo… y ha descartado trabajar en ello por motivos de peso. Me encantaría conocerlos.)

Comparte este/a entrada

Deja una respuesta