Adobe Soundbooth y el reconocimiento de voz

La realidad supera a la ficción. Incluso a la ciencia ficción. Cierto. Lo que hace diez años era una fantasía irrealizable de un guionista que se iba cien años al futuro suele palidecer con la tecnología que tenemos al alcance hoy en día. Casi siempre. Donde eso no es era cierto es en el caso de reconocimiento de voz. Tómese cualquier película ambientada veinte minutos en el futuro y contendrá, casi seguro, una secuencia en la que un humano habla con un ordenador y el ordenador le entiende perfectamente.

Todos los que nos hemos peleado con software de reconocimiento de voz (como Dragon NaturallySpeaking o IBM ViaVoice, los dos que yo he probado en algún momento de mi vida) sabemos que eso no va así. No. Al software de turno hay que entrenarlo para que se acostumbre a nuestra voz y nuestra manera de hablar. Y aún así, los errores son frecuentes, por lo que hay que revisar el texto con atención, si no queremos arriesgarnos a un gazapo de órdago.

Pues bien, parece ser que la cosa ha avanzado bastante desde la última vez que miré. Tanto, que Adobe se ha atrevido a incluir en su próxima versión de SoundBooth (beta disponible en Adobe Labs) un motor “speech to text” que busca las voces que hay en una pista de audio e intenta transcribirlas, diferenciando los diferentes oradores. Y la cuestión es que… ¡funciona! No a la perfección, ni mucho menos, pero hace un rato le he pasado un podcast, una grabación no particularmente brillante por la calidad del sonido y, aunque te deja un buen montón de trabajo por hacer (y no quiero ni pensar qué haría en presencia del ruido de un bar), la verdad es que me ha sorprendido más que gratamente. Además, aunque en la beta solo se ofrece reconocimiento en lengua inglesa, el español está incluido en la lista de idiomas para la versión definitiva. No puedo esperar a probar. Quién sabe, a lo mejor hasta aquí la realidad acaba atrapando a la ficción…