miércoles, 29 de diciembre de 2010

World Lens: de la realidad aumentada a la singularidad en tres cómodos pasos

Hace un par de semanas la blogosfera se volvió loca por una app de iPhone llamada World Lens. Mi corazoncito de fandroid me hace dudar si se volvió loca porque se trataba de una app para el iPijada, pero eso no importa ahora. Tampoco importa que falle más que una escopeta de feria, lo realmente increíble es que acierte aunque sea de casualidad.

Antes de continuar, un vídeo informativo para ponernos en situación:


Como vemos, World Lens muestra en la pantalla la traducción de un texto respetando su contexto. Esto se dice pronto, pero es poco menos que magia. Repasemos qué procesos tiene que completar esta app para mostrarnos resultados.
En primer lugar, captura una imagen en movimiento y distingue entre texto y su contexto. Google Goggles, que ya cubrí con antelación, solo capta imágenes fijas, además de desprenderlas de su fondo. Después de detectar qué es texto, reconoce los caracteres individuales (OCR). A continuación, pasa el texto reconocido por un motor de traducción automática. Finalmente, y aquí está la gracia, utiliza técnicas de realidad aumentada y disminuida para reemplazar una imagen del mundo real en la pantalla del iPhone.

Este tipo de aplicaciones lingüísticas se basan en la arquitectura de tuberías para cumplir su objetivo. Por ejemplo, la salida (=el producto) de la subaplicación que separa el texto de su fondo, es decir, el texto en sí, es la entrada (=la materia prima) de la subaplicación que reconoce los caracteres individuales del texto. La salida de esta es la entrada de la subaplicación que reconoce oraciones. A su vez, la salida de esta última, es decir, el texto segmentado, se alimenta a la subaplicación que tiene el motor de traducción automática. Para resumir, en una tubería la salida del primero es la entrada del segundo y así sucesivamente. La desventaja intrínseca de las tuberías es que la salida solo puede aspirar a ser tan buena como la entrada, con lo que a menudo la calidad degenera con cada nueva tubería. Es decir, si el texto se reconoce mal, el motor de traducción automática se lía.

Pero, ¿qué es eso de la realidad aumentada y disminuida?

Ejemplo(s) de realidad aumentada:

Ejemplo de realidad disminuida:

Como vemos, la realidad aumentada añade elementos virtuales en una pantalla a una captura en movimiento del mundo real, mientras que la realidad disminuida los elimina en la pantalla. Hay muchas aplicaciones prácticas para la primera: capas de etiquetas con información turística o de servicios para moverse por ciudades, videojuegos con mascotas virtuales (o rol en vivo), libros educativos que saltan de las páginas, diseño industrial o incluso ligar mientras paseas por Shibuya (¡!). La realidad disminuida, una simple variación de la aumentada, es una idea más reciente y todavía no tiene muchas aplicaciones. En cualquier caso, es una tecnología muy versátil, limitada por la imaginación del diseñador y por la adopción de las masas.

Como puede verse en el primer vídeo, la calidad de la traducción en sí es horrible. Sin embargo, la calidad no deja de ser un detalle menor en este caso. La estructura de la aplicación ya está hecha, ahora solo queda mejorar las partes. Tendrán que mejorar la detección de oraciones cuando el texto típico de uso no usa puntos y está en mayúsculas (carteles, anuncios, etc). Si usa un motor de SMT, es cuestión de alimentarlo con más corpora y hacer ajustes en su modelo lingüístico. Es cuestión de tiempo que World Lens (u otra app similar) sea útil de verdad para no perderse haciendo turismo por ahí. Imaginaos una guía turística que integre una guía de conversación / intérprete en tiempo real con un traductor visual de realidad aumentada. Con que fuera "suficientemente bueno" para hacerse entender ya sería toda una revolución. Además, World Lens se ejecuta en local, sin utilizar la potencia ni el almacenamiento de la nube, por lo que podemos viajar tranquilamente con él sin que nos sablen las telefónicas con el roaming de datos.

Como dicen en Global Watchtower, la tecnología de World Lens podría reciclarse para crear un Google Translate más potente que pueda tratar texto "oculto" o "protegido". Por ejemplo, texto dentro de imágenes, de animaciones Flash, de multimedia, etc. Si se puede capturar como imagen, se puede traducir.

Dentro de unos años, la tecnología de World Lens, y de los teléfonos inteligentes en general, podría integrarse en unas gafas cyberpunk megachulas. Nada de gafas cantonas gigantes tipo cine 3D, no. Unas gafas normales y corrientes que se conectan a Internet, reproducen contenido multimedia, son nuestro asistente personal y nos introducen en un mundo de realidad aumentada cuasi real. Y dentro de unos años más, un chip en el cerebro que integrará los cinco sentidos y que nos lo pondrá difícil para distinguir la realidad real de nuestra propia realidad creando un exocórtex del copón y aumentando nuestro wetware hasta límites insospechados. Avanzamos unos años más y podremos subir nuestra conciencia a la nube (la singularidad friki), dejando atrás nuestros anticuados cuerpos de carbono por una existencia más perfecta en un mundo platónico que se amolda a nuestros deseos. ¿Y por qué no? ¿Quién habría pensado hace cincuenta años en las maravillas tecnológicas que hoy damos por sentadas? Como decía Clarke, "Cualquier tecnología lo suficientemente avanzada es indistinguible de la magia".

Va a ser divertido vivir el futuro. Igual me quedo obsoleto como traductor, pero ¿y las maravillas que voy a ver?

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.