¿Qué hacer con cuatro terabytes de datos?

Impresionante lo que se puede llegar a hacer cuando uno tiene un presupuesto para desarrollos tecnológicos como el del New York Times, lo junta con unas pocas décadas de diarios que han pasado al dominio público, lo adereza con la infraestructura de almacenamiento barato de Amazon y le añade unas gotas de cloud computing, también cortesía de Amazon

Cuentan en Open, el blog sobre código abierto en el Times, cómo han tomado 70 años de archivos bibliográficos (de 1851 a 1922), que estaban repartidos en infinidad de TIFFs (y estamos hablando de una aproximación bastante razonable del infinito, por lo que cuentan: unos cuatro terabytes), los han subido a S3 y han usado EC2 (más una buena colección de código abierto) para generar once millones de PDFs (apenas un gigabyte y medio de documentos) en 24 horas…

De hecho, eso es lo que hicieron en noviembre pasado. Porque ahora, en un “más difícil todavía” de los que dan vértigo, han lanzado una herramienta web para navegar por ese mar de información: la muy impresionante TimesMachine, con la que uno puede, por ejemplo, leerse la primera página del diario anterior en cien años a su nacimiento:

Primera página del Times del 19 de septiembre de 1873

Demos gracias, pues, al código abierto, a la ley de Moore y, sobre todo, a la duración limitada del copyright y a la amplitud de miras de la gente del New York Times por algo tan maravilloso (que lamentablemente diarios centenarios de por aquí como La Vanguardia o ABC tardarán mucho en imitar, me da a mí la impresión).