The internet is splitting apart. The Internet Archive wants to save it all forever.

The Internet Archive has grand ambitions for preserving the internet. But in order to do that, Big Tech has to stay out of the way.

https://www.protocol.com/internet-archive-preserving-future

Al primer bibliotecario de Internet le gusta recordar. Los inicios de Internet son como una fantasía para el fundador del Archivo de Internet, un lugar al que vuelve una y otra vez en las conversaciones cuando las preguntas sobre el presente se vuelven oscuras o deprimentes. Puede que Brewster Kahle sepa más que nadie sobre los primeros años de la web.

Hoy en día tiene ocasión de hablar de los inicios del Archivo quizás más de lo que debería. Discutir su futuro puede ser a veces sombrío o, como mínimo, incierto. Las glorias de la Wayback Machine, los petabytes de datos que capturan cada día de la existencia humana en línea en almacenes dispersos por todo el mundo, el suave sistema de rastreadores que marchan desde mi Twitter hasta la página de inicio del gobierno ruso y el Clubhouse en China – en el gran esquema de la historia, todo esto podría ser una efímera edad de oro.

La llamada balcanización de Internet no es sólo un problema teórico para el Archivo de Internet. Si los cortafuegos de Internet se mantienen en China, Irán y Rusia, los nuevos contenidos siguen moviéndose mayoritariamente detrás de los muros de pago y las contraseñas, y los líderes políticos de Estados Unidos deciden que por fin ha llegado el momento de eliminar la Sección 230, los rastreadores cuyas sencillas fórmulas han preservado las últimas décadas para los futuros historiadores podrían no hacer lo mismo durante más de las próximas décadas.

“Cada vez hay más jardines amurallados a los que no se puede ir. Tenemos rastreadores que van a una escala loca, y se pueden bloquear como se puede bloquear a cualquiera”, dijo Jefferson Bailey, director de archivo web y servicios de datos del Archivo.

Pero aún así, hasta que alguien o algo cambie fundamentalmente las reglas de la web, el Archivo de Internet seguirá haciendo lo que lleva haciendo desde 1996: preservar cada fragmento de texto que usted o yo podamos leer. Puede que los jardines amurallados de la tecnología dificulten la obtención de una imagen perfecta, pero el pequeño equipo de bibliotecarios, archiveros digitales e ingenieros de software del Internet Archive planea seguir trayendo al mundo la Wayback Machine, la Open Library, el Software Archive, etc., hasta el fin de los tiempos. Literalmente.

La balcanización de Internet

Cuando Kahle estudiaba en el MIT a principios de los 80, utilizó la identificación de un profesor para entrar en la biblioteca de Derecho de Harvard y acceder a casos para un proyecto. Si hubo un momento en su vida que encapsuló la naturaleza cerrada del acceso a la información antes de Internet, fue ese.

Pero hoy en día, cualquiera puede encontrar la información que él necesitaba entonces sin ni siquiera tener el carné de la biblioteca. “Normalmente, las cosas están muy cerradas y bloqueadas. Históricamente, este es un momento muy raro”, dijo.

Sin embargo, eso podría cambiar pronto. “¿Corremos el riesgo de bloquearnos? Sí, absolutamente”, dijo. El Archivo de Internet está actualmente bloqueado en China, y ocasionalmente también en Rusia, India y Turquía, y eso es sólo por el capricho de los gobiernos de los estados-nación que tienen las herramientas para hacerlo. Según Kahle y Bailey, las empresas son igual de capaces de fracturar la web de forma que se dificulte el acceso y el archivo; incluso el “bloqueo del usuario” a un navegador y unos productos específicos podría crear algún día burbujas de Internet, y luego muros, basados en los productos que la gente paga.

“Los Facebooks y los Googles están tomando el control, y quieren ganar dinero”, dijo Bailey. Cuanto más actúe la gente en Internet detrás de una contraseña y más se convierta la web en algo corporativo, más se desvanecerá el espíritu de la Internet abierta de la conciencia pública, facilitando el camino hacia esa escisión que teme Kahle.

“Es una preocupación estratégica para todos. Por supuesto, también influye en el archivo”, dijo Bailey. El archivo hace todo lo posible por capturar Twitter, Tumblr, Instagram, YouTube, Vimeo, Facebook y otros. Facebook es el más difícil, porque la empresa es poco amiga de los archivos en general, según Bailey. Pero en realidad, si alguna de estas empresas sociales decidiera impedir que el Archivo de Internet hiciera su trabajo, probablemente podría hacerlo, dijo.

“Estamos integrados en la comunidad”, dijo Bailey. “A fin de cuentas, sólo somos una biblioteca”.

Kahle teme que el eventual “amurallamiento” de Internet se desarrolle en un lugar incongruente: desde las empresas tecnológicas deseosas de una regulación que cimiente su propio estatus ahogando la futura innovación. Por ejemplo, según Kahle, casi cualquier propuesta de cambio de la Sección 230 -que protege a los propietarios de sitios web de la responsabilidad legal por los contenidos creados y publicados por sus usuarios- destruiría el delicado marco legal que protege el trabajo de Internet Archive (así como Wikipedia y los proyectos aportados por los usuarios). Mark Zuckerberg, de Facebook, es uno de los muchos líderes tecnológicos que han expresado su apoyo a la revisión.

Y las empresas tecnológicas, los editores de libros e incluso la industria musical han presionado para limitar, cambiar o incluso eliminar las excepciones generales de uso justo de los derechos de autor, así como las exenciones específicas de derechos de autor y uso para las bibliotecas. Los cambios en estas leyes podrían (de forma accidental o intencionada, según a quién se le pregunte) dificultar mucho más que la gente comparta su trabajo creativo en línea, y que grupos como el Archivo de Internet lo salven.

“¿Por qué hacen esto? Algunos dicen que es por dinero. Pero cuando hay oligarquías, en realidad se trata de protegerse contra los nuevos participantes en el mercado”, dijo Kahle. Al fin y al cabo, las grandes empresas se han adaptado a los regímenes legales actuales, y tienen el dinero y los conocimientos técnicos para poder abogar por una normativa más estricta que les permita preservar sus monopolios al tiempo que cambian o limitan las protecciones del uso justo.

¿Cómo decide el Archivo de Internet qué archivar?

Hasta el día en que estos problemas más existenciales se conviertan en algo contra lo que Kahle pueda luchar con algo más que palabras, la lucha diaria del Archivo de Internet es preservar la web constantemente transitoria. Las páginas web tienen una vida media de unos 90 días antes de que cambien o desaparezcan, por lo que el Archivo necesita capturar esas páginas como mínimo cada 90 días para preservar una imagen completa de la web a lo largo del tiempo.

Los archiveros emplean tres estrategias principales para capturar la mayor parte de lo que podría ser importante para los futuros historiadores. Bailey no podría adivinar exactamente qué porcentaje de la web consiguen preservar – “quedaría como un idiota”, dijo- porque nadie puede realmente adivinar el tamaño o la escala de Internet. (No te pongas a pensar en ello, si puedes evitarlo. ¿Cómo se puede medir: por el tamaño de los datos? ¿Número de objetos? ¿Número de URLs distintas?) “No sirve de nada angustiarse por lo que está fuera de tu control”, dice.

Los archiveros empiezan por considerar la totalidad de la web y buscar la fracción más importante. Capturan un esquema superficial de todo Internet (cada URL y página de inicio asociada que sea accesible), y luego profundizan en el mayor número posible de páginas de los 5 millones de sitios web más visitados, aproximadamente. Esto crea una visión bastante plana, a vista de pájaro, de Internet.

Para obtener una imagen más tridimensional, buscan otras señales de importancia, que van desde los agregadores de noticias hasta la totalidad de un dominio nacional (como Cuba, Francia, Somalia, etc.) cuando hay un acontecimiento importante, e incluso cada una de las URL de YouTube que se han compartido en Twitter (no pueden captar todo YouTube, pero al menos pueden captar los vídeos que la gente considera lo suficientemente importantes como para compartirlos en otros lugares).

Y, por último, otras instituciones pueden utilizar el Internet Archive para crear sus propios servicios de archivo, normalmente creando colecciones especializadas en torno a temas como los derechos humanos o la bioingeniería. Todas estas colecciones se copian en la Wayback Machine, que es la versión de acceso público del archivo web.

Abbie Grotke, jefa del equipo de archivo web de la Biblioteca del Congreso, lleva más de 20 años participando en este trabajo de una forma u otra. El propio archivo de la Biblioteca del Congreso es una de las colecciones especiales creadas en colaboración con Bailey, y contiene unos 2,4 petabytes y más de 18.000 millones de objetos, que van desde los sitios web del gobierno de Estados Unidos hasta los memes más importantes desde el punto de vista cultural. Grotke ha dedicado su vida a preservar Internet para la Biblioteca del Congreso.

El trabajo en sí es técnicamente una tarea enorme, pero se reduce a un simple objetivo. “Sólo tratamos de captar los cambios a lo largo del tiempo”, dijo.

El futuro de nuestras historias

Cuando le pregunté a Kahle cómo pensaba en preservar el presente para los historiadores a siglos de distancia, se puso filosófico. Envió enlaces en el chat de Zoom, primero al documento de Google de un libro que escribió, luego a un artículo de Nation, y después a un largo artículo de blog que escribió en 2015. Para cuando colgamos la llamada, yo tenía montones de material de lectura, la mayoría de ellos densos, la mayoría de ellos antiguos.

Toda esta historia tiene su valor, me dijo. “Lo que podemos hacer ahora es conocer tu historia individual. Podemos llegar a la especificidad del registro histórico. Lo que creo que va a ser realmente atractivo dentro de 100 años”. ¿Qué darías por un vídeo de tu bisabuela? Te daría este lastre, te daría un anclaje, del que ahora mismo carecemos”, dijo. “Vivimos en un presente perpetuo, y eso es peligroso”. Kahle cree que nuestra historia nos hace mejores personas y nos da mejores conocimientos. Pero la historia no es económicamente lucrativa.

Las empresas de redes sociales quieren que nos centremos en el mañana, no en las publicaciones que hicimos hace un año. Las editoriales también. HarperCollins ha demandado al archivo para intentar evitar que comparta libros agotados en su biblioteca digital, argumentando que compartir públicamente libros agotados es una violación masiva de las leyes de derechos de autor. Aunque al principio pueda parecer extraño que las editoriales se preocupen por libros que ya no se imprimen, para las empresas cuyo negocio depende de que la gente compre cosas nuevas, archivar para que la gente pueda centrarse en el pasado no les interesa económicamente.

“Están borrando el pasado por todos los medios legales y políticos que pueden”, dijo Kahle.

Si se puede evitar la balcanización de Internet, el Archivo de Internet podría transformar la forma en que aprendemos sobre grandes momentos históricos, dijo Kahle. Los libros de historia y los historiadores se limitan a unas pocas obras textuales, en su mayoría de personas poderosas de la época. Con el Archivo de Internet, la historia cotidiana será de repente accesible a quienes estudian nuestra época. Imagínese que cada uno de nosotros pudiera echar la vista atrás a nuestros bisabuelos y saber lo que decían o pensaban a los 15 años, y luego a los 25, y a los 50. El Archivo lo permitiría.

El Archivo también podría obligar a los historiadores a convertirse en mineros de datos profesionales. “En el futuro habrá muchos de estos estudios de comparación a una escala mucho mayor: cada tuit de cada presidente en 30 años. El análisis longitudinal podría hacerse con petabytes de datos”, dijo Bailey. Es posible que las preguntas de la investigación en sí mismas no cambien mucho; simplemente se extenderán a lo largo de plazos más amplios y comparaciones más grandes.

“Estamos construyendo macroscopios”, dijo Kahle.

Atrapados en una época dorada

Más de un millón de personas utilizan cada día el Archivo de Internet. La mayoría busca la Wayback Machine, pero también se leen los libros digitalizados de la biblioteca abierta del archivo o se ven películas del enorme archivo de películas de dominio público.

“Nos encantan los soñadores, la gente que viene a este nuevo medio con sus ideas. Los sueños son importantes para el archivo, pase lo que pase”, afirma Kahle. A pesar de las amenazas existenciales a su trabajo y a los valores de la Internet abierta, Kahle quiere ser optimista.

“Los que quieren monopolizar Internet están muy bien financiados. Tenemos que comunicar y transmitir el valor de la apertura. ¿Soy optimista de que podemos hacerlo? Yo diría que sí. Pero se basa en que hay un enorme número de personas que quieren que suceda”, dijo.

“Algunos creen que la gente sólo hará cosas si les pagas, otros que la gente es simplemente una oveja”, dijo Kahle. “Nada de eso es cierto. Puede que no les interesen las mismas cosas, pero cuando vemos lo que la gente produce en Internet, si se trata de las cosas que les interesan… Te demostrarán que estás equivocado en un nanosegundo”.

Fuentes: