Trabajos

La necesaria transformación de los archivos históricos

La necesaria transformación de los archivos históricos no pasa por la implantación de herramientas más o menos tecnológicas, va más allá, mucho más allá. La transformación es de hecho una adaptación al cambio cultural que ha experimentado la sociedad en la última década. El usuario de hoy y el del mañana tiene una estructura mental de recuperación de datos modificada y adaptada con el uso de herramientas informáticas. En resumen: los usuarios quieren Google.

Alan CAPELLADES RIERA

Archivero del Arxiu Comarcal del Vallès

Occidental – Arxiu Històric de Terrassa

@AlanCapellades

El Consultor de los Ayuntamientos, Nº 7, Sección Especial / Artículos, Quincena del 15 al 29 Abr. 2017, Ref. 1005/2017, pág. 1005, Editorial Wolters Kluwer

I. Introducción

Habitualmente se utiliza un concepto cuando se habla de los archivos históricos ante la Era Digital: apertura. ¿Apertura? ¿Estamos dando a entender que los archivos históricos están cerrados, son inaccesibles? En absoluto. Cuando se habla de apertura ante la Era Digital se habla especialmente de la utilización de las Tecnologías de la Información y la Comunicación: preservación digital a largo plazo, acceso por Internet, gestión de bases de datos, digitalización, visión por computadora, minería de datos, lenguaje semántico.

Pero quedarse con la mera descripción de las tecnologías que podrían aplicarse a los archivos históricos es superficial. Deberíamos fijarnos en el cambio cultural donde nos encontramos. Tal vez comparable al cambio de cultura administrativa que exige la Administración Electrónica, pero con un matiz, el cambio cultural del que hablamos ya está hecho y superado.

La necesaria transformación de los archivos históricos no pasa por la implantación de herramientas más o menos tecnológicas, va más allá, mucho más allá. La transformación es de hecho una adaptación al cambio cultural que ha experimentado la sociedad en la última década. Muchos me entenderán con este ejemplo. Los usuarios buscan respuestas en menos de un micro segundo, y con varias opciones ordenadas según su relevancia. En resumen: los usuarios quieren Google. Hoy en día no ofrecer resultados de búsqueda parecidos a esto es un fracaso. Me explico: el usuario de hoy y el del mañana tiene una estructura mental de recuperación de datos modificada y adaptada con el uso de herramientas informáticas, por eso los estudiantes de primaria y secundaria tienen dificultades para saber cómo  recuperar información de un diccionario. Buscan una celda donde aplicar su criterio de búsqueda y un botón. El riesgo es aún mayor cuando nos fijamos por donde circula la preservación digital, absolutamente desvinculada de la gestión documental, y de sus centros especializados, los archivos. El rumbo puede llevarnos a una paradoja, la llamada brecha digital, un punto de inflexión donde los archivos en papel, especialmente los archivos históricos, quedarán como museos, y no como centros de acceso de información fiable y auténtica, puesto que los usuarios no sabrán recuperar la información que buscan.

Los archivos históricos hoy en día se esfuerzan en comunicar con el lenguaje que entiende el usuario, si no lo hablamos éste se irá. Pero tranquilos, volverá, seguimos siendo la única fuente de autenticidad informativa. Volverán... si nos preparamos antes, claro.

A continuación expondremos algunas líneas de trabajo que deberíamos atender para mostrar el valor añadido que pueden aportar los archivos históricos en la Sociedad del Conocimiento: la reformulación del concepto patrimonio documental, la integración de los archivos históricos como una pieza más de los Sistemas de Gestión Documental, la modificación de las políticas de difusión

Para mejorar la gestión y afrontar la preservación de la documentación electrónica es necesario reformular la definición de patrimonio documental mediante digitalizaciones masivas, potenciar el acceso a los documentos históricos mediante la datificación y la modernización de los portales on line, la aplicación de ontologías para facilitar la recuperación de documentos históricos, y por último, ser el estadio final del Big Data con la participación de empresas y profesionales de la ingeniaría informática.

II. El archivo histórico y el patrimonio documental

Los archivos históricos, tal y como los define la legislación actual son los centros que se encargan del patrimonio histórico documental. La LEY 16/1985 del Patrimoni Històrico Español estipula cuatro vías distintas para considerar un documento susceptible de formar parte del patrimonio documental:

• Documentos generados en las Administraciones Públicas

• Documentos de más de 40 años generados por entidades privadas de interés (políticas, religiosas, educativas, sindicales)

• Documentos de más de 100 años de cualquier otra entidad

• Documentos declarados como patrimonio histórico sin alcanzar la antigüedad apuntada.

La Ley 16/1985 no incluye de modo explícito los documentos electrónicos como elementos susceptibles de formar parte del patrimonio documental, aunque tampoco la excluye.

Debemos incluir la documentación electrónica dentro del patrimonio documental en la medida en que las Administraciones Públicas generan documentación electrónica. No importa la naturaleza electrónica del documento, se le da misma consideración, y en consecuencia, también se le aplica la misma carga legal. Lo que importa no es su codificación en fotones de luz, o su impresión en papel, sino el contexto donde han sido generados, su procedencia. Estos valores son preservados por centros específicos, los archivos históricos. El resto de patrimonio documental proveniente de la Administración que no llega a los archivos históricos es objeto de revisión, valoración y eliminación, según el procedimiento administrativo dictado por la Comisión Superior Calificadora de Documentos Administrativos, o sus equivalentes autonómicos, como la veterana Comissió Nacional d’Accés, Avaluació i Tria Documental.

Los archivos históricos gestionan el patrimonio documental histórico, es decir aquellos documentos con un valor informativo y probatorio relevante, como los documentos esenciales y recapitulativos puesto que son el «reflejo de la trayectoria de la administración [...] a lo largo de la historia o que en todo caso resulten altamente significativos por su valor histórico, su singular importancia o su proyección internacional». Si un documento electrónico tiene estas características debe abordarse su preservación a largo tiempo de manera inmediata, ingresándolo en un entorno estable, gestionado por un centro igualmente estable. La respuesta es clara: el archivo histórico.

Para mejorar la gestión y afrontar la preservación de la documentación electrónica es necesario reformular la definición de patrimonio documental y darle este calificativo sólo a aquellos documentos que tiene un valor histórico. ¿Tiene sentido otorgarle las mismas garantías legales a un documento que puede ser eliminado que a uno que debe conservarse a perpetuidad?

III. Los Archivos Históricos y su integración en la Gestión Documental

Los sistemas de gestión documental son el conjunto de operaciones y técnicas integradas en la gestión administrativa, basados en el análisis de la producción, la tramitación, y el valor de los documentos, que tienen como finalidad controlar de modo eficiente i sistemática la creación, recepción, mantenimiento, uso, conservación, eliminación o reutilización de los 

Los archivos históricos forman parte de los sistemas de gestión documental, y se ocupan de la documentación cuya vigencia administrativa ha finalizado. Tal y como contempla el art. 7.1 de LA LEY catalana 10/2001 de archivos y documentos:

Todas las administraciones y entidades titulares de documentos públicos deben disponer de un único sistema de gestión documental que garantice el correcto tratamiento de los documentos en las fases activa, semiactiva e inactiva y que permita cumplir con las obligaciones de transparencia. La definición incluye de modo explícito todas las fases del ciclo de vida documental, incluyendo la inactiva, que es la fase que atañe a los archivos históricos. Del mismo modo que la fase inactiva no puede desvincularse de las otras fases, el archivo histórico no puede desvincularse del resto del Sistema de Gestión Documental, debe incorporarse y aprovechar el valor añadido que aporta: su tradición, la difusión del patrimonio documental, el fomento del acceso a la información, y las estrategias de preservación a largo plazo.

Para fundamentar nuestro argumento es necesario describir brevemente el ciclo vital de los documentos, que se divide en tres fases:

• La Fase activa es período temporal por el cual un documento aún no ha finalizado su tramitación, es decir, aquellos documentos que se encuentran en las oficinas, desde la incoación del expediente o la captura del documento por parte del sistema de gestión documental.

Durante esta fase, la documentación está en movimiento, consultada constantemente, su demanda es elevada, por lo tanto, su ubicación física se halla en las mismas oficinas, en los archivos de gestión. Si la documentación es electrónica, está se hallará en los servidores de cada unidad administrativa, es decir, on line, siendo el coste mantenimiento elevado. Es posible que la ubicación de los servidores se halle en las mismas instalaciones donde se encuentran los trabajadores. Los usuarios son los trabajadores encargados de la tramitación, los responsables de unidad, o los ciudadanos, ya sea en calidad de parte o en representación de sus intereses legítimos. Sin embargo en esta fase deberíamos añadir un nuevo usuario: el usuario del portal de transparencia.

Recordamos que una cantidad nada despreciable de documentación debe publicitarse de manera proactiva en dicho portal, la cual podría hacerse en algunos casos durante la tramitación de proceso, como el de selección de personal. Los documentos de esta fase tienen como principal valor el administrativo.

• La fase semi-activa es el período posterior a la finalización de la tramitación, pero sus valores siguen totalmente vigentes, siendo su consulta menos frecuente.

Los usuarios, en esta fase son los mismos trabajadores de la institución que ha generado los documentos. También encontramos al usuario del portal de transparencia. En esta fase se aplica a los documentos la disposición marcada por las tablas de valoración, las cuales determinan su eliminación o conservación.

Es también en esta fase donde se mejora en parte su descripción e instalación, para facilitar su rápida recuperación. Los centros que reciben la documentación en fase semi-activa son los archivos administrativos, los cuales deben participar activamente en la etapa de diseño del sistema de gestión documental. En esta fase también deberíamos incluir otro tipo de centro, el archivo intermedio, la finalidad del cual es retener la documentación hasta que se pueda eliminar. Si hablamos de documentación electrónica se hallaría en servidores con un acceso regulado por el personal del archivo, con unas características concretas que primase la capacidad, pero sin perjudicar la recuperación ágil de los documentos.

En esta fase, la documentación se hallaría en servidores near line, con un coste de la transferencia de un documento electrónico es un episodio crítico, donde se puede perder información contextual, estructural o incluso de contenido mantenimiento inferior.

• La fase inactiva, momento en que la consulta de la documentación es esporádica.

En esta fase la vigencia de sus valores administrativos primarios han finalizado y sólo restan dos: el probatorio y e l informativo. La documentación inactiva se transfiere de modo definitivo al archivo histórico. En esta fase la documentación electrónica se hallaría en servidores con unos requisitos de acceso, control, y evaluación constante, propiamente un archivo digital seguro. El hecho que la consulta de la documentación electrónica inactiva sea esporádica, obliga a replantear los criterios de almacenaje de los objetos digitales. Estos no se podrían servir al usuario inmediatamente, sino con un intervalo de espera razonable. Esta modalidad de almacenaje se denomina off line, y sus costes de mantenimiento pueden ser bajos en comparación con la modalidad on line. El contenido de los documentos inactivos puede ser recapitulativo, es decir, que aglutinan de modo sumario los datos de otros documentos, como un registro de facturas, o un listado de matriculados en una escuela. Pero también puede tratarse de documentación de carácter esencial, que podríamos resumirlo del siguiente modo: son esenciales aquellos documentos que deberías guardar en caso de desastre, es decir, aquellos que justifican derechos y deberes (escrituras notariales, actas de órganos de dirección, contratos, libros de contabilidad, etc.).

A pesar de todo lo que indica el ciclo vital de los documentos no tiene sentido transferir de archivo a archivo, de sistema a sistema, si el proceso en si implica riesgos importantes.

Tengan presente que la transferencia de un documento electrónico es un episodio crítico, donde se puede perder información contextual, estructural o incluso de contenido. La documentación electrónica requiere un entorno estable, como archivo digital seguro, la gestión del cual se haría desde la última escala de su viaje, el archivo histórico. En caso contrario, imagínense la situación: decenas de terabytes de documentos electrónicos almacenados en el gestor de documentos que los vio nacer, sin discriminar su valor o su fase de ciclo vital. El coste de mantenimiento sería elevadísimo, y no estamos hablando exclusivamente de costes económicos.

Tampoco podemos olvidar un hecho fundamental. Un archivo digital debería garantizar la recuperación de los documentos electrónicos a largo plazo. El plazo es subjetivo, para un archivero un documento histórico, el documento de conservación a largo plazo, podría tener unos 30 o 50 años. No obstante, la obsolescencia tecnológica a la que están condenados los documentos electrónicos fija el largo plazo en unos 10 años.

Les invito a que hagan este ejercicio: pregúntenle a su jefe de sistemas informático cuando considera que un documento electrónico es antiguo, se sorprenderán. Responderá 5-10 años. De ahí la urgencia en la disposición de un archivo digital, tal y como remarca la disposición final séptima, que da un período de aplicación de dos años a partir de la entrada en vigor de LA LEY 39/2015. Cuanto antes se pueda disponer de un sistema de preservación digital más sencillas serán las operaciones para recuperar la información de los documentos electrónicos.

El ciclo vital de los documentos es un modelo que organizaba la documentación en papel, pero este esquema ya no es válido para la gestión de la documentación electrónica. Así pues, la documentación electrónica debería ingresarse directamente en el archivo digital, después de la finalización del documento, cuando este ya no esté sujeto a revisión o interposición de recurso. También debería hacerse lo mismo con todos aquellos documentos, información y datos que hayan sido considerados explícitamente de conservación permanente.

No obstante, la realidad es otra y la participación de los archivos históricos en los sistemas de gestión documental se limita en su mayoría al mero almacenamiento de los documentos de conservación permanente, sin participar de modo activo en la elaboración de las herramientas del sistema, o el diseño de los documentos antes de su nacimiento.

Esperemos que el marco tecnológico y el acompañamiento normativo nos ayuden a dar los pasos hacia la necesaria transformación de los archivos históricos.

IV. Experiencias y problemas alrededor de la digitalización

La digitalización es una prioridad para los archivos históricos. Dar acceso a documentos originales mediante las nuevas tecnologías es el valor añadido que ofrecen los archivos a la Sociedad del Conocimiento, la única roca de certeza en tiempos de la posverdad. Pero después de unos años de campañas masivas de digitalización hemos llegado a una encrucijada. Un momento merecido de reflexión.

La comunicación mediante la digitalización no debe vincularse a la publicación masiva de documentos o a la mera contemplación de fotografías a través de las redes sociales. Debe aportarse aquello por lo que se define a un documento de archivo: el contexto. En un documento electrónico, el contexto se consigue mediante los metadatos. Con ellos se puede reconstruir el entorno de producción, entender la finalidad por la cual fue creado. Para entendernos, ¿nos basta con un solo verso de García Lorca o necesitamos todas sus obras para entender al autor de manera adecuada? Es nuestro deber dar la oportunidad al usuario de ahondar en la institución generadora de documentos, no dejarlo en la efeméride o la anécdota, ir más allá, ofrecer datos de calidad, que no es más que ofrecer la información de contexto suficiente para garantizar la autenticidad, integridad, utilidad y fiabilidad de la información servida. Para ello es necesario tener en cuenta lo siguiente:

• La digitalización no es una finalidad, sólo un medio para facilitar el acceso y la difusión de los documentos.

• La contextualización (clasificación, ordenación y descripción) de los documentos digitalizados es el paso previo a la digitalización, no al revés.

• Las campañas de digitalización deben ejecutarse dentro de estrategias de difusión meditadas, primando la reutilización, el beneficio social, la consulta reiterada y el estado de conservación.

• La digitalización en alta resolución y en formatos aptos para la preservación tienen un coste de mantenimiento elevado a largo plazo.

Al margen de los procesos tecnológicos vinculados a la gestión de las digitalizaciones es imprescindible invertir la misma cantidad de recursos en la creación del contexto. Con la documentación born digital (cuyo nacimiento se ha dado en un entorno tecnológico) es relativamente sencillo obtener el contexto, incluso mediante procesos automáticos. Pero la documentación analógica necesita la participación humana para reconstruir el contexto, que puede traducirse en horas y horas de identificación, clasificación, ordenación y descripción. Si se ignora este hecho nos podríamos encontrar ante un desperdicio de recursos vergonzoso: millares de páginas digitalizadas, guardadas en discos duros sin ninguna posibilidad de recuperar la información que contienen, puesto que nadie ha valorado en describir previamente la documentación digitalizada. Es por este motivo que la digitalización masiva de documentos conlleva necesariamente un sistema de gestión documental que vincule el contexto de cada documento con su digitalitzación. En caso contrario puede llegar a ser suficiente un protocolo de digitalización, pero no asegura una reutilización ágil de la información, solo se trata de una medida de contención a un problema ineludible.

No podemos olvidar otro factor: la preservación digital a largo plazo las digitalizaciones de documentos de conservación permanente deben tener la consideración de masters. Deben ser preservados en sistemas estables, como el repositorio DIDAC de la Generalitat de Catalunya. Sin embargo, a pesar de disponer de un protocolo de actuación, personal cualificado y líneas de presupuestarias específicas, lo inevitable ha llegado.

En el 2014, datos oficiales, el repositorio DIDAC albergaba 133,51 terabytes, los cuales se traducían en unos 14 millones de ficheros digitales. Pero la cantidad a preservar es menor, puesto que se guardan 3 formatos diferentes de un mismo fichero (uno de preservación, uno de difusión y otro de descarga), con lo cual estaríamos hablando de unos 5 millones de páginas digitalizadas. Sin embargo a finales del 2014 aún quedaban pendientes por transferir al repositorio un 24%. No disponemos de datos exactos pero el volumen a 2017 es de tal magnitud que ha sido necesario reformular la estructura tecnológica del repositorio. Cualquier archivo o repositorio seguro digital debe contemplar la escalabilidad, es decir, prever el incremento exponencial de información que deberá almacenar. Si no lo hacemos, nos podríamos encontrar con un problema a corto plazo, la preservación del patrimonio audiovisual digital, el cual colapsará todas nuestras perspectivas si seguimos pensando en terabytes. Debemos dar el salto a los exabytes.

Paradójicamente, la memoria en disco es barata, sin embargo la disponibilidad on line de esta tiene un coste considerable difícilmente asumibles por los esqueléticos presupuestos de los archivos públicos. Es por esa razón que debemos reformular algunos criterios, como la elección del formato TIFF que representa aproximadamente el 95% del volumen. Tal vez sería conveniente cambiar de criterios y optar por formatos de preservación que sean más sostenibles.

V. ¿Cómo deberíamos organizar la preservación digital a largo plazo?

La preservación digital es una de las finalidades de un Sistema de Gestión Documental. La integración de los Archivos Históricos en estos sistemas es imprescindible para abordar eficazmente la preservación digital a largo plazo, y no teniendo como finalidad la mera conservación, sino para fomentar el acceso y la reutilización de la información a largo plazo, esa debería ser nuestra prioridad. La organización, gestión y control de un archivo electrónico único debe gestionarse desde un archivo histórico porqué cumple con las mismas funciones. El art. 17 de nos dice cuales son:

• Garantizar la autenticidad, integridad y conservación de los documentos.

• Asegurar la consulta de los documentos con independencia del tiempo transcurrido desde su emisión

• Mantener la integridad a pesar de la migración de los datos a otros formatos y soportes

• Cumplir con las medidas estipuladas por el Esquema Nacional de Seguridad: identificación de los usuarios, control de accesos, protección de los datos personales.

¿Acaso no son estas las funciones a largo plazo que ejerce un archivo histórico?

Lógicamente, sí. Si su archivo histórico de referencia dispone de reglamento verán como estas mismas funciones se pueden asociar con facilidad. De hecho, ya se apunta en alguna norma que el archivo histórico tiene la función de establecer estrategias de preservación digital, como la emulación o la migración de formatos. Sin embargo, creemos que es un error hacer partícipe al archivo histórico sólo en la selección de la estrategia de preservación cuando debería encargarse de toda preservación digital. Deberíamos añadir otra función igualmente necesaria, la necesaria integración de la preservación digital en la gestión documental. Sin embargo LA LEY 39/2015 plantea el archivo digital y sus funciones en la etapa final del documento, cuando su procedimiento está cerrado, cuando ha pasado a una fase semi-activa o inactiva. De este modo, la legislación actual da al archivo digital las características y funciones propias del siglo XIX: meros repositorios

Es un error hacer partícipe al archivo histórico sólo en la selección de la estrategia de preservación cuando debería encargarse de toda preservación digital opacos donde todo acaba, desvinculando fatídicamente de la gestión documental. De hecho ignora la existencia o la necesidad de un Sistema de Gestión Documental. Es absolutamente necesario modificar esta concepción del archivo digital, si no lo vinculamos a un centro especializado como el archivo histórico integrado dentro de un sistema de gestión documental, el archivo digital será un disco duro muy caro que a la larga no servirá para nada: sin recuperación de datos, sin contexto, sin interpretación, sin integridad, ni certeza, ni autoridad o confianza.

Los países donde los sistemas archivísticos y la gestión de documentos electrónicos son puntos estratégicos del Gobierno Abierto, gestionan y dirigen la preservación digital desde los archivos históricos, como el Reino Unido) , Estados Unidos  , Australia, Noruega, Nueva Zelanda, etc. La lista es larga, pero en España, los dos proyectos referentes de la preservación digital, ARCHIVE  y iARXIU, no son gestionados por los archivos históricos, de hecho, están desvinculados de los órganos directivos de sus respectivos Sistemas de Archivo. Eso se debe en parte a su génesis, ambos fueron creados como una solución tecnológica a problemas concretos. A pesar de la buena voluntad de sus administradores, está claro que no hay una estrategia detrás, no se plantea como una solución a largo plazo para la preservación del patrimonio documental. Debemos ser justos y apuntar que a fecha de hoy ni el Archivo Histórico Nacional ni el Arxiu Nacional de Catalunya han querido jugar un papel protagonista en la preservación digital.

Como anteriormente hemos apuntado, resignarse a un papel finalista del archivo en entornos cien por cien digitales quiere decir tener a punto una gran cantidad de datacenters, con sus gastos asociados de luz, mantenimiento, incremento exponencial de discos, etc. No hay duda que el legislador ha emulado en electrónico una percepción clásica del archivo en papel. Y no se han calibrado los importantes costes que todo ello suscitará. Con un agravante, los costes serán inevitables, porqué la unicidad que exige el archivo digital único no puede permitir que la Administración pierda su control, distribuyendo cada bit en centenares o miles de servidores de todo el mundo. Deberá pues la Administración tomar medidas para controlar de manera exclusiva el archivo digital único. Por eso el Estado ofrece la solución de adoptar sus plataformas y requisitos, ARCHIVE y el Esquema Nacional de Interoperabilidad, a las Administraciones Públicas que no puedan o no quieran adoptar tales medidas, tal y como marca la disposición adicional segunda.

Aquellas instituciones que quieran mantener su independencia y la exclusividad de su propia información se encontraran con serias dificultades a la hora de adoptar todos los requisitos que exige la norma citada. Pero tranquilos se pueden repartir los gastos entre varios socios, mancomunar los recursos y repartir la gestión, en resumen federarse. Este punto es clave pues respeta uno de los principios de la archivística moderna, el de territorialidad de los fondos documentales. Este principio iba dirigido a aquellos grandes archivos del siglo XIX y XX que por distintos motivos habían acumulado fondos de territorios distantes. Su función no es otra que respetar el contexto socioeconómico que ha creado un fondo concreto, sólo de este modo se puede valorar adecuadamente su contenido. También podríamos añadir otros factores: idioma, referencias geográficas, la identidad de los pueblos, el interés local, etc. Parece bastante lógico cuando hablamos de documentación física puesto que es necesario desplazarse para consultar los documentos.

 ¿A caso lo es también con la documentación electrónica? Efectivamente, la gestión de un archivo digital debe vincularse al territorio por los mismos motivos que debe vincularse un archivo en papel. Humildemente, como profesionales, disponemos de mayores conocimientos y mejores herramientas para tratar, recuperar, contextualizar y servir los documentos generados en un entorno conocido, cercano, por ejemplo, el de una misma provincia, que el de los de otra parte del Estado o de la Comunidad Europea. Es necesario vincular el principio de territorialidad con otros afines, como el principio de patrimonio conjunto, o incluso el de comunidad de archivo

La escritura manuscrita está siendo el último reto que deben afrontar los archivos del siglo XXI

Justamente este concepto, la comunidad de archivo es crucial para una Administración Pública basada en el Gobierno Abierto, puesto que concibe el archivo no como los documentos generados por una o varias instituciones, sino como la suma de documentos de cualquier naturaleza generados por una comunidad constituida por la gente y sus instituciones.

En resumen, y enlazando con el párrafo anterior, la federación de varias instituciones que tengan un denominador común es la alternativa. No es casual que algunos países hayan afrontado el problema de la preservación digital a largo plazo a través de un sistema federado, como CARINIANA, la Red Brasileña de Servicios de Preservación Digital.

La opción de mancomunar o federar archivos digitales con sus respectivos portales de acceso no es algo que pasa sólo en el exterior, también tenemos algunas disposiciones que apuntan en esa dirección, como la opción de obtener i difundir copias de documentos de otros archivos  , o bien la opción de adherirse al Portal de Archivos Españoles para ofrecer un acceso libre y gratuito al patrimonio documental.

VI. ¿Dónde mejorar? Los portales de acceso y la datificación

Imaginemos que disponemos todo el sistema de gestión documental montado, donde documentos born digital y los documentos digitalizados conviven en un mismo sistema, gestionados por módulos con funciones específicas: por un lado la captura, por el otro el tratamiento y enriquecimiento de los metadatos, y por último un entorno adecuado para la preservación a largo plazo. Nos falta algo, una puerta de entrada, un portal de acceso para el usuario. Es imprescindible dar acceso a la documentación pública, de hecho debería ser la única razón de ser de cualquier sistema de información.

Estamos construyendo un cuerpo jurídico robusto que contempla el control, la gestión, recuperación y intercambio de la información, pero está trágicamente centrado en el uso interno. ¿Dónde queda el servicio a la ciudadanía? Por suerte tenemos algunos ejemplos. Por un lado el celebérrimo portal de transparencia, que ofrece a cualquier ciudadano los documentos, datos e información de la publicidad activa. Pero este portal, sólo ofrece una parte ínfima de toda la información que ofrece la Administración, existen otros océanos por los que navegar. Un ejemplo los tenemos en portales de archivos, como el Portal de Archivos Españoles, el portal Arxius en Línia, y el portal Europeana. Hay muchos más, de hecho es habitual que un municipio con recursos suficientes disponga de un portal de acceso a documentación propio. Pero quiero hablar de estos por un motivo, son ejemplos de sostenibilidad: siempre han estado abiertos, evolucionando y enriqueciendo incesantemente sus bases de datos. Sería pues conveniente tomarlos de ejemplo en la medida en que un conjunto de centros de archivo que colaboran para un bien común: facilitar el acceso al patrimonio documental. Sin embargo si nos paseamos por los dos primeros ejemplos nos damos cuenta que se han quedado atrapados en el tiempo, son portales poco intuitivos, diseñados por y para los archiveros. Al margen del necesario cambio estético, deberían reformularse sus funcionalidades y pensar en aquello que necesita el ciudadano. Todo esto se ha hecho, pero por desgracia no ha sido posible por la coyuntura económica y por otra razón obvia, los recursos dedicados siempre han sido mínimos. ¿Qué alternativa planteamos? Una de ambiciosa, por supuesto. En la dimensión política y territorial que sea posible, deberían mancomunarse los recursos de las distintas Administraciones Públicas, para obtener un portal de acceso al patrimonio documental, atractivo, ameno, innovador, escalable y sostenible a largo plazo, como el proyecto Portal d’arxius de Catalunya que es la evolución necesaria de Arxius en Línia.

También deberíamos hacer una reflexión. ¿Tiene sentido mantener archivo digital y portal de acceso por separado? No, ninguno, deberían ser integrados dentro del mismo Sistema de Gestión de Documentos, recuerden, la preservación digital y el acceso a la información son vasos comunicantes. No estructuras independientes.

El siguiente paso, una vez tratado el tema del acceso y la preservación digital nos encontramos con un nuevo reto. La documentación manuscrita. ¿Es un problema? Si, lo es, y de los grandes. La escritura manuscrita está siendo el último reto que deben afrontar losarchivos del siglo XXI. Anteriormente lo habíamos mencionado, nuestro público objetivo, nuestra razón de ser, espera encontrarse con una base de datos, donde pueda teclear su criterio de búsqueda, y que los resultados remitan principalmente al contenido de los documentos. Esto está resuelto a través del OCR, pero sólo se aplica en documentos con letra impresa, principalmente aplicado en obras de creación con intencionalidad intelectual (para entendernos, libros), es decir, todo lo contrario a aquello que preserva un archivo (documentos). El documento no tiene intencionalidad intelectual, no es fruto de una publicación seriada y aunque en algunos casos su escritura sea impresa o mecanográfica, la estructuración de la información en la página raras veces es regular, obteniendo unos resultados no muy buenos por parte de un OCR. Deben aplicarse antes procesos de mejora de la imagen: detectar en qué lugar de la página se encuentra el texto, qué relación tiene con otros elementos de la página (título, subtítulo, encabezado, pfo. 1, pfo. 2), o en algunos casos eliminar los bordes y ondulaciones o rectificar las inclinaciones de las líneas.

Todo esto está superado y actualmente existen programas que aplican estas funciones. No obstante, al intentarlo con letra manuscrita, nos encontramos con unos resultados pésimos.

Por suerte disponemos de algunos centros de investigación, como el Centro de Visión por Computadora de la Universidad Autónoma de Barcelona, que participa en proyectos de datificación del patrimonio documental, como los libros de actas matrimoniales de la diocesis de Barcelona, o los padrones de habitantes del Arxiu Comarcal del Baix Llobregat.

¿Pero a qué nos referimos con datificación? Estamos hablando de una mera recuperación de la información a partir de un criterio concreto de búsqueda concreto, por ejemplo, búscame «Pepito». Éste debería ser el resultado final, pero el proceso es mucho más complejo, se requiere de una gran cantidad de recursos, y aquello que debería ser automático y puramente tecnológico esconde en realidad centenares de manos humanas. Un OCR, o mejor dicho un HTR (Handwritten Text Recognition) necesita un proceso de aprendizaje donde expertos en paleografía (lectores en documentos antiguos) deben indicar a la máquina que una P es una P y no una B. Es decir, estamos ante una herramienta automática que ha exigido unas horas de trabajo artesanal especializado. Por ejemplo, el proyecto de las actas de matrimonio Five Centuries of Marriages supuso la participación de 173 personas durante cinco años. Incluso con proyectos finalizados, los mismos investigadores del CVC nos recuerdan que cualquier reconocimiento de caracteres manuscritos necesita de la verificación de los ojos humanos, y dependiendo del documento de ojos humanos paleográficos.

El factor humano es clave para la datificación del patrimonio documental, y en ningún caso se podrá hacer con el personal actual de los archivos históricos, la mera idea me genera risa histé rica . ¿Hay alguna alternativa? Algunos optan por sistematizar la participación de centenares de personas y pasar manualmente a una base de datos los documentos históricos, como el Norwegian Historical Data Centre de la Universidad de Tromsø . Pero tenemos ejemplos menos árticos, como la datificación de los libros sacramentales del Archivo Histórico Eclesiástico de Bizkaia, o el Archivo Histórico de la Archidiócesis de Tarragona. El proyecto vizcaíno supuso tuvo éxito gracias al magnífico equipo de Anabella BARROSO, pero también gracias a la financiación pública que permitió contratar personal especializado. El segundo caso, eltarraconense, se basa en el voluntariado, donde usuarios más o menos especializados transcriben los asientos de los registros sacramentales a mediante un aplicativo on line. Elvoluntariado tiene ciertos riesgos, el primero de ellos es la calidad de las transcripciones y el segundo es la regularidad. En este tipo de proyectos, donde el voluntariado es la pieza clave, se genera una dinámica concreta: primeramente se registran una gran cantidad de usuarios, unos participan con mucha intensidad, otros con menos asiduidad; luego los usuarios van bajando, hasta llegar a un punto donde unos pocos usuarios participan

De esta última propuesta queremos apuntar una vía de escape, el conocido como crowd  sourcing es decir, la participación telemática de personas para obtener transcripciones. No esalgo novedoso, de hecho Google Books lo ha aplicado en la transcripción de algunos libros de difícil lectura, donde el OCR convencional no obtiene buenos resultados. También lo está aplicando en la transcripción de direcciones de Google Street View. ¿Cómo lo hacen? Seguro que en algún momento de sus vidas han transcrito una imagen para darse de alta como usuario y comprobar de ese modo que no se trata usted de un robot. De hecho este proceso lo llaman recaptcha, un producto que ofrece Google a sus clientes, tú les proporcionas las imágenes a transcribir y ellos facilitan la plataforma tecnológica que lo hace posible.

¿Quién lo transcribe? Pues usted y yo cada vez que queremos acceder a un servicio gratuito de Google que requiera una verificación humana. Ahí está el negocio. Si no quieren participar en ello, les hago una propuesta, apliquen la misma estrategia pero en un entorno que la Administración Pública pueda gestionar, por ejemplo los citados portales de archivos, los catálogos de las bibliotecas o incluso la sede electrónica. Imagínense cuando se tardaría en transcribir una página si cada ciudadano tuviera que transcribir una simple palabra para acceder a un servicio público. De este modo el proceso de aprendizaje de un OCR se haría relativamente rápido, y de un modo más efectivo que el del voluntariado. La mera idea me vuelve a producir una carcajada, pero esta vez no es de histeria, es de euforia. Pero no cantaremos victoria, aún seguiríamos teniendo el problema de la calidad de las transcripciones, haría falta la revisión por parte de voluntarios o profesionales expertos. En resumen la datificación del patrimonio documental no está aún resuelta, debemos seguir experimentando y perfeccionando las herramientas disponibles.

Una vez planteados los factores clave: digitalización, preservación, acceso y datificación nos queda un elemento, la recuperación de la información. Un usuario sin experiencia ninguna en sistemas de información lanza preguntas más o menos complejas a una base de datos utilizando sus propias palabras. La respuesta que hallaría sería el silencio (ninguna resultado) o bien ruido (miles de resultados inconexos). Existe una solución: la utilización de ontologías. Recuerden que una base de datos, independientemente de su contenido, parte de una semántica concreta, que dista mucho del lenguaje natural, utilizado por los seres humanos. Las ontologías son el camino entre el lenguaje natural y el lenguaje de la base de datos, como un traductor, que interprete exactamente lo que buscas e incluso más allá, que haga sugerencias relacionadas con tus criterios de búsqueda. Algo parecido a lo que hace Amazon cuando te sugiere un producto relacionado con tus preferencias de compra.

Las ontologías pueden dividirse en dos: las ontologías ligeras y las pesadas. Las primeras se materializan en catálogos, glosarios, taxonomías, con un una explicación mínima de las relaciones entre conceptos. Las ontologías ligeras se utilizan exclusivamente para la interpretación humana. Las ontologías pesadas en cambio disponen de expresiones complejas, como axiomas, restricciones, y reglas de inferencia a partir de las cuales la inteligencia artificial pueda inferir nuevos conocimientos a partir de ejemplos. Como pueden observar, el componente tecnológico es crucial, por ese motivo no hay ejemplos específicos de aplicación de ontologías en los archivos, sin embargo se han planteado algunas reflexiones e investigaciones en el Reino Unido, Italia, e incluso en Cataluña.

VII. Los Archivos Históricos y la publicidad activa vinculada a la Transparencia

El acceso a la información pública es una práctica que lleva años aplicándose en los archivos históricos. Nuestras consultas pueden centrarse en temáticas concretas, como la genealogía, pero no podemos prever aquello que le será de interés en un futuro a un usuario. Podemos intuirlo si nos fijamos en aquello que tiene interés: relación de Administración con la ciudadanía, gestión del medio ambiente, problemáticas sociales, toma de decisiones. No es vano que cada uno de estos grupos coincida con aquellos documentos que son de conservación permanente y que por tanto acaben siendo gestionados por los archivos históricos. Tampoco es vano que estas agrupaciones también coincidan con los documentos, información y datos pertenecientes a la publicidad activa.

Sobre la publicidad activa como motor de la Transparencia de la Administración podemos ofrecer algunas cifras aproximadas sobre el impacto que podría llegar a tener. El pasado mayo de 2015 se presentó el Modelo de Madurez en Transparencia y Gestión Documental, para el cual se hizo un experimento para constatar la necesidad del modelo: adaptarlos documentos, información y datos de la publicidad activa a un cuadro de clasificación municipal. El resultado fue que de un cuadro de clasificación de unas 640 series y subseries, 217 tenían documentos de publicidad activa. Con eso queremos exponer una necesidad y una realidad, el 33,91% de la documentación municipal forma parte de la publicidad activa. Con eso no me refiero al volumen sino a la diversidad, y la diversidad es difícil de controlar. La gestión de la publicidad activa tiene que pasar por los sistemas de gestión documental para vincular los documentos originales con aquellas copias proporcionadas a los ciudadanos. ¿Si los documentos de publicidad activa son considerados de interés para la ciudadanía en general para la rendición de cuentas de la actividad pública, estos no deberían conservarse a perpetuidad por el mismo motivo? Claramente sí. Entonces, si deben conservarse de manera permanente deberían gestionarse en un entorno estable, el archivo digital, el cual serviría una copia autenticada al usuario del portal de transparencia.

No es transgresor, es lógico. Eso también permitiría al ciudadano acceder a los metadatos y indagar en quien ha generado el documento, cuando, en qué entorno, departamento, si ha sido modificado, etc. Resumiendo, permitiría al ciudadano acceder a la trazabilidad del documento, ese es el verdadero ejercicio de transparencia.

Vayamos un paso más adelante. El archivo digital está gestionando una instrucción que cumple las mismas funciones, el archivo histórico, pero hace algunas otras funciones que el archivo digital por sí mismo no hace: la difusión.

Dar a conocer los datasets del portal Open Data, o los documentos de publicidad activa del Portal de Transparencia, mediante productos divulgativos de alta calidad, en un lenguaje ameno. Para ello será necesario potenciar la participación ciudadana, fomentar la necesidad de acceder a la información pública. Eso no se consigue colgando ficheros en un portal. Es necesaria la participación ciudadana. ¿Cómo? Creando relaciones con los Observatorios Ciudadanos Municipales y otras entidades sociales locales para generar productos didácticos para todos los públicos y todas las edades. Nadie puede quedarse atrás. Estamos hablando de hacer talleres sobre cómo acceder a la información pública en escuelas, centros cívicos, institutos, universidades, y también en hogares de ancianos. La alfabetización digital no sólo pasa por cómo usar las nuevas tecnologías, también pasa por qué hacer con ellas.

VIII. El futuro: yacimientos de datos históricos y la interdisciplinariedad

El futuro de los archivos históricos no es otro que el presente, concretamente todo el capital informacional (información, datos y documentos) que la Administración Pública está generando en este mismo momento. Todo este Big Data se acumula día a día, hora a hora, minuto a minuto, bit a bit. Si conseguimos hacer realidad la interoperabilidad entre los silos de información de cada institución, tendremos un yacimiento de datos inigualable. Sin embargo, todo ello queda desaprovechado primeramente porque no hay conciencia de la magnitud, el día a día nos nubla la panorámica, no vemos en qué punto nos encontramos.

Se necesita perspectiva y un cambio de modelo de gestión de los archivos históricos.

Debemos romper las cadenas que nos atan al historicismo, dejar de tratarnos a nosotros mismos únicamente como centro de memoria, ir más allá, mirar también al futuro, y no sólo hacia el pasado.

¿Por qué deberíamos hacer tal cosa? Porqué lo que viene, el llamado Big Data, tiene unas virtudes que hasta ahora no hemos podido abordar por motivos tecnológicos. Estamos hablando de la Reutilización de la Información del Sector Público y su potencial económico. Actualmente, el Estado, tiene un volumen de negocio entre 450 y 500 millones, añadiendo los datos privados, la cifra incrementa a 1.400 millones de euros, de los cuales sólo un 2% pertenecen al ámbito cultural. Tal volumen de negocio que no pasa desapercibido, el cual seguirá creciendo ya que se siguen generando estratos de datos minuto a minuto. El caso es que el patrimonio documental, también incluye el Big Data, nace con valor probatorio e informativo, con el tiempo adquirirá el cultural. ¿Acaso sabremos abordar el Big Data si seguimos con la misma gestión patrimonialista de la información? Para hacerle frente deberemos encontrar aliados en empresas y centros de investigación de tecnología. El paso siguiente será la generación de productos de divulgación del patrimonio documental (Big Data también) con datos de calidad.

¿Los archivos históricos podremos gestionar el Big Data? Es necesario modificar la formación de los archiveros, buscar perfiles mixtos, no únicamente el binomio historiador-archivero, o el tándem bibliotecario-archivero. Necesitaremos en breve el data analyst-archivero, data controller-archivero, el programador-archivero, el informático forense-archivero. El perfil tecnológico, es ahora una necesidad, tan importante como otras disciplinas afines de la archivística (paleografía, diplomática, codicología, etc.). La necesidad vendrá dentro de pocos años, la obsolescencia programada nos conduce a marchas forzadas. Es la hora de repensar las plantillas de personal de los archivos históricos, añadir una pieza más que haga funcionar el engranaje del continuum documental. Nos jugamos mucho, y no hablo de dinero. Podríamos encontrarnos en los albores de la Edad Oscura Digital. Es la hora de la valentía, del cambio, de la necesaria transformación.