La necesaria transformación de los archivos históricos no pasa por la implantación de herramientas más o menos tecnológicas, va más allá, mucho más allá. La transformación es de hecho una adaptación al cambio cultural que ha experimentado la sociedad en la última década. El usuario de hoy y el del mañana tiene una estructura mental de recuperación de datos modificada y adaptada con el uso de herramientas informáticas. En resumen: los usuarios quieren Google.
Alan CAPELLADES RIERA
Archivero del Arxiu Comarcal del
Vallès
Occidental – Arxiu Històric de
Terrassa
@AlanCapellades
El Consultor de los
Ayuntamientos, Nº 7, Sección Especial / Artículos, Quincena del 15 al 29 Abr.
2017, Ref. 1005/2017, pág. 1005, Editorial Wolters Kluwer
I. Introducción
Habitualmente se utiliza un
concepto cuando se habla de los archivos históricos ante la Era Digital:
apertura. ¿Apertura? ¿Estamos dando a entender que los archivos históricos
están cerrados, son inaccesibles? En absoluto. Cuando se habla de apertura ante
la Era Digital se habla especialmente de la utilización de las Tecnologías de
la Información y la Comunicación: preservación digital a largo plazo, acceso
por Internet, gestión de bases de datos, digitalización, visión por
computadora, minería de datos, lenguaje semántico.
Pero quedarse con la mera
descripción de las tecnologías que podrían aplicarse a los archivos históricos
es superficial. Deberíamos fijarnos en el cambio cultural donde nos encontramos.
Tal vez comparable al cambio de cultura administrativa que exige la Administración
Electrónica, pero con un matiz, el cambio cultural del que hablamos ya está hecho
y superado.
La necesaria transformación de
los archivos históricos no pasa por la implantación de herramientas más o menos
tecnológicas, va más allá, mucho más allá. La transformación es de hecho una
adaptación al cambio cultural que ha experimentado la sociedad en la última década.
Muchos me entenderán con este ejemplo. Los usuarios buscan respuestas en menos de
un micro segundo, y con varias opciones ordenadas según su relevancia. En
resumen: los usuarios quieren Google. Hoy en día no ofrecer resultados de
búsqueda parecidos a esto es un fracaso. Me explico: el usuario de hoy y el del
mañana tiene una estructura mental de recuperación de datos modificada y
adaptada con el uso de herramientas informáticas, por eso los estudiantes de
primaria y secundaria tienen dificultades para saber cómo recuperar información de un diccionario.
Buscan una celda donde aplicar su criterio de búsqueda y un botón. El riesgo es
aún mayor cuando nos fijamos por donde circula la preservación digital, absolutamente
desvinculada de la gestión documental, y de sus centros especializados, los archivos.
El rumbo puede llevarnos a una paradoja, la llamada brecha digital, un punto de
inflexión donde los archivos en papel, especialmente los archivos históricos,
quedarán como museos, y no como centros de acceso de información fiable y
auténtica, puesto que los usuarios no sabrán recuperar la información que
buscan.
Los archivos históricos hoy en
día se esfuerzan en comunicar con el lenguaje que entiende el usuario, si no lo
hablamos éste se irá. Pero tranquilos, volverá, seguimos siendo la única fuente
de autenticidad informativa. Volverán... si nos preparamos antes, claro.
A continuación expondremos
algunas líneas de trabajo que deberíamos atender para mostrar el valor añadido
que pueden aportar los archivos históricos en la Sociedad del Conocimiento: la
reformulación del concepto patrimonio documental, la integración de los
archivos históricos como una pieza más de los Sistemas de Gestión Documental,
la modificación de las políticas de difusión
Para mejorar la gestión y afrontar
la preservación de la documentación electrónica es necesario reformular la
definición de patrimonio documental mediante digitalizaciones masivas,
potenciar el acceso a los documentos históricos mediante la datificación y la
modernización de los portales on line, la aplicación de ontologías para
facilitar la recuperación de documentos históricos, y por último, ser el estadio
final del Big Data con la participación de empresas y profesionales de la
ingeniaría informática.
II. El archivo histórico y el patrimonio documental
Los archivos históricos, tal y
como los define la legislación actual son los centros que se encargan del
patrimonio histórico documental. La LEY 16/1985 del Patrimoni Històrico Español
estipula cuatro vías distintas para considerar un documento susceptible de
formar parte del patrimonio documental:
• Documentos generados en las
Administraciones Públicas
• Documentos de más de 40 años
generados por entidades privadas de interés (políticas, religiosas, educativas,
sindicales)
• Documentos de más de 100 años
de cualquier otra entidad
• Documentos declarados como
patrimonio histórico sin alcanzar la antigüedad apuntada.
La Ley 16/1985 no incluye de modo
explícito los documentos electrónicos como elementos susceptibles de formar
parte del patrimonio documental, aunque tampoco la excluye.
Debemos incluir la documentación
electrónica dentro del patrimonio documental en la medida en que las
Administraciones Públicas generan documentación electrónica. No importa la
naturaleza electrónica del documento, se le da misma consideración, y en
consecuencia, también se le aplica la misma carga legal. Lo que importa no es
su codificación en fotones de luz, o su impresión en papel, sino el contexto donde
han sido generados, su procedencia. Estos valores son preservados por centros específicos,
los archivos históricos. El resto de patrimonio documental proveniente de la Administración
que no llega a los archivos históricos es objeto de revisión, valoración y eliminación,
según el procedimiento administrativo dictado por la Comisión Superior Calificadora
de Documentos Administrativos, o sus equivalentes autonómicos, como la veterana
Comissió Nacional d’Accés, Avaluació i Tria Documental.
Los archivos históricos gestionan
el patrimonio documental histórico, es decir aquellos documentos con un valor
informativo y probatorio relevante, como los documentos esenciales y recapitulativos
puesto que son el «reflejo de la
trayectoria de la administración [...] a lo largo de la historia o que en todo
caso resulten altamente significativos por su valor histórico, su singular
importancia o su proyección internacional». Si un documento electrónico
tiene estas características debe abordarse su preservación a largo tiempo de
manera inmediata, ingresándolo en un entorno estable, gestionado por un centro
igualmente estable. La respuesta es clara: el archivo histórico.
Para mejorar la gestión y
afrontar la preservación de la documentación electrónica es necesario
reformular la definición de patrimonio documental y darle este calificativo
sólo a aquellos documentos que tiene un valor histórico. ¿Tiene sentido
otorgarle las mismas garantías legales a un documento que puede ser eliminado
que a uno que debe conservarse a perpetuidad?
III. Los Archivos Históricos y su integración en la Gestión Documental
Los sistemas de gestión
documental son el conjunto de operaciones y técnicas integradas en la gestión
administrativa, basados en el análisis de la producción, la tramitación, y el valor
de los documentos, que tienen como finalidad controlar de modo eficiente i
sistemática la creación, recepción, mantenimiento, uso, conservación,
eliminación o reutilización de los
Los archivos históricos forman
parte de los sistemas de gestión documental, y se ocupan de la documentación
cuya vigencia administrativa ha finalizado. Tal y como contempla el art. 7.1 de
LA LEY catalana 10/2001 de archivos y documentos:
Todas las administraciones y
entidades titulares de documentos públicos deben disponer de un único sistema
de gestión documental que garantice el correcto tratamiento de los documentos
en las fases activa, semiactiva e inactiva y que permita cumplir con las obligaciones
de transparencia. La definición incluye de modo explícito todas las fases del
ciclo de vida documental, incluyendo la inactiva, que es la fase que atañe a
los archivos históricos. Del mismo modo que la fase inactiva no puede
desvincularse de las otras fases, el archivo histórico no puede desvincularse
del resto del Sistema de Gestión Documental, debe incorporarse y aprovechar el
valor añadido que aporta: su tradición, la difusión del patrimonio documental,
el fomento del acceso a la información, y las estrategias de preservación a
largo plazo.
Para fundamentar nuestro
argumento es necesario describir brevemente el ciclo vital de los documentos,
que se divide en tres fases:
• La Fase activa es período
temporal por el cual un documento aún no ha finalizado su tramitación, es
decir, aquellos documentos que se encuentran en las oficinas, desde la
incoación del expediente o la captura del documento por parte del sistema de
gestión documental.
Durante esta fase, la
documentación está en movimiento, consultada constantemente, su demanda es
elevada, por lo tanto, su ubicación física se halla en las mismas oficinas, en
los archivos de gestión. Si la documentación es electrónica, está se hallará en
los servidores de cada unidad administrativa, es decir, on line, siendo el
coste mantenimiento elevado. Es posible que la ubicación de los servidores se
halle en las mismas instalaciones donde se encuentran los trabajadores. Los
usuarios son los trabajadores encargados de la tramitación, los responsables de
unidad, o los ciudadanos, ya sea en calidad de parte o en representación de sus
intereses legítimos. Sin embargo en esta fase deberíamos añadir un nuevo
usuario: el usuario del portal de transparencia.
Recordamos que una cantidad nada
despreciable de documentación debe publicitarse de manera proactiva en dicho
portal, la cual podría hacerse en algunos casos durante la tramitación de
proceso, como el de selección de personal. Los documentos de esta fase tienen
como principal valor el administrativo.
• La fase semi-activa es el
período posterior a la finalización de la tramitación, pero sus valores siguen
totalmente vigentes, siendo su consulta menos frecuente.
Los usuarios, en esta fase son
los mismos trabajadores de la institución que ha generado los documentos.
También encontramos al usuario del portal de transparencia. En esta fase se
aplica a los documentos la disposición marcada por las tablas de valoración, las
cuales determinan su eliminación o conservación.
Es también en esta fase donde se
mejora en parte su descripción e instalación, para facilitar su rápida
recuperación. Los centros que reciben la documentación en fase semi-activa son
los archivos administrativos, los cuales deben participar activamente en la
etapa de diseño del sistema de gestión documental. En esta fase también
deberíamos incluir otro tipo de centro, el archivo intermedio, la finalidad del
cual es retener la documentación hasta que se pueda eliminar. Si hablamos de
documentación electrónica se hallaría en servidores con un acceso regulado por
el personal del archivo, con unas características concretas que primase la
capacidad, pero sin perjudicar la recuperación ágil de los documentos.
En esta fase, la documentación se
hallaría en servidores near line, con un coste de la transferencia de un
documento electrónico es un episodio crítico, donde se puede perder información
contextual, estructural o incluso de contenido mantenimiento inferior.
• La fase inactiva, momento en
que la consulta de la documentación es esporádica.
En esta fase la vigencia de sus
valores administrativos primarios han finalizado y sólo restan dos: el
probatorio y e l informativo. La documentación inactiva se transfiere de modo
definitivo al archivo histórico. En esta fase la documentación electrónica se
hallaría en servidores con unos requisitos de acceso, control, y evaluación
constante, propiamente un archivo digital seguro. El hecho que la consulta de
la documentación electrónica inactiva sea esporádica, obliga a replantear los
criterios de almacenaje de los objetos digitales. Estos no se podrían servir al
usuario inmediatamente, sino con un intervalo de espera razonable. Esta modalidad
de almacenaje se denomina off line, y sus costes de mantenimiento pueden ser
bajos en comparación con la modalidad on line. El contenido de los documentos
inactivos puede ser recapitulativo, es decir, que aglutinan de modo sumario los
datos de otros documentos, como un registro de facturas, o un listado de
matriculados en una escuela. Pero también puede tratarse de documentación de
carácter esencial, que podríamos resumirlo del siguiente modo: son esenciales aquellos
documentos que deberías guardar en caso de desastre, es decir, aquellos que
justifican derechos y deberes (escrituras notariales, actas de órganos de dirección,
contratos, libros de contabilidad, etc.).
A pesar de todo lo que indica el
ciclo vital de los documentos no tiene sentido transferir de archivo a archivo,
de sistema a sistema, si el proceso en si implica riesgos importantes.
Tengan presente que la
transferencia de un documento electrónico es un episodio crítico, donde se
puede perder información contextual, estructural o incluso de contenido. La documentación
electrónica requiere un entorno estable, como archivo digital seguro, la gestión
del cual se haría desde la última escala de su viaje, el archivo histórico. En
caso contrario, imagínense la situación: decenas de terabytes de documentos
electrónicos almacenados en el gestor de documentos que los vio nacer, sin
discriminar su valor o su fase de ciclo vital. El coste de mantenimiento sería
elevadísimo, y no estamos hablando exclusivamente de costes económicos.
Tampoco podemos olvidar un hecho
fundamental. Un archivo digital debería garantizar la recuperación de los
documentos electrónicos a largo plazo. El plazo es subjetivo, para un archivero
un documento histórico, el documento de conservación a largo plazo, podría
tener unos 30 o 50 años. No obstante, la obsolescencia tecnológica a la que
están condenados los documentos electrónicos fija el largo plazo en unos 10
años.
Les invito a que hagan este
ejercicio: pregúntenle a su jefe de sistemas informático cuando considera que
un documento electrónico es antiguo, se sorprenderán. Responderá 5-10 años. De
ahí la urgencia en la disposición de un archivo digital, tal y como remarca la
disposición final séptima, que da un período de aplicación de dos años a partir
de la entrada en vigor de LA LEY 39/2015. Cuanto antes se pueda disponer de un
sistema de preservación digital más sencillas serán las operaciones para
recuperar la información de los documentos electrónicos.
El ciclo vital de los documentos
es un modelo que organizaba la documentación en papel, pero este esquema ya no
es válido para la gestión de la documentación electrónica. Así pues, la
documentación electrónica debería ingresarse directamente en el archivo
digital, después de la finalización del documento, cuando este ya no esté
sujeto a revisión o interposición de recurso. También debería hacerse lo mismo
con todos aquellos documentos, información y datos que hayan sido considerados
explícitamente de conservación permanente.
No obstante, la realidad es otra
y la participación de los archivos históricos en los sistemas de gestión
documental se limita en su mayoría al mero almacenamiento de los documentos de
conservación permanente, sin participar de modo activo en la elaboración de las
herramientas del sistema, o el diseño de los documentos antes de su nacimiento.
Esperemos que el marco
tecnológico y el acompañamiento normativo nos ayuden a dar los pasos hacia la
necesaria transformación de los archivos históricos.
IV. Experiencias y problemas alrededor de la digitalización
La digitalización es una prioridad
para los archivos históricos. Dar acceso a documentos originales mediante las
nuevas tecnologías es el valor añadido que ofrecen los archivos a la Sociedad
del Conocimiento, la única roca de certeza en tiempos de la posverdad. Pero después
de unos años de campañas masivas de digitalización hemos llegado a una encrucijada.
Un momento merecido de reflexión.
La comunicación mediante la
digitalización no debe vincularse a la publicación masiva de documentos o a la
mera contemplación de fotografías a través de las redes sociales. Debe
aportarse aquello por lo que se define a un documento de archivo: el contexto.
En un documento electrónico, el contexto se consigue mediante los metadatos.
Con ellos se puede reconstruir el entorno de producción, entender la finalidad
por la cual fue creado. Para entendernos, ¿nos basta con un solo verso de García
Lorca o necesitamos todas sus obras para entender al autor de manera adecuada?
Es nuestro deber dar la oportunidad al usuario de ahondar en la institución generadora
de documentos, no dejarlo en la efeméride o la anécdota, ir más allá, ofrecer
datos de calidad, que no es más que ofrecer la información de contexto
suficiente para garantizar la autenticidad, integridad, utilidad y fiabilidad
de la información servida. Para ello es necesario tener en cuenta lo siguiente:
• La digitalización no es una
finalidad, sólo un medio para facilitar el acceso y la difusión de los
documentos.
• La contextualización
(clasificación, ordenación y descripción) de los documentos digitalizados es el
paso previo a la digitalización, no al revés.
• Las campañas de digitalización
deben ejecutarse dentro de estrategias de difusión meditadas, primando la
reutilización, el beneficio social, la consulta reiterada y el estado de
conservación.
• La digitalización en alta
resolución y en formatos aptos para la preservación tienen un coste de
mantenimiento elevado a largo plazo.
Al margen de los procesos
tecnológicos vinculados a la gestión de las digitalizaciones es imprescindible
invertir la misma cantidad de recursos en la creación del contexto. Con la documentación
born digital (cuyo nacimiento se ha dado en un entorno tecnológico) es relativamente
sencillo obtener el contexto, incluso mediante procesos automáticos. Pero la documentación
analógica necesita la participación humana para reconstruir el contexto, que puede
traducirse en horas y horas de identificación, clasificación, ordenación y
descripción. Si se ignora este hecho nos podríamos encontrar ante un
desperdicio de recursos vergonzoso: millares de páginas digitalizadas,
guardadas en discos duros sin ninguna posibilidad de recuperar la información
que contienen, puesto que nadie ha valorado en describir previamente la
documentación digitalizada. Es por este motivo que la digitalización masiva de
documentos conlleva necesariamente un sistema de gestión documental que vincule
el contexto de cada documento con su digitalitzación. En caso contrario puede
llegar a ser suficiente un protocolo de digitalización, pero no asegura una
reutilización ágil de la información, solo se trata de una medida de contención
a un problema ineludible.
No podemos olvidar otro factor:
la preservación digital a largo plazo las digitalizaciones de documentos de
conservación permanente deben tener la consideración de masters. Deben ser preservados
en sistemas estables, como el repositorio DIDAC de la Generalitat de Catalunya.
Sin embargo, a pesar de disponer de un protocolo de actuación, personal
cualificado y líneas de presupuestarias específicas, lo inevitable ha llegado.
En el 2014, datos oficiales, el
repositorio DIDAC albergaba 133,51 terabytes, los cuales se traducían en unos
14 millones de ficheros digitales. Pero la cantidad a preservar es menor, puesto
que se guardan 3 formatos diferentes de un mismo fichero (uno de preservación,
uno de difusión y otro de descarga), con lo cual estaríamos hablando de unos 5
millones de páginas digitalizadas. Sin embargo a finales del 2014 aún quedaban
pendientes por transferir al repositorio un 24%. No disponemos de datos exactos
pero el volumen a 2017 es de tal magnitud que ha sido necesario reformular la
estructura tecnológica del repositorio. Cualquier archivo o repositorio seguro
digital debe contemplar la escalabilidad, es decir, prever el incremento
exponencial de información que deberá almacenar. Si no lo hacemos, nos
podríamos encontrar con un problema a corto plazo, la preservación del patrimonio
audiovisual digital, el cual colapsará todas nuestras perspectivas si seguimos pensando
en terabytes. Debemos dar el salto a los exabytes.
Paradójicamente, la memoria en
disco es barata, sin embargo la disponibilidad on line de esta tiene un coste
considerable difícilmente asumibles por los esqueléticos presupuestos de los
archivos públicos. Es por esa razón que debemos reformular algunos criterios,
como la elección del formato TIFF que representa aproximadamente el 95% del
volumen. Tal vez sería conveniente cambiar de criterios y optar por formatos de
preservación que sean más sostenibles.
V. ¿Cómo deberíamos organizar la preservación digital a largo plazo?
La preservación digital es una de
las finalidades de un Sistema de Gestión Documental. La integración de los
Archivos Históricos en estos sistemas es imprescindible para abordar eficazmente
la preservación digital a largo plazo, y no teniendo como finalidad la mera conservación,
sino para fomentar el acceso y la reutilización de la información a largo
plazo, esa debería ser nuestra prioridad. La organización, gestión y control de
un archivo electrónico único debe gestionarse desde un archivo histórico porqué
cumple con las mismas funciones. El art. 17 de nos dice cuales son:
• Garantizar la autenticidad,
integridad y conservación de los documentos.
• Asegurar la consulta de los
documentos con independencia del tiempo transcurrido desde su emisión
• Mantener la integridad a pesar
de la migración de los datos a otros formatos y soportes
• Cumplir con las medidas
estipuladas por el Esquema Nacional de Seguridad: identificación de los
usuarios, control de accesos, protección de los datos personales.
¿Acaso no son estas las funciones
a largo plazo que ejerce un archivo histórico?
Lógicamente, sí. Si su archivo
histórico de referencia dispone de reglamento verán como estas mismas funciones
se pueden asociar con facilidad. De hecho, ya se apunta en alguna norma que el
archivo histórico tiene la función de establecer estrategias de preservación digital,
como la emulación o la migración de formatos. Sin embargo, creemos que es un error
hacer partícipe al archivo histórico sólo en la selección de la estrategia de
preservación cuando debería encargarse de toda preservación digital. Deberíamos
añadir otra función igualmente necesaria, la necesaria integración de la
preservación digital en la gestión documental. Sin embargo LA LEY 39/2015
plantea el archivo digital y sus funciones en la etapa final del documento,
cuando su procedimiento está cerrado, cuando ha pasado a una fase semi-activa o
inactiva. De este modo, la legislación actual da al archivo digital las
características y funciones propias del siglo XIX: meros repositorios
Es un error hacer partícipe al
archivo histórico sólo en la selección de la estrategia de preservación cuando debería
encargarse de toda preservación digital opacos donde todo acaba, desvinculando
fatídicamente de la gestión documental. De hecho ignora la existencia o la
necesidad de un Sistema de Gestión Documental. Es absolutamente necesario
modificar esta concepción del archivo digital, si no lo vinculamos a un centro especializado
como el archivo histórico integrado dentro de un sistema de gestión documental,
el archivo digital será un disco duro muy caro que a la larga no servirá para nada:
sin recuperación de datos, sin contexto, sin interpretación, sin integridad, ni
certeza, ni autoridad o confianza.
Los países donde los sistemas
archivísticos y la gestión de documentos electrónicos son puntos estratégicos
del Gobierno Abierto, gestionan y dirigen la preservación digital desde los archivos
históricos, como el Reino Unido) , Estados Unidos , Australia, Noruega, Nueva Zelanda, etc. La
lista es larga, pero en España, los dos proyectos referentes de la preservación
digital, ARCHIVE y iARXIU, no son gestionados
por los archivos históricos, de hecho, están desvinculados de los órganos
directivos de sus respectivos Sistemas de Archivo. Eso se debe en parte a su
génesis, ambos fueron creados como una solución tecnológica a problemas concretos.
A pesar de la buena voluntad de sus administradores, está claro que no hay una estrategia
detrás, no se plantea como una solución a largo plazo para la preservación del patrimonio
documental. Debemos ser justos y apuntar que a fecha de hoy ni el Archivo Histórico
Nacional ni el Arxiu Nacional de Catalunya han querido jugar un papel
protagonista en la preservación digital.
Como anteriormente hemos
apuntado, resignarse a un papel finalista del archivo en entornos cien por cien
digitales quiere decir tener a punto una gran cantidad de datacenters, con sus
gastos asociados de luz, mantenimiento, incremento exponencial de discos, etc.
No hay duda que el legislador ha emulado en electrónico una percepción clásica
del archivo en papel. Y no se han calibrado los importantes costes que todo
ello suscitará. Con un agravante, los costes serán inevitables, porqué la
unicidad que exige el archivo digital único no puede permitir que la
Administración pierda su control, distribuyendo cada bit en centenares o miles
de servidores de todo el mundo. Deberá pues la Administración tomar medidas
para controlar de manera exclusiva el archivo digital único. Por eso el Estado
ofrece la solución de adoptar sus plataformas y requisitos, ARCHIVE y el
Esquema Nacional de Interoperabilidad, a las Administraciones Públicas que no
puedan o no quieran adoptar tales medidas, tal y como marca la disposición
adicional segunda.
Aquellas instituciones que
quieran mantener su independencia y la exclusividad de su propia información se
encontraran con serias dificultades a la hora de adoptar todos los requisitos que
exige la norma citada. Pero tranquilos se pueden repartir los gastos entre
varios socios, mancomunar los recursos y repartir la gestión, en resumen
federarse. Este punto es clave pues respeta uno de los principios de la
archivística moderna, el de territorialidad de los fondos documentales. Este
principio iba dirigido a aquellos grandes archivos del siglo XIX y XX que por
distintos motivos habían acumulado fondos de territorios distantes. Su función no
es otra que respetar el contexto socioeconómico que ha creado un fondo concreto,
sólo de este modo se puede valorar adecuadamente su contenido. También
podríamos añadir otros factores: idioma, referencias geográficas, la identidad
de los pueblos, el interés local, etc. Parece bastante lógico cuando hablamos
de documentación física puesto que es necesario desplazarse para consultar los
documentos.
¿A caso lo es también con la documentación
electrónica? Efectivamente, la gestión de un archivo digital debe vincularse al
territorio por los mismos motivos que debe vincularse un archivo en papel.
Humildemente, como profesionales, disponemos de mayores conocimientos y mejores
herramientas para tratar, recuperar, contextualizar y servir los documentos
generados en un entorno conocido, cercano, por ejemplo, el de una misma
provincia, que el de los de otra parte del Estado o de la Comunidad Europea. Es
necesario vincular el principio de territorialidad con otros afines, como el
principio de patrimonio conjunto, o incluso el de comunidad de archivo
La escritura manuscrita está
siendo el último reto que deben afrontar los archivos del siglo XXI
Justamente este concepto, la
comunidad de archivo es crucial para una Administración Pública basada en el
Gobierno Abierto, puesto que concibe el archivo no como los documentos
generados por una o varias instituciones, sino como la suma de documentos de cualquier
naturaleza generados por una comunidad constituida por la gente y sus instituciones.
En resumen, y enlazando con el
párrafo anterior, la federación de varias instituciones que tengan un denominador
común es la alternativa. No es casual que algunos países hayan afrontado el
problema de la preservación digital a largo plazo a través de un sistema federado,
como CARINIANA, la Red Brasileña de Servicios de Preservación Digital.
La opción de mancomunar o federar
archivos digitales con sus respectivos portales de acceso no es algo que pasa
sólo en el exterior, también tenemos algunas disposiciones que apuntan en esa
dirección, como la opción de obtener i difundir copias de documentos de otros
archivos , o bien la opción de adherirse
al Portal de Archivos Españoles para ofrecer un acceso libre y gratuito al
patrimonio documental.
VI. ¿Dónde mejorar? Los portales de acceso y la datificación
Imaginemos que disponemos todo el
sistema de gestión documental montado, donde documentos born digital y los
documentos digitalizados conviven en un mismo sistema, gestionados por módulos
con funciones específicas: por un lado la captura, por el otro el tratamiento y
enriquecimiento de los metadatos, y por último un entorno adecuado para la preservación
a largo plazo. Nos falta algo, una puerta de entrada, un portal de acceso para el
usuario. Es imprescindible dar acceso a la documentación pública, de hecho
debería ser la única razón de ser de cualquier sistema de información.
Estamos construyendo un cuerpo jurídico
robusto que contempla el control, la gestión, recuperación y intercambio de la información,
pero está trágicamente centrado en el uso interno. ¿Dónde queda el servicio a la
ciudadanía? Por suerte tenemos algunos ejemplos. Por un lado el celebérrimo
portal de transparencia, que ofrece a cualquier ciudadano los documentos, datos
e información de la publicidad activa. Pero este portal, sólo ofrece una parte
ínfima de toda la información que ofrece la Administración, existen otros
océanos por los que navegar. Un ejemplo los tenemos en portales de archivos,
como el Portal de Archivos Españoles, el portal Arxius en Línia, y el portal
Europeana. Hay muchos más, de hecho es habitual que un municipio con recursos
suficientes disponga de un portal de acceso a documentación propio. Pero quiero
hablar de estos por un motivo, son ejemplos de sostenibilidad: siempre han
estado abiertos, evolucionando y enriqueciendo incesantemente sus bases de
datos. Sería pues conveniente tomarlos de ejemplo en la medida en que un
conjunto de centros de archivo que colaboran para un bien común: facilitar el
acceso al patrimonio documental. Sin embargo si nos paseamos por los dos
primeros ejemplos nos damos cuenta que se han quedado atrapados en el tiempo,
son portales poco intuitivos, diseñados por y para los archiveros. Al margen
del necesario cambio estético, deberían reformularse sus funcionalidades y
pensar en aquello que necesita el ciudadano. Todo esto se ha hecho, pero por
desgracia no ha sido posible por la coyuntura económica y por otra razón obvia,
los recursos dedicados siempre han sido mínimos. ¿Qué alternativa planteamos?
Una de ambiciosa, por supuesto. En la dimensión política y territorial que sea
posible, deberían mancomunarse los recursos de las distintas Administraciones
Públicas, para obtener un portal de acceso al patrimonio documental, atractivo,
ameno, innovador, escalable y sostenible a largo plazo, como el proyecto Portal
d’arxius de Catalunya que es la evolución necesaria de Arxius en Línia.
También deberíamos hacer una
reflexión. ¿Tiene sentido mantener archivo digital y portal de acceso por
separado? No, ninguno, deberían ser integrados dentro del mismo Sistema de Gestión
de Documentos, recuerden, la preservación digital y el acceso a la información
son vasos comunicantes. No estructuras independientes.
El siguiente paso, una vez
tratado el tema del acceso y la preservación digital nos encontramos con un
nuevo reto. La documentación manuscrita. ¿Es un problema? Si, lo es, y de los
grandes. La escritura manuscrita está siendo el último reto que deben afrontar
losarchivos del siglo XXI. Anteriormente lo habíamos mencionado, nuestro
público objetivo, nuestra razón de ser, espera encontrarse con una base de
datos, donde pueda teclear su criterio de búsqueda, y que los resultados
remitan principalmente al contenido de los documentos. Esto está resuelto a
través del OCR, pero sólo se aplica en documentos con letra impresa,
principalmente aplicado en obras de creación con intencionalidad intelectual (para
entendernos, libros), es decir, todo lo contrario a aquello que preserva un
archivo (documentos). El documento no tiene intencionalidad intelectual, no es
fruto de una publicación seriada y aunque en algunos casos su escritura sea
impresa o mecanográfica, la estructuración de la información en la página raras
veces es regular, obteniendo unos resultados no muy buenos por parte de un OCR.
Deben aplicarse antes procesos de mejora de la imagen: detectar en qué lugar de
la página se encuentra el texto, qué relación tiene con otros elementos de la
página (título, subtítulo, encabezado, pfo. 1, pfo. 2), o en algunos casos
eliminar los bordes y ondulaciones o rectificar las inclinaciones de las
líneas.
Todo esto está superado y actualmente
existen programas que aplican estas funciones. No obstante, al intentarlo con
letra manuscrita, nos encontramos con unos resultados pésimos.
Por suerte disponemos de algunos
centros de investigación, como el Centro de Visión por Computadora de la Universidad
Autónoma de Barcelona, que participa en proyectos de datificación del
patrimonio documental, como los libros de actas matrimoniales de la diocesis de
Barcelona, o los padrones de habitantes del Arxiu Comarcal del Baix Llobregat.
¿Pero a qué nos referimos con
datificación? Estamos hablando de una mera recuperación de la información a
partir de un criterio concreto de búsqueda concreto, por ejemplo, búscame
«Pepito». Éste debería ser el resultado final, pero el proceso es mucho más
complejo, se requiere de una gran cantidad de recursos, y aquello que debería
ser automático y puramente tecnológico esconde en realidad centenares de manos
humanas. Un OCR, o mejor dicho un HTR (Handwritten Text Recognition) necesita
un proceso de aprendizaje donde expertos en paleografía (lectores en documentos
antiguos) deben indicar a la máquina que una P es una P y no una B. Es decir,
estamos ante una herramienta automática que ha exigido unas horas de trabajo
artesanal especializado. Por ejemplo, el proyecto de las actas de matrimonio
Five Centuries of Marriages supuso la participación de 173 personas durante
cinco años. Incluso con proyectos finalizados, los mismos investigadores del
CVC nos recuerdan que cualquier reconocimiento de caracteres manuscritos
necesita de la verificación de los ojos humanos, y dependiendo del documento de
ojos humanos paleográficos.
El factor humano es clave para la
datificación del patrimonio documental, y en ningún caso se podrá hacer con el
personal actual de los archivos históricos, la mera idea me genera risa histé
rica . ¿Hay alguna alternativa? Algunos optan por sistematizar la participación
de centenares de personas y pasar manualmente a una base de datos los
documentos históricos, como el Norwegian Historical Data Centre de la
Universidad de Tromsø . Pero tenemos ejemplos menos árticos, como la
datificación de los libros sacramentales del Archivo Histórico Eclesiástico de
Bizkaia, o el Archivo Histórico de la Archidiócesis de Tarragona. El proyecto
vizcaíno supuso tuvo éxito gracias al magnífico equipo de Anabella BARROSO,
pero también gracias a la financiación pública que permitió contratar personal
especializado. El segundo caso, eltarraconense, se basa en el voluntariado, donde
usuarios más o menos especializados transcriben los asientos de los registros
sacramentales a mediante un aplicativo on line. Elvoluntariado tiene ciertos
riesgos, el primero de ellos es la calidad de las transcripciones y el segundo
es la regularidad. En este tipo de proyectos, donde el voluntariado es la pieza
clave, se genera una dinámica concreta: primeramente se registran una gran
cantidad de usuarios, unos participan con mucha intensidad, otros con menos
asiduidad; luego los usuarios van bajando, hasta llegar a un punto donde unos
pocos usuarios participan
De esta última propuesta queremos
apuntar una vía de escape, el conocido como crowd sourcing es decir, la participación telemática
de personas para obtener transcripciones. No esalgo novedoso, de hecho Google
Books lo ha aplicado en la transcripción de algunos libros de difícil lectura,
donde el OCR convencional no obtiene buenos resultados. También lo está aplicando
en la transcripción de direcciones de Google Street View. ¿Cómo lo hacen?
Seguro que en algún momento de sus vidas han transcrito una imagen para darse
de alta como usuario y comprobar de ese modo que no se trata usted de un robot.
De hecho este proceso lo llaman recaptcha, un producto que ofrece Google a sus
clientes, tú les proporcionas las imágenes a transcribir y ellos facilitan la
plataforma tecnológica que lo hace posible.
¿Quién lo transcribe? Pues usted
y yo cada vez que queremos acceder a un servicio gratuito de Google que
requiera una verificación humana. Ahí está el negocio. Si no quieren participar
en ello, les hago una propuesta, apliquen la misma estrategia pero en un
entorno que la Administración Pública pueda gestionar, por ejemplo los citados
portales de archivos, los catálogos de las bibliotecas o incluso la sede
electrónica. Imagínense cuando se tardaría en transcribir una página si cada
ciudadano tuviera que transcribir una simple palabra para acceder a un servicio
público. De este modo el proceso de aprendizaje de un OCR se haría relativamente
rápido, y de un modo más efectivo que el del voluntariado. La mera idea me vuelve
a producir una carcajada, pero esta vez no es de histeria, es de euforia. Pero
no cantaremos victoria, aún seguiríamos teniendo el problema de la calidad de
las transcripciones, haría falta la revisión por parte de voluntarios o
profesionales expertos. En resumen la datificación del patrimonio documental no
está aún resuelta, debemos seguir experimentando y perfeccionando las
herramientas disponibles.
Una vez planteados los factores
clave: digitalización, preservación, acceso y datificación nos queda un
elemento, la recuperación de la información. Un usuario sin experiencia ninguna
en sistemas de información lanza preguntas más o menos complejas a una base de
datos utilizando sus propias palabras. La respuesta que hallaría sería el
silencio (ninguna resultado) o bien ruido (miles de resultados inconexos).
Existe una solución: la utilización de ontologías. Recuerden que una base de
datos, independientemente de su contenido, parte de una semántica concreta, que
dista mucho del lenguaje natural, utilizado por los seres humanos. Las
ontologías son el camino entre el lenguaje natural y el lenguaje de la base de datos,
como un traductor, que interprete exactamente lo que buscas e incluso más allá,
que haga sugerencias relacionadas con tus criterios de búsqueda. Algo parecido
a lo que hace Amazon cuando te sugiere un producto relacionado con tus preferencias
de compra.
Las ontologías pueden dividirse
en dos: las ontologías ligeras y las pesadas. Las primeras se materializan en
catálogos, glosarios, taxonomías, con un una explicación mínima de las relaciones
entre conceptos. Las ontologías ligeras se utilizan exclusivamente para la interpretación
humana. Las ontologías pesadas en cambio disponen de expresiones complejas,
como axiomas, restricciones, y reglas de inferencia a partir de las cuales la inteligencia
artificial pueda inferir nuevos conocimientos a partir de ejemplos. Como pueden
observar, el componente tecnológico es crucial, por ese motivo no hay ejemplos
específicos de aplicación de ontologías en los archivos, sin embargo se han
planteado algunas reflexiones e investigaciones en el Reino Unido, Italia, e
incluso en Cataluña.
VII. Los Archivos Históricos y la publicidad activa vinculada a la Transparencia
El acceso a la información
pública es una práctica que lleva años aplicándose en los archivos históricos.
Nuestras consultas pueden centrarse en temáticas concretas, como la genealogía,
pero no podemos prever aquello que le será de interés en un futuro a un usuario.
Podemos intuirlo si nos fijamos en aquello que tiene interés: relación de
Administración con la ciudadanía, gestión del medio ambiente, problemáticas
sociales, toma de decisiones. No es vano que cada uno de estos grupos coincida
con aquellos documentos que son de conservación permanente y que por tanto
acaben siendo gestionados por los archivos históricos. Tampoco es vano que
estas agrupaciones también coincidan con los documentos, información y datos
pertenecientes a la publicidad activa.
Sobre la publicidad activa como
motor de la Transparencia de la Administración podemos ofrecer algunas cifras
aproximadas sobre el impacto que podría llegar a tener. El pasado mayo de 2015
se presentó el Modelo de Madurez en Transparencia y Gestión Documental, para el
cual se hizo un experimento para constatar la necesidad del modelo: adaptarlos
documentos, información y datos de la publicidad activa a un cuadro de
clasificación municipal. El resultado fue que de un cuadro de clasificación de
unas 640 series y subseries, 217 tenían documentos de publicidad activa. Con
eso queremos exponer una necesidad y una realidad, el 33,91% de la
documentación municipal forma parte de la publicidad activa. Con eso no me
refiero al volumen sino a la diversidad, y la diversidad es difícil de
controlar. La gestión de la publicidad activa tiene que pasar por los sistemas
de gestión documental para vincular los documentos originales con aquellas
copias proporcionadas a los ciudadanos. ¿Si los documentos de publicidad activa
son considerados de interés para la ciudadanía en general para la rendición de
cuentas de la actividad pública, estos no deberían conservarse a perpetuidad
por el mismo motivo? Claramente sí. Entonces, si deben conservarse de manera
permanente deberían gestionarse en un entorno estable, el archivo digital, el
cual serviría una copia autenticada al usuario del portal de transparencia.
No es transgresor, es lógico. Eso
también permitiría al ciudadano acceder a los metadatos y indagar en quien ha
generado el documento, cuando, en qué entorno, departamento, si ha sido
modificado, etc. Resumiendo, permitiría al ciudadano acceder a la trazabilidad
del documento, ese es el verdadero ejercicio de transparencia.
Vayamos un paso más adelante. El
archivo digital está gestionando una instrucción que cumple las mismas
funciones, el archivo histórico, pero hace algunas otras funciones que el
archivo digital por sí mismo no hace: la difusión.
Dar a conocer los datasets del
portal Open Data, o los documentos de publicidad activa del Portal de
Transparencia, mediante productos divulgativos de alta calidad, en un lenguaje ameno.
Para ello será necesario potenciar la participación ciudadana, fomentar la
necesidad de acceder a la información pública. Eso no se consigue colgando
ficheros en un portal. Es necesaria la participación ciudadana. ¿Cómo? Creando
relaciones con los Observatorios Ciudadanos Municipales y otras entidades
sociales locales para generar productos didácticos para todos los públicos y
todas las edades. Nadie puede quedarse atrás. Estamos hablando de hacer
talleres sobre cómo acceder a la información pública en escuelas, centros
cívicos, institutos, universidades, y también en hogares de ancianos. La
alfabetización digital no sólo pasa por cómo usar las nuevas tecnologías,
también pasa por qué hacer con ellas.
VIII. El futuro: yacimientos de datos históricos y la interdisciplinariedad
El futuro de los archivos
históricos no es otro que el presente, concretamente todo el capital informacional
(información, datos y documentos) que la Administración Pública está generando
en este mismo momento. Todo este Big Data se acumula día a día, hora a hora, minuto
a minuto, bit a bit. Si conseguimos hacer realidad la interoperabilidad entre
los silos de información de cada institución, tendremos un yacimiento de datos
inigualable. Sin embargo, todo ello queda desaprovechado primeramente porque no
hay conciencia de la magnitud, el día a día nos nubla la panorámica, no vemos
en qué punto nos encontramos.
Se necesita perspectiva y un
cambio de modelo de gestión de los archivos históricos.
Debemos romper las cadenas que
nos atan al historicismo, dejar de tratarnos a nosotros mismos únicamente como
centro de memoria, ir más allá, mirar también al futuro, y no sólo hacia el
pasado.
¿Por qué deberíamos hacer tal
cosa? Porqué lo que viene, el llamado Big Data, tiene unas virtudes que hasta
ahora no hemos podido abordar por motivos tecnológicos. Estamos hablando de la
Reutilización de la Información del Sector Público y su potencial económico.
Actualmente, el Estado, tiene un volumen de negocio entre 450 y 500 millones,
añadiendo los datos privados, la cifra incrementa a 1.400 millones de euros, de
los cuales sólo un 2% pertenecen al ámbito cultural. Tal volumen de negocio que
no pasa desapercibido, el cual seguirá creciendo ya que se siguen generando
estratos de datos minuto a minuto. El caso es que el patrimonio documental,
también incluye el Big Data, nace con valor probatorio e informativo, con el
tiempo adquirirá el cultural. ¿Acaso sabremos abordar el Big Data si seguimos
con la misma gestión patrimonialista de la información? Para hacerle frente
deberemos encontrar aliados en empresas y centros de investigación de
tecnología. El paso siguiente será la generación de productos de divulgación
del patrimonio documental (Big Data también) con datos de calidad.
¿Los archivos históricos podremos
gestionar el Big Data? Es necesario modificar la formación de los archiveros,
buscar perfiles mixtos, no únicamente el binomio historiador-archivero, o el
tándem bibliotecario-archivero. Necesitaremos en breve el data analyst-archivero,
data controller-archivero, el programador-archivero, el informático
forense-archivero. El perfil tecnológico, es ahora una necesidad, tan
importante como otras disciplinas afines de la archivística (paleografía,
diplomática, codicología, etc.). La necesidad vendrá dentro de pocos años, la
obsolescencia programada nos conduce a marchas forzadas. Es la hora de repensar
las plantillas de personal de los archivos históricos, añadir una pieza más que
haga funcionar el engranaje del continuum documental. Nos jugamos mucho, y no
hablo de dinero. Podríamos encontrarnos en los albores de la Edad Oscura
Digital. Es la hora de la valentía, del cambio, de la necesaria transformación.