El papel es uno de los materiales predilectos en los que circula hoy el conocimiento y, si bien ya está naturalizado, fue un desarrollo tecnológico que superó a sus predecesores, como el papiro y el pergamino. Es probable que pronto se convierta en el predecesor superado de otra tecnología. Sus principales desventajas residen en su propia materialidad (su fragilidad, tamaño y peso, costo). Cada vez más el conocimiento circula en formato digital y uno de los motivos de este cambio paulatino de soporte (además de las ventajas de almacenamiento, transportabilidad, accesibilidad, etc.) es que casi cualquiera puede digitalizar contenidos. En este artículo se darán algunas nociones al respecto.
Cómo digitalizar
Para empezar el proceso de digitalización bastan un escáner plano y una computadora. El trabajo consiste básicamente en tomar un libro o cualquier texto en papel, escanearlo y convertirlo en un archivo digital. Obviamente el proceso es mucho más complejo de lo que suena, sobre todo si se quiere obtener un archivo digital de calidad. Y recordemos que solo vale la pena preservar las buenas digitalizaciones.
El material
A la hora de empezar la digitalización hay que examinar el material. La encuadernación, el estado del papel, el tamaño y la cantidad de hojas son factores que condicionarán el proceso. Por ejemplo, escanear en plano un libro de muchas páginas dificulta una buena captura de los caracteres más cercanos a la unión de las páginas o requiere desarmar la encuadernación. En esos casos es recomendable utilizar un escáner para libros. Si bien el plano funciona mejor con hojas sueltas, también puede procesar, aunque con ciertas dificultades, textos encuadernados.
El escaneo
El proceso de captura del material es el más importante y el más delicado. Un mal escaneo implicará, en general, una digitalización defectuosa. Algunos detalles pueden mejorarse con editores de imágenes pero la mayoría de los defectos se mantienen a lo largo del proceso. Un texto borroso o una imagen con poca definición, hojas faltantes, torcidas, dobladas, rotas o manchadas empobrecerán el archivo restándole valor de conservación.
El reconocimiento de caracteres
Una vez que se consiguió la mejor captura posible del texto hay que realizar el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés), para que deje de ser un grupo de imágenes y se convierta en un texto digitalizado. Este proceso consiste en convertir esas letras dibujadas que capturó el escaner en caracteres digitales que puedan ser interpretados por procesadores de texto. Actualmente, existen programas que se encargan de este proceso; es decir que no hace falta introducir el texto con el teclado. Estos programas comparan unos patrones o plantillas de caracteres con las figuras escaneadas y tratan de interpretarlas. Si bien los resultados no son perfectos, con un buen escaneo se pueden obtener excelentes resultados.
Catalogación y archivado
Una vez que se ha conseguido un texto digital con buenas imágenes y un buen reconocimiento hay que decidir en qué formato se va a guardar para evitar tanto como sea posible la obsolescencia. El formato es algo así como el soporte material del texto digital, por eso mientras más estable sea mejor preservado estará. Además, también es importante catalogarlo de tal manera que sea fácilmente ubicable y reconocible para que no se pierda en la proliferación constante de archivos digitalizados. También es conveniente tomar la precaución de tener copias de seguridad de los archivos para evitar pérdidas por deterioro de hardware.
Cada uno de estos procesos implica una gran cantidad de complejidades técnicas (que serán abordadas en próximas publicaciones). En este artículo quisimos dar un breve panorama de las etapas del proceso de preservación digital.
2 comentarios