Tallerdigifondoantiguo20220330 Publico

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 42

LA DIGITALIZACIÓN DE

LOS LIBROS ANTIGUOS

EL proyecto del Fondo Antiguo de la Biblioteca de la Universidad de Sevilla

Taller del Libro Antiguo. Biblioteca Rector Machado y Nuñez, 30 de Marzo de 2022.
SITUACIÓN ACTUAL DEL PROYECTO DE
DIGITALIZACIÓN

Fondo Antiguo

Ilustraciones
y grabados

Archivo Histórico
Canales de
difusión

Página web

Catálogo Fama

Boletín de Noved
ades

Expobus

Blog

Twitter

Youtube
FLUJO DE TRABAJO EN TALLER DE DIGITALIZACIÓN
Obras FONDO ANTIGUO – Obras seleccionadas, peticiones de digitalización, exposiciones…
ARCHIVO HISTÓRICO – Series y/o expedientes seleccionados, peticiones de digitalización, exposiciones…
seleccionadas

FLUJO DE TRABAJO EN PROCESO TÉCNICO


Administración de colecciones y control de calidad
Digitalizar
1º Conversión a jpg de los tiffs del día anterior con  Proceder según las instrucciones
XnConvert y volcado a carpeta local procedente de la básicas para los escáneres
carpeta compartida. Zeutschel
 Utilizar el Modo Express
Gestión del Tiff configurado que mejor se adapte
2º Revisión de imágenes y creación de zip para cada obras  Discos duros externos compartidos entre los a la obra
con la estructura “signatura_images.zip”. ordenadores de la sección. Ubicados físicamente  Todas las obras en
en la Sección de informática y tecnología. Tiff/Color/400ppp salvo que se

Preservación
Difusión

3º Subida a Archive .org y creación del registro, añadiendo  Para ahorrar algo de espacio el Tiff se lotea a Tiff indique lo contrario
los datos asociados a la obra y enviando el ítem a la comprimido con XnConvert (LZW+Predictor).
colección indicada (Fondo Antiguo o Archivo Histórico) Revisar
 El Servicio de informática se encarga de guardar  REVISIÓN con Xnview si es
4º Añadir portafolio en Alma o registro en ahus.us.es en una segunda copia de seguridad en el SIC. necesario: Integridad de la obra
caso de que sea necesario. ¿están todas las páginas?,
 Descarga del servidor de Internet Archive del pdf inclinación, recorte, etc…
5ºComprobar en el registro en línea:  NOMBRAR la carpeta (Signatura)
con ocr incrustado. Se añade a IDUS.
 NUMERAR secuencialmente las
 Integridad física de la obra
imágenes. Signatura_0000
 ¿Se han generado correctamente? Servicio de informática genera los metadatos para  FIRMAR : Última img. incluir
 Comprobación de metadatos (Datos biblográficos, o Idus, Hispana y Europeana iniciales
archivísticos, si enlaza correctamente, etc.)

6º Subida a Flickr en el caso de que haya ilustraciones de Enviar


algún tipo. Difusión en otros canales si se estima  Enviar carpeta de obra terminada
conveniente. a unidad compartida y colocarlo
en la carpeta del día.
¿Qué es Internet Archive?
Internet Archive es una biblioteca digital sin fines de
lucro fundada por Brewster Kahle en 1996 con la
misión de proporcionar "Acceso universal a todos los
conocimientos".
La organización busca preservar el patrimonio cultural
del mundo y proporcionar acceso abierto a nuestro
conocimiento compartido en el ámbito digital.
Las colecciones digitales de Internet Archive incluyen:
664 Billones de páginas web.
34 millones de libros.
7,6 millones de videos.
14 millones de audio, etc.
También trabaja como soportes separados (programas
Alexa Site Info
de televisión, software, imágenes, y programas de radio
y grabaciones en directo)
212 Petabytes, 28.000 discos (backups Alejandría,
Amsterdam)
Colabora con más de 1500 bibliotecas.

Conferencia de B. Kahle (2007). Acceso universal al conocimiento


Documental. La historia de Aaron Swartz. El chico de Internet (2014)
Manifiesto por la Guerrila del Acceso Abiero. A. Swart – Original
La ética del hacker y el espíritu de la era de la información – Pekka Himanen
Internet Archive. About Internet Archive Help Center
Internet Archive. Books and Texts. Basic Guide
VENTAJAS RESPECTO A FONDOS DIGITALES
- Coste de mantenimiento de la plataforma 0€
- Visibilidad internacional
- Usabilidad de la plataforma
- Mejoras significativas en la visualización y navegación dentro del ítem
- Mejoras significativas en la recuperación de información textual
- Mejoras en la generación de derivados (pdfs, etc.)
- Presencia en buscadores del texto completo de las obras
- Multitud de opciones para la ordenación de resultados
- Mejoras en la visualización múltiple de los registros (Miniatura, resumen, resumen + metadatos)
- Estadísticas de visitas por ítem, topics, colección
- Simplificación de los flujos de trabajo desde la creación hasta la publicación (mejora en la productividad)
productividad
- Optimizado para tablets y móviles
- Funcionalidades de tipo social (Favoritos, Reseñas)
- RSS
- Facilidad de integración de los fondos digitalizados de otros proyectos de otras bibliotecas de la BUS
- Posibilidad de añadir otros elementos en el contenedor (metadatos, versiones, límite, 10 GB)

DESVENTAJAS
- Interfaz en inglés
- Hay que adaptarse a los cambios de estilo o tecnológicos que diseñe la plataforma
- No es página institucional us.es
- La necesidad de buscar otras opciones para la colección de grabados
INTERNET ARCHIVE TEXTS Presencia del español en la plataforma 8º (304.405)
Más de 1500 bibliotecas colaboradoras

Robarts Library: 215.000 libros en línea


Más de 8.000 libros en español
Libro más visitado: + 395.000 vistas
Más de 1 M de vistas en Feb. 2022. 313 M totales
DOS COLECCIONES
EN INTERNET
ARCHIVE TEXTS

ALGUNAS CIFRAS

Fondo Antiguo de la
Universidad de Sevilla

23.290 ítems (03/22)

1er Ítem: (09/06/16)

2.992.076 imágenes

3.279.482 visitas

Archivo Histórico de la
Universidad de Sevilla

402 ítems (03/22)

1er Ítem: (20/03/21)

347.709 imágenes

6.347 visitas
original=1 derecha =90
Ejemplo de ítem. Libro en Línea. Parte superior. Visor

https://ia601207.us.archive.org/BookReader/BookReaderImages.php?zip=/5/items/AK113/AK113_jp2.zip&file=AK113_jp2/AK113_0192.jp2&scale=8&rotate=0

Paso de página

Zoom

Contador de páginas
Número de Pantalla completa
Barra desplazamiento rápido
resultados
Audio
Contexto de la ocurrencia marcada Formas de visionado
Ocurrencias de la búsqueda textual
Favoritos
Ejemplo de ítem. Parte inferior.
Metadatos y archivos
Título y menciones de responsabilidad Estadísticas
Fecha de publicación
Materias Compartir o embeber
Editor
Colección
Entidad colaboradora
Idioma
Descripción bibliográfica
Enlace al catálogo
Otros metadatos

Marcar
Pertenencia a colecciones

Reseñas (preguntas, comentarios, etc.) Creador del registro


Ubicaciones

Legados y
donaciones

Exposiciones Prensa
Año 2018

¿Cuántas páginas se han


publicado en 2018?
(imagecount)

¿Cuántas páginas
digitalizadas tiene el Fondo
de Derecho? (imagecount)

¿Qué se visita más, el XVIII o


el XIX?
(downloads)

Muy útil para generar


listados para corrección de
errores
Como funcionan las nuevas estadísticas en IA
Incremento de uso respecto a Fondos Digitales

Memoria BUS 2016

Visitas anuales Fondos Digitalizados de la BUS


2016 - 13.212 (fondosdigitales.us.es)
2017 - 280.284 (archive.org)
2018 - 479.778 (archive.org)
2019 - 840.472 (archive.org)
2020 - 811.571 (archive.org)
2021 - 693.512 (archive.org – fondo antiguo + ahus)
Colección de imágenes en
Flickr es un servicio de alojamiento de imágenes y
videos.
- + de Treinta mil millones de imágenes.
The Commons.
- + de 100 millones de cuentas. + de 500 millones de imágenes con licencia Creative Commons
- 2 millones de grupos. Flickr creó en 2008 este proyecto para dar cobertura a museos bibliotecas y
- No es necesario registrarse para ver el contenido otras instituciones Culturales. En total colaboran 115 Instituciones.
Ver listado completo
público como ocurre en otras páginas (Pinterest). Los dos objetivos principales del programa fueron aumentar el descubrimiento y
CRONOLOGÍA CORPORATIVA el uso de colecciones de fotografías públicas y proporcionar una forma para que
Ludicorp(2004)Yahoo!(2005) el público en general aporte conocimientos a través del contenido generado por
el usuario (agregando etiquetas, comentarios y notas a estas colecciones
Verizon(2017)SMugMug(2018)
históricas)
SMUGMUG
*Cambios en las condiciones gratuitas y de pago: Retira el Terabyte Política de SmugMug respecto a The Commons y a las imágenes con licencia CC
asignado a los usuarios gratuitos en 2013 por Yahoo! y limita a mil fotos
su capacidad de almacenamiento. *Cambios en los servidores. Los
centros de datos de Yahoo! se trasladan a (AWS) Alexa Site info
Usuario Pro :(50 $) anuales
almacenamiento ilimitado
estadísticas avanzadas (28 días)
sin publicidad
* El 17 de 2022 lanza nuevos términos de servicio. Capacidad de
compartir contenido restringido o moderado se reserva a los miembros
Pro. Limite de 50 fotos privadas en cuentas gratuitas
Instituciones culturales que utilizan Flickr para difundir patrimonio
(fotográfico, bibliográfico, archivístico o museístico) ordenada por
número de imágenes :

British Library : 1 .073,518 fotos // //


49.800 seguidores
SDASM Archives: 312,097 fotos // 340,2 M vistas //
9.381 seguidores
Biodiversity Library : 319.620 fotos // 1.200 M vistas //
34.300 seguidores
Fondo Antiguo USE : 99.526 fotos // 43.2 M visitas // 2.694
seguidores
Library of Congress : 40.006 fotos // 401,4 M vistas //
75.500 seguidores
Biblioteca Museo Gulbekian : 40.958 fotos // 44.8 M vistas //
6.041 seguidores
NASA : 22.939 fotos //244.8 M vistas //
35.600 seguidores
The U.S.Nat.Archives: 16.775 fotos // 205.1 M vistas //
12.700 seguidores
Early Modern Typography
Proyecto bibliográfico utilizando como base de datos flickr :
History of the book – Allan Pierson – Amsterdam 132.893 fotos

Flickr en el Fondo Antiguo de la BUS


- Estructura de la página en seis Pestañas principales :
- Información – Galería - Álbumes (Colecciones) - Expos, Grupos, Estadísticas, Carrete Fotográfico
- Descarga zip de álbumes completos
- Enlace al contexto del libro original.
- Etiquetas de contenido. Hasta 75 etiquetas/ítem.
- Etiquetado social (ejemplo) materias puestas en noruego por el Archivo Municipal de Trondheim.
- Inteligencia artificial de reconocimiento de imágenes. Etiquetado automático (oculto en este
momento) que generó mucha polémica en su día porque las etiquetas se mostraban al usuario. En
este momento es imposible eliminarlas pero si responden a búsquedas (ejemplo).
Para etiquetar y comentar es necesario tener cuenta.
- El robot de moderación también se ocupa de filtrar el contenido si lo considera ofensivo utilizando la
inteligencia artificial de reconocimiento de imágenes. Delle antichità di Ercolano (110 fotos sin cuenta)
1.117 fotos con cuenta y desactivados filtros de seguridad.
Colecciones
Ejemplo de item

Posibilidad de añadir notas sobre la imagen

Signatura como nombre de imagen.


Título del grabado en descripción
Derechos

Descripción bibliográfica.
Enlace al catálogo fama
Geolocalización
Enlace a la página del libro si está digitalizado

Favoritas
Grupos

Álbumes

Comentarios Etiquetas propias y sociales

Otro ejemplo de notas Etiquetado automático


Otro ejemplo de vista en contexto
Un ejemplo de geolocalización Niveles de permiso para el
Usuario que está viendo la img.
Organizar

Añadiendo diez
etiquetas diferentes a
109 elementos

Cambiado
la licencia
de uso a
1057
elementos
Metadatos incrustados

-Procesado por lotes


-Software XnConvert
-Incrustación de metadatos comunes
-URL flickr->archive pág. contexto
Búsquedas
1. Búsqueda básica
2. Búsqueda avanzada
Colores, texturas
Orientación
Tamaño
Fecha de captura
Fecha de subida
Tipo de contenido
Todo o etiquetas
Tipo de licencia
Búsqueda segura
+ vistas (48,478)

+ favs. (72)

Día con mayor número de visitas : 10 de Diciembre de 2017


Escáneres y cámaras
Gran formato.
Sensor matricial.
Phase ONE
Video
John Rylands Library
University of
Manchester
Tecnología Gigapixel. Orientado a museos.
Foto de 717 Gigapixel. La más alta hasta el momento
Sistemas de Photo-Stiching MadPixel ROB.
Google Arts & culture. Gigapixel Paintings
Escáneres y cámaras Umeå University Library
TREVENTUS Treventus+Nainuwa software
Video Ejemplo:
Arte de nueva de escribir,1776
el mismo en nuestra colección
Escáneres y cámaras
KIRTAS KABIS III (Automático)
Kirtas Kabis 700 (Manual)

Bookeye 4. Escáner lineal


planetario con opción en V

Similar al Kirtas automático : Qidenus


Similar al Kirtas manual 4Digital Books Copybook I2S ->Limb Gallery
Escáneres y cámaras
Sistema de digitalización de Internet Archive
Table Top Scribe System Especificaciones técnicas

Obras digitalizadas en IA con cámaras Sony Alpha


Video (más de 1,5 M de libros)
Escáneres y cámaras
Google Books: Google y el cerebro mundial(2013)
+ de 40 millones de libros ¿monopolio de acceso al conocimiento?
- 2 centros en Europa : Roma y Munich Algunos Clips:
-Proyecto REBIUN/GOOGLE - Trailer oficial
- Jaron Lanier sobre el copyright
- Eugeny Morozov
Escáneres y cámaras Diybookscanner.org : Más de cien diseños caseros
Daniel Reetz - Un escáner de libros “Do It Yourself
Con teléfono móvil

Otras máquinas no recomendables para libro antiguo


China IMAG Automatic Book Scanner
BFS-Solo: High Speed Book Digitization using Monocular Video
Linear Bookscanner Studio Mango
The TIFLIC Book Scanner (con teléfono móvil)
Sony Cyber-shot DSC-F717 DSC-F828
Escáneres y cámaras.
Canon 500D 550D 5D Mark III
Nuestros escáneres
2 Escáneres Zeutschel
OS 12002 Advanced Plus
- DIN A2+ (622X460 mm)
- 600 ppp max.
- Color (24 bits, grises, byn)
- Todos los formatos Digibook 2000 LC
- Porta libros hata 10 Kg.
- Grosor 15 cm(20 sin cristal)
- Velocidad 3,8 sg. A2
- 4 tipos de pulsadores
- Kit de apertura 90º.
Máximo DiN A1 (594x841)
- Kit de apertura 100-140º
- Software Perfect Book
- Sistema LED blanco frío,
0,7 lux, sin carga térmica
- CCD lineal
- Profundidad de campo 5 cm
- Software Omniscan 12
- Gestión de color ICC
Zeutschel. Omniscan Software
Digitalización. Errores. The art of Google Books (2011-2017)

Ejemplo propios, error en corrección de curvatura 1 y 2


Digitalización. Plegados
Digitalización. Recomendaciones, formatos, etc.

Recomendaciones y Normas - Formato Tiff. Alto coste de almacenamiento. JPEG 2000:


*IFLA Directrices (2014) Adoptado por la Biblioteca del Congreso, Gallica (2019) , algunas
biblioteca en Internet Archive suben directamente en jpeg2000.
*Biblioteca Nacional de España (2015) Archive convierte por defecto todo a jpeg2000.
*
Andalucía. Normas técnicas para digitalizaci
ón de documentos

*
Recomendaciones para proyectos de digital
ización del patrimonio
bibliogárifo
y fotografía histórica. Consejo de Cooperaci
ón Bibliotecaria (2021)
- Requisitos técnicos (2021)
*
Estrategia Nacional de Digitalización(2022-2
026)
Digitalización. Usabilidad.
Digitalización. Obras ya existentes.
Prácticas de digitalización. Resolución.
Prácticas de digitalización. Marcas de agua.
Digitalización. Corrección de curvatura y ocr.

Sofware libre de postprocesado de imágenes escaneadas. Scantailor : Videotutorial Descarga // Book ScanWizard : Videotutorial
Descarga
Software libre de OCR : Tesseract y comercial : AbbyFineReader, Omnipage, Acrobat
Preservación digital
1.¡Es la preservación digital, estúpido! (2020)
2. Introducción a la preservación digital (2019). Video en Youtube
Proyectos mundiales de preservación a largo 3. Digital Preservation Hadbook
plazo: Archivo Mundial Ártico PIQL film 4.
Biblioteca Lunar Revisión de programas para la gestión de repositorios digitales :
una actualización (2020)
Soluciones integrales de software de preservación 5.
PROPIETARIO : Libnova (Libsafe) - Preservica - Odilo Informe sobre la evaluación del estado de la preservación en los
repositorios REBIUN 2018
Preserver - Rosetta Exlibris
6.
LIBRE Norma UNE-ISO 16363:2017 Sistemas de transferencia de inform
Archivemática – Fedora ación datos espaciales. Auditoria y certificación de repositorios di
gitales de confianza
7. Audit and Certification of Trustworthy Digital Repositories
. RECOMMENDED PRACTICE CCSDS 652.0-M-1
8. Auditoria de preservación digital con NDSA Levels (2017)
9.
Norma UNE-ISO 14721:2015. Sistema de transferencia de datos e
información espaciales. Sistema abierto de información de archi
vo (OAIS). Modelo de referencia
10.
Los repositorios digitales para la conservación. Un acercamiento
a la preservación digital a largo plazo (2017)
11. Clientes en España de libnova
Sevilla, 30 de Marzo de 2022 Gracias por su atención
Aula de formación Montoto. Biblioteca Rector Machado y Nuñez
Javier Villanueva Gonzalo - jabyn@us.es - 954550911

También podría gustarte