Manejo de Datos
Manejo de Datos
Manejo de Datos
Coordinadora
ISBN: 978-607-30-2690-1
Publicación dictaminada
2020
Contenido
Presentación.����������������������������������������������������������������������������������������������7
GEORGINA A RACELI TORRES VARGAS
SISTEMATIZACIÓN DE DATOS
Y SERVICIOS DE INFORMACIÓN
vii
Manejo de datos...
viii
MINERÍA DE TEXTO Y
MINERÍA DE DATOS
Identificación de los temas de investigación
en los documentos científicos del Colegio
de Postgraduados
INTRODUCCIÓN
11
Manejo de datos...
12
Minería de texto y minería de datos
13
Manejo de datos...
14
Minería de texto y minería de datos
15
Manejo de datos...
16
Minería de texto y minería de datos
METODOLOGÍA
17
Manejo de datos...
RESULTADOS
PERIODO 1972-1989
18
Minería de texto y minería de datos
por registro, lo que dio como resultado 537 ítems. El número míni-
mo de ocurrencias de las palabras o frases en el total de registros
fueron dos; lo anterior dio como resultado 58 palabras o frases y
se creó el mapa de red temático mostrado en la Figura 4.
19
Manejo de datos...
PERIODO 1990-2004
20
Minería de texto y minería de datos
Figura 6. Mapa de red de las temáticas sobre ganadería, obtenidas mediante minería de
textos de la investigación del Colegio de Postgraduados en revistas de corriente principal
periodo 1990-2004.
21
Manejo de datos...
Figura 7. Mapa de red de las temáticas sobre producción de cosechas, suelos y plagas y
enfermedades, obtenidas mediante minería de textos de la investigación del Colegio de
Postgraduados en revistas de corriente principal periodo 1990-2004.
PERIODO 2005-2017
22
Minería de texto y minería de datos
23
Manejo de datos...
24
Minería de texto y minería de datos
25
Manejo de datos...
CONCLUSIONES O DISCUSIÓN
26
Minería de texto y minería de datos
27
Manejo de datos...
BIBLIOGRAFÍA
28
Minería de texto y minería de datos
29
Minería de texto aplicada a un diagnóstico
de usuarios en Ciencia y Tecnología:
aprendizajes para fortalecer la
investigación bibliotecológica
I NTRODUCCIÓN
31
Manejo de datos...
32
Minería de texto y minería de datos
33
Manejo de datos...
34
Minería de texto y minería de datos
35
Manejo de datos...
36
Minería de texto y minería de datos
37
Manejo de datos...
38
Minería de texto y minería de datos
Porcentaje Concepto
75% La Ciencia agradable es posible en talleres.
75% La difusión sólo permea en escuelas.
75% Necesaria mayor actividad en zona rural.
69% Se logra motivar la vocación científica.
44% Necesario sensibilizar autoridades.
38% Existe articulación entre talleres y escuela.
31% Necesario motivar padres de familia.
R ESULTADOS
CONCLUSIONES
Al final del estudio, las conclusiones emanadas se integraron en
tres enunciados:
De textos a números y porcentajes. Fue posible a partir de tex-
tos no estructurados obtener formas intermedias numéricas que
permitieron rescatar y medir aspectos relevantes y de ahí generar
39
Manejo de datos...
BIBLIOGRAFÍA
40
Minería de texto y minería de datos
41
Manejo de datos...
42
Minería de Datos, el caso de estudio de la
Biblioteca Dr. Valentín Gómez Farías
de la Facultad de Medicina de la UNAM.
I NTRODUCCIÓN
43
Manejo de datos...
DESARROLLO
El proceso de Minería de Datos utilizado en este estudio se pre-
senta a continuación (Sigüenza-Guzmán 2015):
Diapositiva 1
44
Minería de texto y minería de datos
Diapositiva 2
45
Manejo de datos...
Diapositiva 3
46
Minería de texto y minería de datos
Diapositiva 4
47
Manejo de datos...
Diapositiva 5
3.A Clustering
Objetivo: se identificaron grupos de registros que son similares
entre ellos, pero diferentes del resto de los datos.
Software utilizado: Weka (Weka 3) es una colección de algorit-
mos de aprendizaje automático para tareas de minería de datos.
Contiene herramientas para la preparación de datos, su clasifica-
ción, regresión, agrupación, extracción de reglas de asociación y
visualización. Es un software de código abierto emitido bajo la Li-
cencia Pública General de GNU.
48
Minería de texto y minería de datos
Diapositiva 6
Esta imagen nos indica que el 94% de los datos pertenecen a la ca-
rrera de Médico Cirujano, por lo que se decidió dividir el conjunto
en dos apartados, lo que quedó de la siguiente forma:
Diapositiva 7
49
Manejo de datos...
Esta gráfica nos indica que el 99% de los libros que se prestan, son
devueltos a la biblioteca, pero de ellos, el 51% se regresa de ma-
nera tardía; es decir, después de la fecha indicada en el sistema.
Un fenómeno muy parecido sucede con el conjunto B.1, de las
otras carreras.
Diapositiva 8
50
Minería de texto y minería de datos
Diapositiva 9
Diapositiva 10
51
Manejo de datos...
Lo que esto nos indica es que los alumnos de las carreras de Cien-
cia Forense que obtienen los libros de aspectos públicos de la me-
dicina y los alumnos de Fisioterapia que se llevan en préstamo los
libros con clasificación de Anatomía Humana, Historia Humana y
Biología, representan a aquellos que devuelven los libros de ma-
nera tardía.
Adicionalmente WEKA nos muestra de manera gráfica, cómo
es que se visualizan los datos; aquí el ejemplo para el conjunto B,
de otras carreras.
Diapositiva 11
3.B Clasificación
Al ser éste un aprendizaje supervisado, asigna elementos de una
colección a categorías o clases de destino.
Software utilizado: RapidMiner es un programa para realizar mine-
ría de datos. No es software libre, cuenta con una versión educativa.
RapidMiner, con la ayuda del asistente, de manera muy rápida,
permite establecer la tarea de minería de datos. Siguiendo los pasos
del asistente y seleccionando la tarea de clasificación, es posible ob-
tener arboles de decisión, que presentan información de cada una
de las carreras.
52
Minería de texto y minería de datos
Diapositiva 12
Diapositiva 13
53
Manejo de datos...
Diapositiva 14
CONCLUSIONES
Con el apoyo de la estadística, se detectó que un gran porcentaje
de los libros que se prestan y que son devueltos, lo son de mane-
ra tardía (DV) (44%-46%).
Aplicando tareas de minería de datos, es posible conocer de
dichas devoluciones vencidas, a qué clasificación pertenecen y en
qué horario fueron prestadas.
Con dicha información se podría establecer que la multa no es
factor importante para la devolución del material bibliográfico; se
tendría que revisar la política para mejorar el regreso de libros en
tiempo.
El hecho de conocer la clasificación de los libros que se devuel-
ven de manera tardía, motiva a realizar nuevos análisis de estudio
de la colección, poniendo atención en dichas clasificaciones.
54
Minería de texto y minería de datos
F UENTES CONSULTADAS
55
Manejo de datos...
56
SISTEMATIZACIÓN DE DATOS Y
SERVICIOS DE INFORMACIÓN
Research Data Management and Libraries:
Opportunities and Challenges
K RYSTYNA K. M ATUSIAK
University of Denver
INTRODUCTION
59
Manejo de datos...
60
Sistematización de datos...
61
Manejo de datos...
the practice of science in such a way that others can collaborate and contri-
bute, where research data, lab notes and other research processes are fre-
ely available, under terms that enable reuse, redistribution and reproduction
of the research and its underlying data and methods. In a nutshell, Open
Science is transparent and accessible knowledge that is shared and develo-
ped through collaborative networks (Vicente-Sáez & Martínez-Fuentes 2018).
The concept of Open Science and the FAIR data principles have
been embraced by the European Commission and incorporated in-
to the European Open Science Cloud roadmap (European Commis-
sion 2018). A recent report examines the range of data skills needed
to support the implementation of FAIR principles and distinguishes
between research community skills, data science, and data steward-
ship (Hodson et al. 2018). The proponents of Open Data recognize
that not all data can be open and acknowledge the need to balance
openness and protection of sensitive data (European Commission
2016). Qualitative and personal data in social and health sciences
pose many challenges for sharing. Some data can be anonymized
and released while other data sets will need to remain closed. The
European Commission promotes the principle that data should be
“as open as possible, as closed as necessary” (European Commis-
sion 2016, p.4). Research data management is a critical component
of opening and sharing data and determining the levels of openness.
62
Sistematización de datos...
63
Manejo de datos...
64
Sistematización de datos...
65
Manejo de datos...
66
Sistematización de datos...
• Data management
• Data formats and file naming conventions
• Data cleaning and verification
• Data conversion
• Data description and documentation
• Metadata creation using standardized schemas
• Data deposit/publishing
• Ingest into repository systems
• Assigning identifiers
• Data anonymization
• Data security
• Archiving and preservation
67
Manejo de datos...
often impossible for one person to fulfill all the necessary skills
and competences found in job descriptions. The lack of technical
skills and hands-on experience with databases and scripting was
mentioned for professionals with library backgrounds.
RDM services were primarily located in academic libraries as
part of research and consultation departments or digital scholar-
ship units. University libraries represented that largest group in
the sample but the type of services, the stage of its development,
and the level of support for researchers varied greatly between
the sites. In the early stage of RDM development, academic libra-
ries usually focused on needs assessment, outreach, training, and
open access advocacy and provided consulting services on develo-
ping DMPs, metadata, and data curation practices. Academic libra-
ries with more advanced RDM services offered not only assistance
with DMPs, metadata, but also with data citation, data sharing and
with technical aspects of depositing data in repositories.
The study, however, demonstrated that academic libraries are
not the only centers of RDM services on university campuses. It
identified new organizational strategies, including embedded ser-
vices, distributed networks of RDM expertise, and multi-purpose
research data services centers. In the embedded model, librarians
were working on the faculty-led research projects and research labs
throughout the university. They provided support not only at the
beginning and end of the research cycle, but also shared expertise
and advice on best data management practices throughout the re-
search projects. Distributed networks often had formal structures
and were comprised of professionals with expertise in RDM, IT,
copyright, research ethics, and scholarly communication. Academic
librarians often served as coordinators and referred researchers to
the relevant “pockets of expertise” in the campus network. Distri-
buted networks represented efforts in community building around
improving data management practices and opening data.
Campus-wide research data service centers represent a new
model that reflects an evolution of services and recognition that a
more comprehensive suite of skills and expertise is necessary to
support data management. Three cases were identified in the sam-
68
Sistematización de datos...
ple – one in the United States and two in Europe. Both European
data service centers have evolved from RDM services originally lo-
cated at academic libraries. These new interdisciplinary initiatives
involved cross-campus collaboration and cooperation of several
units, including the university library, IT department, legal servi-
ces, and office for research. Research data service centers tended
to be multi-purpose and provided university research communities
not only with the expertise, tools, and infrastructure necessary
to manage research data but also offered support for other forms
of scholarly activities. Academic librarians were employed there
along IT specialists and legal experts.
The findings of the study indicate that RDM is an evolving so-
ciotechnical practice that involves not only technical systems and
services structured around research data life cycle but also a range
of social activities. The work of RDM professionals in improving
data management practices and advocating open access occurs
on multiple levels, starting with individual researchers and their
teams, building networks at their institutions, and then expanding
to regional, national, and international communities. The theme
of shared values and changing research culture was discussed by
participants from multiple countries, pointing to the emerging in-
ternational character of the RDM profession. Community building
emerged as an essential requirement for research data management
and involved a shared understanding of the benefits of managed
data and the impact of open data on scholarship and society.
69
Manejo de datos...
naging and curating data. The report prepared for the European
Open Science Cloud points to a shortage of data experts, estima-
ting that half a million specialists with expertise in managing data
will be needed to support researchers in the European Union (Ayris
et al. 2016). The new data-intensive research environment and the
global Open Science movement offer opportunities to expand li-
brary services beyond the traditional service roles in reference and
instruction. Librarians can actively participate in the research pro-
cess and contribute their unique expertise in information organiza-
tion, metadata, and archiving. RDM services can also utilize library
experience in outreach, open access advocacy, and training.
RDM also poses a set of new challenges for libraries as the field
is still in an emergent phase. The development of RDM services at
academic libraries involves restructuring and substantial investment
in staff and resources. It requires building technical infrastructure
for data storage and publishing and forming collaborative partners-
hips with multiple stakeholders on campus. The model of academic
libraries serving as a center of RDM services is prevalent but not
the only one. As the findings of the IFLA Data Curation project in-
dicate, the organizational models have been evolving and new ap-
proaches are emerging where librarians are embedded in research
projects or are becoming partners in campus-wide networks or re-
search data services centers. The new models require strong colla-
borative skills and building bridges between a library, information
technology unit, legal services, and other departments on campus.
The roles, responsibilities, and competencies of RDM librarians
are not clearly defined and the practices continue evolving. RDM
requires diverse expertise, not only in metadata and information
organization standards but also technical skills. RDM creates a de-
mand for information professionals with skills in managing and
curating data and with an understanding of the scientific pro-
cess and research methods. The findings of the IFLA Data Cura-
tion project point to some competency gaps in the traditional LIS
education, especially in technical training and research methods.
RDM as a new area of responsibility for librarians and information
professionals requires a combination of technical, instruction, re-
70
Sistematización de datos...
R EFERENCES
71
Manejo de datos...
72
Sistematización de datos...
73
Manejo de datos...
74
Integración de los principios de linked data
en el registro bibliográfico
I NTRODUCCIÓN
Linked Data extiende los principios de la World Wide Web desde la vin-
culación de los documentos hasta la de vincular piezas de datos y crear
una Web de Datos; especifica los datos y sus respectivas relaciones, y le
proporciona datos procesables por máquina a Internet. Está basado en
Técnicas estándar web, pero las amplía para proporcionar el intercambio
de datos y la integración. (Sakr, Sherif, et al. 2018, 9).
75
Manejo de datos...
76
Sistematización de datos...
77
Manejo de datos...
R EVISIÓN DE LA LITERATURA
La integración de los principios de Linked Data en el registro bi-
bliográfico es un tema que ha sido abordado con anterioridad. A
través de la formulación teórica de la web semántica y su relación
con las bibliotecas, pueden localizarse hallazgos significativos que
intentan explicar dicha integración mediante estudios de caso y
reflexiones teóricas, que exponen la evolución de los principios
de la organización de la información y la fuerte influencia que
ejercen los principios de la web semántica sobre estos postulados.
Por ejemplo, Alemu et al. (2012) realizaron un análisis teórico
que sugiere recomendaciones para llevar a cabo un cambio con-
ceptual de los metadatos centrados en el documento a metadatos
centrados en los datos. A su vez, discutieron la importancia de
ajustar los modelos de las biblioteca actuales, como RDA y FRBR
a los modelos basados en los principios de los datos enlazados.
Los datos bibliográficos requieren ser tratados de manera inde-
pendiente, pero inherente al recurso al cual pertenecen. Pues de
esta manera el análisis de los datos bibliográficos permitirá esta-
blecer un vínculo significativo entre aquellos datos que contengan
atributos similares. Para ello, es necesario que los principios bi-
78
Sistematización de datos...
79
Manejo de datos...
80
Sistematización de datos...
81
Manejo de datos...
82
Sistematización de datos...
83
Manejo de datos...
84
Sistematización de datos...
85
Manejo de datos...
86
Sistematización de datos...
canzar así las ventajas que la web semántica puede aportar al sec-
tor del patrimonio cultural.
Las dos investigaciones anteriores, fueron relevantes para com-
prender el camino a seguir en la implementación de Linked Data
en el registro bibliográfico. Pues a pesar de haber localizado una
considerable muestra de estudios de caso, la mayoría de ellos eran
abordados desde una perspectiva informática o enfocada al ámbi-
to computacional y tomaban como objeto de estudio datos de di-
versa tipología y naturaleza disciplinar.
De esta manera, para integrar los principios de Linked Data en
el registro bibliográfico, se tomó en cuenta la obra de El nombre
de la rosa, escrita en el año 1980 por el filósofo italiano Humber-
to Eco. Se utilizaron los elementos núcleo para la descripción de
manifestaciones señaladas en RDA y el formato MARC para obte-
ner dos ejemplificaciones básicas de la construcción del registro.
Se aplicaron los principios básicos de RDF para obtener la es-
tructura general del recurso que permitieran representar a los
datos bibliógrafos como un triple. A cada dato del registro biblio-
gráfico le fue asignado un URI. Cada dato bibliográfico debe con-
tar con un URI único e individual que tenga dependencia directa
con el sistema que los almacena y genera. En este sentido, cada
URI es irrepetible y representa a un dato dentro de un dominio
específico. Cada URI debe estar normalizado bajo principios inte-
roperables que le permitan vincularse con otra fuente ajena a la
biblioteca. La interoperabilidad entre los datos permitirá consul-
tarlos en diferentes plataformas y dispositivos.
87
Manejo de datos...
SUJETO
URI: http://el_nombre_de_la_rosa_work_rda
PREDICADO OBJETO
Elemento MARC Registro de los datos
http://marc.008/35-37 http://spa
http://marc.020 $a http://ISBN_978-970-810-026-7
http://marc.040 $a http://rda
$a http://Eco_Umberto
$d http://1932-2016
http://marc.100 $e http://Autor
http://marc.245 $a http://El_nombre_de_la_rosa
$c http://Umberto_Eco
http://marc.250 $a http://Segunda_edición
$a http://México
$b http://Random_House_Mondadori
http://marc.264 $c http://2004
$c http://1980
http://marc.300 $a http://783_páginas
http://marc.336 $a http://Texto
http://marc.338 $a http://Volumen
http://marc.650 http://Novela_histórica
http://marc.700 $a http://Ricardo_Pochtar
$e http://Traductor
88
Sistematización de datos...
SUJETO
URI: http://el_nombre_de_la_rosa_work_rda
PREDICADO OBJETO
Elemento RDA Registro de los datos
http://rda.título http://El_nombre_de_la_rosa
http://rda.mención_de_responsabilidad http://Umberto_Eco
http://rda.edición http://Segunda_edición
http://rda.lugar_de_publicación http://México
http://rda.editor http://Random_House_
Mondadori
http://rda.fecha_de_publicación http://2004
http://rda.copyright http://1980
http://rda.identificador_de_la_ http://ISBN_978-970-810-026-7
manifestación
http://rda.soporte http://Volumen
http://rda.extensión http://783_páginas
http://rda.tipo_de_contenido http://Texto
http://rda.idioma_de_la_expresión http://Español
http://rda.creador http://Eco_Umberto_1932-2016
http://rda.colaborador http://Ricardo_Pochtar
http://rda.designador_de_relación http://Traductor
http://rda.relación_temática http://Novela_histórica
89
Manejo de datos...
90
Sistematización de datos...
CONSIDERACIONES FINALES
La integración de los principios de Linked Data en el registro bi-
bliográfico, es un proceso intelectual y fundamentado basado en
el uso de normas como RDF, URIs y SPARQL. Se requiere que los
datos bibliográficos tengan mayor flexibilidad para adaptarse a en-
tornos interoperables de datos abiertos enlazados. Para ello, es ne-
cesario que el registro bibliográfico pueda vincularse con fuentes
externas al catálogo de la biblioteca.
Mediante la aplicación de los principios de Linked Data en el
registro bibliográfico, fue posible identificar la necesaria flexibili-
dad que requiere RDA y MARC para adaptarse a los principios de
91
Manejo de datos...
OBRAS CONSULTADAS
92
Sistematización de datos...
93
Manejo de datos...
94
Plan para el desarrollo de la Ciencia de Datos
y Big Data (PDCDBD) en la UNAM
con fines académicos y administrativos
I. ANTECEDENTES
1. En años recientes, la UNAM ha comenzado a incursionar en va-
rias líneas de trabajo y proyectos institucionales de índole acadé-
mica y administrativa que involucran el uso de las tecnologías de
Ciencia de Datos y Big Data. Dichas líneas y proyectos:
95
Manejo de datos...
96
Sistematización de datos...
97
Manejo de datos...
98
Sistematización de datos...
99
Manejo de datos...
100
Sistematización de datos...
101
Manejo de datos...
102
Sistematización de datos...
103
Manejo de datos...
104
Sistematización de datos...
• IIMAS.
• Centro Virtual de Computación.
• Ciencias.
• Ingeniería.
• Contaduría y Administración.
• Estudios Superiores Aragón.
• Institutos de Ingeniería II.
• Instituto de Ciencias Aplicadas y Tecnología.
105
Manejo de datos...
106
Sistematización de datos...
IV. OBJETIVO
Proporcionarle a la comunidad universitaria:
V. METAS
• Abastecer, en la medida de lo posible, los requerimientos de
la comunidad universitaria e incluso de otras instituciones y
entidades nacionales y extranjeras en materia de Ciencia de
Datos y Big Data.
• Iniciar la formación de especialistas que apoyen a la co-
munidad universitaria en el desarrollo de sus proyectos de
Ciencia de Datos y Big Data, y que asesoren la implementa-
ción de estas tecnologías en otras instancias locales, regio-
nales o nacionales.
• Implementar un modelo operativo y de negocios que gene-
re recursos financieros para el crecimiento y actualización
constante de los componentes necesarios para hacer Ciencia
de Datos y Big Data en la UNAM.
107
Manejo de datos...
Tabla 1. Líneas estratégicas y alcances del Plan para el desarrollo de la Ciencia de Datos
y Big Data en la UNAM para fines académicos y administrativos.
Línea. Alcance.
Disponer de los equipos y sistemas adecuados para atender las
ü Infraestructura. necesidades de Ciencia de Datos y Big Data de índole académica y
administrativa de la UNAM.
Establecer los programas académicos de formación de especialistas y
ü Capacitación.
becarios.
Brindar los nuevos servicios de Ciencia de Datos y Big Data a la
ü Servicios.
comunidad universitaria.
ü Desarrollo. De la ciencia de datos y Big Data a nivel local, regional y nacional.
Posicionar a la UNAM a la vanguardia de la Ciencia de Datos y el Big
ü Innovación.
Data en México, Latinoamérica y el mundo.
Que cubra un adecuado uso del hardware y software, manejo de
ü Marco normativo.
información, garantice la actualización constante de los recursos, etc.
No. Servicio. A B C
Aprovisionamiento de infraestructura de hardware y software. (Vía el
Centro de Datos de DGTIC ).
1 • Por medio de contenedores o máquinas virtuales, el lago de datos X X X
institucional y diversas herramientas de software colaborativo
disponibles en la nube.
Mesa de ayuda vía ticket desde el Centro de Datos de DGTIC.
2 • Sobre el aprovisionamiento de la infraestructura de hardware y X X X
software asignada y otros aspectos técnicos.
3 Soporte técnico. Básico X
4 Asesoría. Básica X
5 Consultoría para proyectos internos y externos. Limitada X
6 Cursos de capacitación. X X
7 Colaboración en proyectos internos y externos. X
108
Sistematización de datos...
109
Manejo de datos...
110
Sistematización de datos...
Tabla 3. Personal requerido para brindar los nuevos servicios Ciencia de Datos y Big Data.
111
Manejo de datos...
X I. CONCLUSIONES
Es estratégico para la UNAM iniciar el aprovechamiento de la in-
formación que se genera día con día, en cada una de sus áreas
académicas y administrativas a través de las tecnologías Ciencia
de Datos y el Big Data.
El reaprovechamiento de los componentes de la supercompu-
tadora Miztli, abre una excelente oportunidad para la UNAM de
disponer de los recursos tecnológicos necesarios para comenzar
a brindar nuevos servicios de Ciencia de Datos y Big Data a sus
áreas académicas y administrativas.
La UNAM requiere de las tecnologías de Ciencia de Datos y
de Big Data, para atender con eficiencia a su siempre creciente
comunidad.
112
Sistematización de datos...
X II. BIBLIOGRAFÍA
113
Manejo de datos. Una aproximación desde
los estudios de la información. La edición
consta de 100 ejemplares. Coordinación editorial,
Israel Chávez Reséndiz; revisión especializada,
Francisco Xavier González y Ortiz; revisión de
pruebas, Valeria Guzmán González; formación
editorial, Natalia Cristel Gómez Cabral. Instituto
de Investigaciones Bibliotecológicas y de la In-
formación / UNAM. Fue impreso en papel cultu-
ral de 90 gr. en los talleres de Grupo Fogra. Año
de Juárez 223. Col. Granjas San Antonio. Alcaldía
Iztapalapa. Ciudad de México. Se terminó de im-
primir en febrero de 2020.