1 BD Bases de Datos Avanzadas

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 53

Bases de datos

avanzadas
María José Aramburu Cabo
Ismael Sanz Blasco

Departament d’Enginyeria i Ciència


dels Computadors

Codi d’assignatura II52

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Edita: Publicacions de la Universitat Jaume I. Servei de Comunicació i Publicacions
Campus del Riu Sec. Edifici Rectorat i Serveis Centrals. 12071 Castelló de la Plana
http://www.tenda.uji.es e-mail: publicacions@uji.es

Col·lecció Sapientia, 73
www.sapientia.uji.es
Primera edició, 2013

ISBN: 978-84-695-6769-2

Publicacions de la Universitat Jaume I és una editorial membre de l’une,


cosa que en garanteix la difusió de les obres en els àmbits nacional i inter-
nacional. www.une.es

Reconeixement-CompartirIgual
CC BY-SA
Aquest text està subjecte a una llicència Reconeixement-CompartirIgual de Creative Com-
mons, que permet copiar, distribuir i comunicar públicament l’obra sempre que s’especifique
l’autor i el nom de la publicació fins i tot amb objectius comercials i també permet crear obres
derivades, sempre que siguen distribuïdes amb aquesta mateixa llicència.
http://creativecommons.org/licenses/by-sa/3.0/legalcode

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
CONTENIDOS

Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Capítulo 1
Bases de datos orientadas a objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1. Objetivos de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Evolución histórica de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . 12
3. Conceptos del modelo de datos orientado a objetos . . . . . . . . . . . . . . . . 14
3.1. Objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Identidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Propiedades de los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.1. Constructores de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.2. Referencias entre objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.3. Estado de los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4. Comportamiento de los objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.5. Clasificación e instanciación de objetos . . . . . . . . . . . . . . . . . . . . . . 20
4. Sistemas de gestión de bases de datos orientadas a objetos . . . . . . . . . . 21
4.1. Persistencia de objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2. Características de los sgbdoo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5. Diseño lógico de bases de datos orientadas a objetos . . . . . . . . . . . . . . . 25
5.1. Agregación y asociación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2. Generalización, especialización y herencia . . . . . . . . . . . . . . . . . . . . 26
5.3. Polimorfismo de métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.4. Diseño lógico de bases de datos oo . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.5. Ejemplo de diseño de una base de datos orientada a objetos . . . . . . . 31
6. Consultas en bases de datos orientadas a objetos . . . . . . . . . . . . . . . . . . . 34
6.1. Puntos de acceso y variables iterador . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2. Caminos de acceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.3. Lenguaje de consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
7. Diseño físico de bases de datos orientadas a objetos . . . . . . . . . . . . . . . . 40
7.1. Índices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7.2. Agrupamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 3 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Capítulo 2
Sistemas de recuperación de información y documentos
estructurados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.1. Objetivos de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2. Sistemas de bases de datos versus sistemas de recuperación
de información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3. Visión general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1. La tarea de recuperar información . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2. Arquitectura de un sri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4. Modelos de representación de documentos . . . . . . . . . . . . . . . . . . . . . . . 54
4.1. Represtación del contenido textual . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.1. Matriz de términos/documentos . . . . . . . . . . . . . . . . . . . . . . . 55
4.2. Metadatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3. Documentos estructurados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1. Introducción al lenguaje xml . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5. Modelos de recuperación de información . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1. Modelo booleano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2. Modelo vectorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.1. Estimación de los pesos: el modelo tf.idf . . . . . . . . . . . . . . . . . 62
5.3. Modelo probabilístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4. PageRankTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6. Evaluación de un sri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7. Mecanismos de consulta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.1. Palabras clave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2. Patrones de búsqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.3. Relevancia de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4. Recuperación de documentos estructurados . . . . . . . . . . . . . . . . . . . 71
8. Almacenamiento de documentos en un sri . . . . . . . . . . . . . . . . . . . . . . . 72
8.1. Etapas del proceso de indexación de documentos . . . . . . . . . . . . . . 72
8.2. Tesauros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
9. Técnicas de indexación y búsqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9.1. Tries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
9.2. Ficheros invertidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9.2.1. Búsqueda en un fichero invertido . . . . . . . . . . . . . . . . . . . . . . 78
9.2.2. Construcción de un fichero invertido . . . . . . . . . . . . . . . . . . . 78
9.3. Ficheros de signaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.4. Indexación de documentos estructurados . . . . . . . . . . . . . . . . . . . . . 80
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Capítulo 3
Bases de datos distribuidas e integración de información distribuida . . 91
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
1.1. Objetivos de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2. Definición de bases de datos distribuidas . . . . . . . . . . . . . . . . . . . . . . . 94
3. Acceso a los datos de una base de datos distribuida . . . . . . . . . . . . . . . . 95

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 4 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
3.1. El papel del diccionario de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4. Características de los sistemas de bases de datos distribuidas . . . . . . . . 97
4.1. Autonomía local de los nodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2. Heterogeneidad de datos y sistemas . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.3. Distribución de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5. Diseño de bases de datos distribuidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1. Diseño de la distribución de los datos . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1.1. Fragmentación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.1.2. Réplica de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2. Etapas del diseño de sbdd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6. Procesamiento de consultas en bases de datos distribuidas . . . . . . . . . . . . 104
6.1. Ejemplo de procesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.2. Semi-joins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.3. Pasos del procesamiento de consultas distribuidas . . . . . . . . . . . . . . . 108
7. Propagación de actualizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7.1. Snapshots o instantáneas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8. Integración de información distribuida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.1. El proceso de integrar información distribuida . . . . . . . . . . . . . . . . . 111
8.2. Reconciliación de datos para su integración . . . . . . . . . . . . . . . . . . . 113
8.3. Arquitecturas para integrar información distribuida . . . . . . . . . . . . . . 114
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 5 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Prólogo
Esta publicación incluye los apuntes de teoría de una asignatura de cuyo nombre
adopta el título de Bases de datos avanzadas. Dicha asignatura se ofrece como
optativa en dos titulaciones de la Universitat Jaume I de Castellón: en cuarto curso
de Ingeniería Informática (Plan 2001) y en tercer curso de Ingeniería Técnica en
Informática de Gestión (Plan 2001).

En su más amplio sentido, podría decirse que las bases de datos avanzadas son to-
das aquellas con funcionalidades que no son propias de las bases de datos relacio-
nales tal y como se concibieron en sus inicios por E. F. Codd. En una publicación
sobre bases de datos avanzadas es posible incluir un enorme rango de modelos
desarrollados con el fin de abordar aplicaciones que no pueden resolverse con
las bases de datos relacionales. A continuación enumeramos un amplio grupo de
tipos de bases de datos avanzadas diferentes entre sí: orientadas a objetos, objeto-
relacionales, activas, multimedia, científicas, estadísticas, espaciales, temporales,
multidimensionales, semiestructuradas, deductivas, difusas, con restricciones, dis-
tribuidas, federadas, móviles, multi-bd, Grid, paralelas, no-sql, etc.

Una asignatura en la que rápidamente se presenten todos estos modelos avanzados


requeriría unos conocimientos previos que no son propios de estudiantes de tercer
y cuarto curso, sino más bien de estudiantes de máster y doctorado. Por esta razón,
cuando diseñamos los contenidos de esta asignatura, en lugar de hacer una revi-
sión de todos estos modelos, decidimos abordar con más profundidad un reducido
número de temas que consideramos fundamentales para un ingeniero en sistemas
de información. En consecuencia, en esta publicación se incluyen los siguientes
temas:

1. Bases de datos orientadas a objetos. Aunque en el mercado actual de bases


de datos las orientadas a objetos no han logrado encontrar una buena posi-
ción, sí es un hecho que el modelo de bases de datos objeto-relacional ha
sido paulatinamente incorporado en los sistemas de gestión de bases de da-
tos más utilizados como Oracle o Postgresql. Las funcionalidades que pro-
porcionan los sistemas objeto-relacionales han permitido desarrollar nuevas
aplicaciones con tipos de datos complejos como por ejemplo las bases de da-
tos geográficos. Los estudiantes de esta asignatura realizan prácticas en las
que diseñan e implementan bases de datos objeto-relacionales con Oracle.
Entendemos que una buena utilización del modelo objeto-relacional requie-
re adquirir previamente suficiente destreza en el manejo de los conceptos y
lenguajes propios de las bases de datos orientadas a objetos.

2. Sistemas de recuperación de información. Ciertamente los sistemas de


recuperación de información textual no pueden ser considerados sistemas
de bases de datos ya que no soportan la mayoría de las funciones típicas de
los sistemas de gestión de bases de datos, ni proporcionan lenguajes que
permitan manipular y relacionar la información como se hace con sql. Sin
embargo, hemos encontrado suficientes razones para incluir este tema en

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 7 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
una asignatura de bases de datos avanzadas. La razón principal es que estos
sistemas ofrecen una serie de tecnologías que hoy en día se requieren en
muchos sistemas de información que además de datos estructurados deben
gestionar documentos. De hecho, desde hace ya varios años, los principales
sistemas de gestión de bases de datos han sido extendidos con módulos para
la indexación y recuperación de textos planos y documentos estructurados,
principalmente en formato xml. Los estudiantes de esta asignatura realizan
prácticas con Oracle para almacenar y recuperar textos planos y documentos
xml. A través de este capítulo esperamos que sean capaces de comprender el
funcionamiento de los sistemas de recuperación de información, y también
de utilizar estos conocimientos para explotarlos mejor tanto a la hora de
recuperar información como de desarrollar nuevos sistemas de información
textual.

3. Bases de datos distribuidas. En el último capítulo de esta publicación he-


mos querido proporcionar a los estudiantes algunos conocimientos básicos
para iniciarlos en la compleja tarea de desarrollar sistemas de información
que integren datos provenientes de varias fuentes. Internet ha facilitado
enormemente el intercambio de datos entre fuentes separadas entre sí, así
como el diseño de sistemas de bases de datos en los que las aplicaciones y
los ficheros de información se almacenan distribuidos en sitios remotos. No
obstante, desde el punto de vista de su diseño y eficiencia, estas bases de
datos tienen una serie de peculiaridades que dificultan su utilización. El ob-
jetivo de este capítulo es que los estudiantes comprendan los requerimientos
propios de un sistema de información distribuido y se inicien en los métodos
disponibles para su diseño y desarrollo.

Esperamos que esta publicación sirva de ayuda tanto para estudiantes de la titu-
lación Ingeniería Informática como para profesionales de la informática que re-
quieran actualizar sus conocimientos. Sin embargo, probablemente antes de que
pase mucho tiempo sus contenidos deberán ser revisados, ya que las bases de
datos siguen avanzando rápidamente, al igual que el resto de áreas de la ingeniería
informática.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 8 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
capítulo 1

Bases de datos orientadas


a objetos

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 9 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
1. Introducción
Las bases de datos relacionales son, hoy en día, las más utilizadas en la mayoría
de los ámbitos de aplicación. La estructura de datos básica que ofrece, la tabla re-
lacional, es apropiada para muchas aplicaciones habituales. Sin embargo, existen
casos de uso en los que presenta serios inconvenientes prácticos, generalmente si
se requiere gestionar datos muy complejos o no convencionales (imágenes, do-
cumentos...), para los que las estructuras relacionales resultan muy complejas e
ineficientes. Algunos ejemplos de gran importancia práctica son las bases de datos
multimedia, las bases de datos científicos y los sistemas de apoyo al diseño indus-
trial (cad/cam).

Las bases de datos orientadas a objetos intentan dar respuesta a estos problemas,
incorporando las siguientes características:

• Adoptan como modelo de datos el de los lenguajes orientados a objetos,


permitiendo así el uso de estructuras de datos tan complejas como sea nece-
sario, y eliminando en gran medida las barreras entre el desarrollo de aplica-
ciones y la gestión de datos.

• Permiten la extensibilidad con nuevos tipos de datos complejos, permitiendo


incorporar operaciones arbitrarias sobre ellos.

Estas características han motivado el desarrollo de numerosos sistemas orientados


a objetos, que se han establecido en nichos en los que los casos de uso mencio-
nados son importantes. Además, la actual emergencia de aplicaciones web que
requieren estructuras de datos muy flexibles está motivando un gran interés en
sistemas capaces de soportarlas, como es el caso de las bases de datos orientadas
a objetos.

En este capítulo estudiaremos las principales características del modelo datos


orientado a objetos, así como de los sistemas basados en él. También introducire-
mos conceptos sobre el desarrollo y uso de estos sistemas: diseño lógico, físico y
lenguajes de consulta.

1.1. Objetivos de aprendizaje


Los objetivos de aprendizaje de este capítulo se enumeran a continuación:

a) Explicar los principales casos de uso de las bases de datos orientadas a objetos.
b) Diferenciar las bases de datos orientadas a objetos, las objeto-relacionales y
las relacionales.
c) Explicar los principales conceptos del modelo de datos orientado a objetos.
d) Explicar el concepto de persistencia de objetos y sus implementaciones típi-
cas en la práctica.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 11 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
e) Explicar las principales características de los sistemas de gestión de bases de
datos orientados a objetos.
f) Describir las principales primitivas de diseño lógico orientado a objetos.
g) Diseñar una base de datos orientada a objetos a partir de un diagrama enti-
dad/relación.
h) Realizar consultas simples sobre bases de datos orientadas a objetos usando
el lenguaje oql.
i) Describir los principales métodos de diseño físico para bases de datos orien-
tado a objetos.

2. Evolución histórica de las bases de datos


Los modelos de datos en que se basan los sistemas de gestión de bases de datos
han ido evolucionando con el tiempo como se muestra en la figura 1.1. Esta evo-
lución se ha visto determinada por las necesidades de cada momento. Por ejemplo,
hasta bien entrada la década de 1980 prácticamente las únicas aplicaciones en que
se usaban bases de datos eran de tipo comercial: contabilidad, gestión de pedidos
de clientes, etc. Por ello, los modelos de datos predominantes hasta ese momento
(jerárquicos, de red y relacional) estaban orientados al manejo de los tipos de datos
que requieren esas aplicaciones, que son muy sencillos: números (especialmente
para almacenar cantidades) y textos cortos (para describir asientos contables, o
nombres y direcciones de clientes). Estos modelos y en especial el relacional, han
tenido una gran aceptación para desarrollar la tecnología de bases de datos nece-
saria en las aplicaciones tradicionales de negocios y gestión.

Figura 1.1. Evolución de los modelos de bases de datos.

Sin embargo, a mediados de los años ochenta del pasado siglo, con la explosión
del uso de los microordenadores a nivel empresarial y la aparición de los tipos de
datos multimedia, se expandieron enormemente los tipos de aplicaciones en los
que era necesario utilizar bases de datos, y se hicieron evidentes las limitaciones
en los modelos de datos tradicionales: no eran capaces de tratar los tipos de datos
complejos que eran necesarios, por ejemplo, en aplicaciones como el diseño y la

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 12 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
fabricación asistidas por ordenador (cad/cam, cim), las bases de datos gráficas y
de imágenes, las bases de documentos y multimedia, y los sistemas de informa-
ción geográfica. Estas nuevas aplicaciones tienen requerimientos y características
diferentes a los de las aplicaciones de negocios: estructuras más complejas para
los datos, transacciones de mayor duración, nuevos tipos de datos para almacenar
imágenes o grandes bloques de texto, y la necesidad de definir operaciones espe-
cíficas para cada aplicación. En aquellos momentos las bases de datos relacionales
no disponían de mecanismos adecuados para implementar las nuevas aplicaciones.

Las bases de datos orientadas a objetos (bdoo) se propusieron con el objetivo de


satisfacer las necesidades de las aplicaciones anteriores, al proporcionar un mode-
lo de datos mucho más rico y extensible, y así complementar (aunque no sustituir)
a las bases de datos relacionales. Además, el modelo de datos proporcionado por
las bdoo es equivalente al de los lenguajes de programación orientados a objetos,
como C++ o Java. Esto tiene la gran ventaja de que, al compartir el modelo de
datos, se pueden integrar las bdoo con el software usado para desarrollar aplicacio-
nes, de manera directa y casi transparente. En cambio, en las aplicaciones basadas
en bases de datos relacionales es necesario usar dos lenguajes muy diferentes (un
lenguaje de programación para la aplicación, y sql para el acceso a la base de
datos), lo que implica realizar costosas conversiones entre los formatos de datos
usados en cada uno de los dos lenguajes.

La necesidad de disponer de nuevas características para el modelado de datos


complejos ha sido reconocida por los principales vendedores de sistemas de ges-
tión de bases de datos relacionales. Así las últimas versiones de estos sistemas han
ido incorporando muchas de las funcionalidades que inicialmente se propusieron
para las bdoo dando lugar a las bases de datos objeto-relacionales (bdor). Las
últimas versiones del estándar sql, a partir de sql99, también incluyen muchas de
estas funcionalidades. Entre ellas se incluyen la posibilidad de almacenar en tablas
relacionales grandes objetos binarios (denominados «blobs», por Binary Large
OBjects), como imágenes, sonido o video; las herramientas de gestión de docu-
mentos (índices y operadores específicos para buscar texto, soporte de xml); y
otras extensiones para soportar datos geográficos. Las últimas versiones del están-
dar sql, a partir de sql99, también dan soporte a muchas de estas características.

Por lo tanto, podemos hablar de varios niveles de soporte de la tecnología orienta-


da a objetos en bases de datos:

• A pequeña escala se encuentran las librerías que permiten el almacenamien-


to persistente de objetos. Estas están disponibles para cualquier lenguaje
de programación orientado a objetos, pero en muchos casos no incorporan
características avanzadas, como soporte transaccional o multiusuario.
• Después están las bases de datos objeto-relacionales, para aplicaciones que
requieren usar algunos tipos de datos complejos en un entorno esencialmen-
te relacional, y que se basan en extensiones orientadas a objetos de sql.
• Finalmente, las bases de datos orientadas a objetos puras proporcionan una
gestión de bases de datos orientadas a objetos a todos los niveles, desde la
definición de datos al lenguaje de consulta.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 13 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
A este respecto, y de manera análoga a las «12 reglas de Codd» que establecen
los requisitos que debe cumplir una base de datos relacional, se han descrito una
serie de reglas para poder caracterizar hasta qué punto una base de datos soporta
características orientadas a objetos. Estas reglas se describirán en la sección 4.2.
de este capítulo.

3. Conceptos del modelo de datos orientado a objetos


En esta sección se definen los diferentes conceptos que componen el modelo de da-
tos de las bases de datos orientadas a objetos: identidad de los objetos, constructores
de tipos y objetos, referencias entre objetos, estado de los objetos, comportamien-
to de los objetos, y finalmente clasificación e instanciación de objetos. La sección
termina con una figura que resume y relaciona todos estos conceptos.

3.1. Objetos
En las bases de datos orientadas a objetos todos los elementos que se manejan
son objetos. Cada objeto se corresponde con una entidad de la realidad, y define
sus propiedades y comportamiento. Formalmente, tal y como se representa en la
figura 1.2, un objeto es una representación abstracta de una entidad del mundo
real que tiene una identidad única dentro de la base de datos, unas propiedades
incorporadas en sí mismo, y un comportamiento que le proporciona la capacidad
de interaccionar con otros objetos y consigo mismo. Los objetos que comparten
propiedades y comportamiento forman clases, de las que trataremos más adelante.

Figura 1.2. Componentes de un objeto

Los objetos, al igual que las filas de las bases de datos relacionales, expresan las
propiedades de los elementos de la realidad. Sin embargo, los objetos, al contrario
que las tuplas, tienen identidad y son elementos activos, de tal forma que poseen
un comportamiento y pueden interaccionar entre sí.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 14 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
3.2. Identidad
La parte más importante de un objeto es su identidad única. La identidad de cada
objeto se representa por medio de un oid (Object Identifier), el cual es único para
ese objeto. De esta forma es imposible que dos objetos puedan compartir el mismo
oid. El oid es asignado por el sistema en el momento en que el objeto es creado y
no puede ser alterado bajo ninguna circunstancia. El oid de un objeto no es visible
para el usuario externo, sino que el sistema lo utiliza internamente para identificar
al objeto, y para referenciarlo desde otros objetos.

La diferencia entre un oid y una clave primaria está en que la clave primaria se
basa en los valores dados por los usuarios para ciertos atributos, los cuales pueden
ser alterados en cualquier momento. Sin embargo, el oid es asignado por el siste-
ma, debe ser independiente del valor de cualquier atributo, y no puede ser altera-
do. El oid solo puede desaparecer cuando su objeto lo haga, y en ese caso nunca
puede volver a ser utilizado. Por último, el oid tampoco puede referirse a ninguna
dirección de memoria. Así se consigue que la manera en que se representan los
objetos y sus relaciones sea independiente del formato de almacenamiento físico
de los datos.

Dos objetos con el mismo oid se consideran idénticos: se trata a todos los efectos
del mismo objeto. Es importante remarcar que dos objetos que no sean idénticos
pueden ser iguales si sus valores también lo son. Se trata de dos conceptos de
igualdad diferentes, que tanto los lenguajes como las bases de datos orientadas a
objetos diferencian claramente. Por ejemplo, en el lenguaje Java se usa el operador
== para comprobar si dos objetos son idénticos, y el método equals() para com-
probar si sus valores son iguales. Por ejemplo:

public class IdentidadOIgualdad {


public static void main(String[] args) {
String a = new String("Hola");
String b = new String("Hola");

System.out.println(a == b);
System.out.println(a.equals(b));
}
}

Dado que los dos objetos a y b no son idénticos (operador ==) pero sí de igual va-
lor (método equals()), como resultado de ejecutar el código anterior se muestra
como resultado:

false
true

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 15 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
3.3. Propiedades de los objetos
Cada objeto de una base de datos tiene asignado un valor que expresa sus propie-
dades y que puede ser actualizado a lo largo del tiempo. El valor de un objeto se
ajusta a una estructura de datos que puede ser tan compleja como sea necesario.
Esta estructura de datos se construye a partir de unos tipos de datos básicos por
medio de unos constructores de tipos de datos y de tipos de objetos, que se pueden
combinar arbitrariamente.

Entre los tipos de datos básicos que proporcione un sistema de gestión de bases
de datos orientadas a objetos (sgbdoo) también pueden aparecer tipos de datos
multimedia y texto. En este caso, el sistema también debe proveer las operaciones
necesarias para manipular los valores multimedia y textuales. Asimismo, los sgb-
doo más avanzados permiten al usuario definir sus propios tipos de datos básicos
con sus propias operaciones. Esto hace al sistema muy flexible y capaz de soportar
los datos de cualquier aplicación.

3.3.1. Constructores de objetos

Los constructores se dividen entre constructores de átomos (elementos de los do-


minios básicos: enteros, reales, cadenas, etc.), y de colecciones, que suelen ser
tuplas ([…]), conjuntos ({…}) y listas (//…//). Las tuplas tienen varios compo-
nentes llamados atributos con un nombre y un tipo. Los conjuntos son un número
de 0 o más elementos del mismo tipo y que no se repiten. Las listas son como los
conjuntos pero conservando el orden de inserción. Los bdoo, como los lenguajes
de programación oo, pueden proporcionar otros tipos de colecciones.

Los valores de los objetos se construyen a partir de los átomos (valores reales,
enteros, cadenas, etc.) y también a partir del conjunto de oid de todos los objetos
existentes en la base de datos. A la hora de construir los valores, los constructores
pueden ser anidados dando lugar a valores con estructuras complejas. Por ejemplo,
los siguientes objetos representarían en una base de datos a dos objetos: el primero
a un empleado y el segundo al departamento que dirige.

o1 = (OID = oid_e1,
valor = [‘José García’,
‘99.999.999-X’,
[1980, 12, 10],
V,
oid_d1
] )

o2 = (OID= oid_d1,
valor= [‘Informática’,
17,
[oid_e1, [1999, 10, 17] ],
{‘Castellón’, ‘Valencia’, ‘Alicante’},
{oid_e1, oid_e13, oid_e11, oid_e17, oid_e5, oid_e3, oid_e2}
] )

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 16 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Los lenguajes de definición de datos orientados a objetos permiten definir los ti-
pos de los datos y los tipos de objetos necesarios para construir los objetos de una
aplicación concreta. En los ejemplos de este capítulo, utilizaremos un lenguaje de
definición de datos simplificado, basado en el lenguaje O2C del sgbdoo O2. Las
palabras reservadas tuple, set y list permiten definir los tipos tupla, conjunto y lista
respectivamente, y para los tipos atómicos asumiremos que están disponibles los ti-
pos de datos básicos más habituales (integer, string, real...). En este lenguaje, los tipos
de los dos objetos anteriores se definen de la siguiente manera.

define data type Fecha


tuple [ año: integer,
mes: integer,
dia: integer]

define object type Empleado


tuple [ nombre: string,
dni: string,
fecha_nac: Fecha,
sexo: char,
depto: Departamento]

define object type Departamento


tuple [ nombred: string,
numerod: integer,
dirigido: tuple [ gerente: Empleado,
fecha_inic: Fecha],
sedes: set(string),
empleados: set(Empleado)]

Como puede verse en el ejemplo, hemos definido un tipo de datos (data type) Fecha
para simplificar la definición los tipos de objetos (object type) Empleado y Depar-
tamento. Los tipos de datos se utilizan para simplificar la definición de tipos de
objetos, y representan estructuras de datos que se reutilizan en la definición de las
propiedades de distintos tipos de objetos (como fechas o direcciones), y no van a
tener existencia independiente: en ningún caso va haber objetos «Fecha» con iden-
tidad propia. Es muy importante hacer notar esta distinción entre «object type»
para definir objetos, y «data type» que se utiliza exclusivamente para facilitar la
definición de las propiedades de los tipos de objetos.

3.3.2. Referencias entre objetos

Todo atributo de un tipo tiene un dominio asignado, que puede ser un tipo de datos
o un tipo de objetos previamente definidos. Como puede verse en el ejemplo ante-
rior, cuando el valor de un atributo es de un tipo de objetos (p.ej. depto), en lugar
de asignar al atributo todo el valor, se le asigna el oid del objeto. En ningún caso se
copia el valor del objeto destino (salvo que así se decidiera explícitamente), sino
que se usa el oid.

Así, los atributos cuyo dominio sea un tipo de objetos en realidad se implementan
como referencias usando el oid, y representan relaciones entre los objetos. Una
relación binaria entre dos objetos se puede representar en una sola dirección o en

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 17 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
ambas direcciones (referencia inversa). Esta última representación hace más fácil
recorrer la relación en ambas direcciones, y será la que nosotros usaremos exclu-
sivamente.

En el ejemplo anterior, el tipo Empleado tiene un atributo depto que hace referen-
cia a un objeto de tipo Departamento. Esta relación también se ha representado en
la dirección inversa ya que el tipo Departamento tiene definida una componente
empleados como un conjunto de objetos Empleado. Para asegurar la integridad de
las referencias cruzadas el usuario puede utilizar una cláusula inverse de la misma
manera que en el ejemplo siguiente. También hay que fijarse en que la relación ge-
rente solo se ha representado en una dirección, por lo que no lleva cláusula inverse
asociada. La definición completa de estos dos tipos se presenta a continuación.

define object type Empleado


tuple[ nombre: string,
dni: string,
fecha_nac: Fecha,
sexo: char,
depto: Departamento inverse Departamento:empleados]

define object type Departamento


tuple[ nombred: string,
numerod: integer,
dirigido: tuple[ gerente: Empleado,
fecha_inic: Fecha],
sedes: set(string),
empleados: set(Empleado) inverse Empleado:depto]

3.3.3. Estado de los objetos

El estado de un objeto es el valor que tiene asignado dicho objeto en un momento de-
terminado. Esto significa que cuando las propiedades de un objeto cambian, su valor
debe ser actualizado en la base de datos, haciendo pasar el objeto a un nuevo estado.

Como se ha indicado anteriormente, es posible que en algún momento dos objetos


no idénticos (con distinto oid) sean iguales (tengan el mismo valor). Es posible de-
finir distintos conceptos de igualdad entre valores, como veremos con un ejemplo.
Consideremos los siguientes objetos:

o1 = ( OID= oid_1, valor= [‘Hola’] )


o2 = ( OID= oid_2, valor= [‘Hola’] )
o3 = ( OID= oid_3, valor= [oid_1] )
o4 = ( OID= oid_4, valor= [oid_2] )

Los objetos o1 y o2 son claramente iguales, ya que tienen el mismo valor. Sin em-
bargo, la relación entre o3 y o4 es ambigua. Por un lado, sus valores son diferentes,
pero por otro lado, si seguimos las referencias, comprobamos que ambas apuntan
a objetos que tienen el mismo valor. Esto nos lleva a las siguientes definiciones:

• La igualdad superficial, que se comprueba comparando los valores del esta-


do, sin seguir referencias.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 18 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
• La igualdad profunda, que se comprueba comparando los valores del estado,
y (recursivamente) los valores de los objetos referenciados.

Con estas definiciones:

• Los objetos o1 y o2 son iguales tanto superficial como profundamente.


• Los objetos o3 y o4 no son iguales superficialmente, pero sí profundamente.

Esta distinción también se suele tener en cuenta al copiar los valores de los ob-
jetos, y en muchos casos se proporcionan operaciones distintas para copiar los
valores tanto superficialmente como profundamente. Por ejemplo, en el lenguaje
Python existen las funciones copy.copy() y copy.deepcopy(), que realizan la copia
superficial y profunda de un objeto respectivamente.

3.4. Comportamiento de los objetos


El comportamiento de los objetos se representa por medio de operaciones que se
ejecutan sobre ellos. Toda operación que deba realizarse sobre un objeto tiene que
estar previamente implementada. Las operaciones se usan para crear y eliminar
objetos, para cambiar los valores de los atributos de los objetos, para conocer su
valor, o para realizar operaciones mucho más complejas que pueden involucrar a
muchos objetos. En general las operaciones representan las acciones del mundo
real, es decir, representan el comportamiento de los objetos.

Cada operación tiene una signatura y un método. La signatura es la parte públi-


ca de la operación, mientras que el método es un procedimiento implementado
en algún lenguaje de programación y que permanece oculto para los usuarios.
Los métodos que se asocian a cierto objeto pueden acceder directamente a sus
atributos y hacer estos contenidos visibles al exterior, pudiendo realizar alguna
computación previa sobre ellos. Por ejemplo, se puede escribir un método que lea
la fecha de nacimiento de un empleado y proporcione como resultado la edad de
dicho empleado.

Figura 1.3. Comunicación entre objetos

La ejecución de una operación se conceptualiza como el envío de un mensaje a


un objeto: un mensaje se envía a un determinado objeto, y contiene el nombre de
la operación y los parámetros necesarios para que el método asociado se ejecute.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 19 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
El método se ejecuta sobre el objeto que recibe el mensaje. Como ilustra la figura
1.3, estos métodos pueden enviar sus propios mensajes a otros objetos y utilizar el
resultado devuelto en su computación sobre el objeto inicial.

Es importante saber que la estructura interna de los objetos (o sea, su valor) puede
ocultarse, lo que impide que pueda ser accedida directamente si no es por medio
de un método. Esta habilidad de esconder los detalles internos de los objetos se
denomina encapsulación, y es una de las ventajas más importantes del modelo
orientado a objetos, ya que facilita la manipulación de los objetos desde las apli-
caciones, al tiempo que asegura su integridad.

3.5. Clasificación e instanciación de objetos


Las bases de datos orientadas a objetos clasifican los objetos de acuerdo a sus
similitudes. Una clase es un conjunto de objetos que comparten unas propiedades
(tipo de objetos) y un comportamiento (operaciones). La instanciación es el pro-
ceso inverso al de la clasificación y consiste en generar los objetos de una clase.
Veamos el siguiente ejemplo de definición de las clases de una base de datos:

define object type Empleado extent Los_empleados


type
tuple[ nombre: string,
dni: string,
fecha_nac: Fecha,
sexo: char,
depto: Departamento inverse Departamento:empleados]
operations
crear_nuevo_empleado:Empleado,
destruir_emp():boolean,
edad():integer;

define object type Departamento extent Los_departamentos


type
tuple[ nombred: string,
numerod: integer,
dirigido: tuple[gerente: Empleado, fecha_inic: Fecha],
sedes: set(string),
empleados: set(Empleado) inverse Empleado:depto]
operations
crear_nuevo_depto:Departamento,
destruir_depto():boolean,
numero_de_emps():integer,
añadir_emp(e:Empleado):boolean,
quitar_emp(e:Empleado):boolean;

Cada objeto de la base de datos es instancia de una clase. El conjunto de instancias


de una clase se denomina su extensión, a la que se da un nombre explícito mediante
la cláusula extent. Para crear y eliminar las instancias, toda clase debe disponer de un
método de creación (constructor) y otro de eliminación de instancias (destructor).

El conjunto de operaciones de una clase constituye su aspecto público y se deno-


mina interfaz o protocolo de acceso. Los cuerpos de los métodos se implementan

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 20 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
aparte utilizando alguno de los lenguajes de programación disponibles en el sgb-
doo que se esté utilizando. Normalmente el sgbdoo está acoplado a un lenguaje de
programación orientado a objetos para implementar las operaciones de los objetos
y las aplicaciones de las bases de datos.

Para terminar esta sección, la figura 1.4 muestra de manera gráfica los distintos
conceptos del modelo de datos orientado a objetos, y las relaciones entre ellos.

Figura 1.4. Resumen de conceptos básicos del modelo orientado a objetos

4. Sistemas de gestión de bases de datos orientados


a objetos
Como se ha comentado anteriormente, el hecho de que las bases de datos orien-
tadas a objetos y los lenguajes de programación orientados a objetos compartan
el mismo modelo de datos permite desarrollar aplicaciones sobre bdoo de manera
casi transparente, en contraste con las laboriosas transformaciones de datos que
son necesarias en las aplicaciones desarrolladas sobre bases de datos relacionales.
Sin embargo, hay que tener en cuenta los siguientes factores:

• Desde el lenguaje de programación orientado a objetos es necesario indicar


qué objetos se guardarán en la base de datos (serán persistentes) y cuáles no;
esto se trata en la sección 4.1 de este capítulo.

• Según los requisitos de la aplicación a desarrollar, se deberá utilizar un sgb-


doo con determinadas características. En la sección 4.2 de este capítulo se
describen estas características, siguiendo el Manifiesto bdoo, análogo a las
12 reglas de Codd del modelo relacional.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 21 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
4.1. Persistencia de objetos
A la hora de implementar aplicaciones sobre bdoo, una decisión muy importante
es qué objetos deberán permanecer en la base de datos una vez que el programa
haya terminado, y cuáles no. Los objetos transitorios desaparecen una vez que el
programa que los creó termina de ejecutarse, mientras que los objetos persistentes
permanecen almacenados en la base de datos.

Para hacer un objeto persistente hay tres alternativas. La primera es marcarlo ex-
plícitamente como persistente. En el siguiente ejemplo en Java se utiliza la bdoo
db4o (db4objects) para crear un objeto de tipo Empleado, que a continuación se
marca como persistente usando el método store para tal efecto. El objeto conte-
nedor encapsula el almacenamiento de objetos.

Empleado empleado = new Empleado("Joan", "Cardona", "Vives");


contenedor.store(empleado);

A partir de este momento, todos los cambios que se produzcan en este objeto se
guardarán automáticamente. Al marcar un objeto como persistente existe la posi-
bilidad de asignarle un nombre único dentro de la base de datos, a través del cual
el sgbdoo permite a los usuarios y a los programas acceder a él. Los objetos con
nombre único suelen ser pocos y sirven como puntos de acceso a la base de datos.

La segunda alternativa para hacer un objeto persistente es hacerlo alcanzable a


partir de otro objeto ya marcado como persistente. Se dice que un objeto A es
alcanzable desde otro B, si hay alguna cadena de referencias que llevan desde el
objeto B hasta el objeto A. Esta cadena de referencias puede ser muy larga y pasar
por muchos objetos. De esta manera, cuando se hace un objeto persistente, todos
los objetos alcanzables a partir de él se hacen implícitamente persistentes.

Siguiendo con el ejemplo anterior en db4o, supongamos que el tipo de objetos


Empleado contiene una referencia a objetos de una clase Direccion. Por ejemplo:

class Empleado {

private Direccion direccion;

public void setDireccion(Direccion nueva_dir) {
dirección = nueva_dir;
}

}

Podemos crear un objeto de tipo Empleado y asignarle una dirección de esta ma-
nera:
Direccion direccion = new Direccion("C/Mayor, 5", "Castellón")
Empleado empleado = new Empleado("Joan", "Cardona", "Vives");
empleado.setDireccion(direccion);
contenedor.store(empleado);

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 22 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
No ha sido necesario marcar explícitamente como persistente la instancia de Di-
reccion que hemos creado, ya que es alcanzable desde el objeto empleado y, por
tanto, se guardará y recuperará automáticamente. Es decir, el método store hace
persistente al objeto empleado y a todos los objetos alcanzables a partir de él.

En la práctica, los sistemas suelen permitir mantener un control muy preciso sobre
qué objetos se harán persistentes por alcanzabilidad, ya que hay muchos casos en que
no es deseable seguir ciegamente todas las cadenas de referencias (estructuras de da-
tos circulares, valores temporales que no es necesario guardar, etc.). Por ejemplo, para
que el código anterior funcione correctamente deberíamos configurar explícitamente
db4o para que la clase Empleado use persistencia por alcanzabilidad sin restricciones,
ya que por defecto no es así. Los detalles concretos son diferentes en cada sistema.

La última manera de hacer objetos persistentes es añadiéndolos a una colección per-


sistente de su clase. Sobre una clase se pueden definir varias colecciones de objetos
persistentes, y para aquellas clases que vayan a tener instancias almacenadas en la
base de datos es imprescindible tener definida al menos una. Por ejemplo, en nuestro
lenguaje de definición de datos se define por medio de la cláusula extent una colec-
ción persistente para cada clase. De esta manera, para hacer un objeto persistente,
solo hay que añadirlo a una de las colecciones persistentes asociadas a su clase.

Siguiendo con el ejemplo, en db4o se encuentran versiones persistentes de las


colecciones estándar; por ejemplo com.db4o.collections.ActivatableLinkedList
es la versión persistente de la colección estándar java.util.LinkedList, y tiene la
misma interfaz:

ActivatableLinkedList<Empleado> listaDeEmpleados;
listaDeEmpleados = new ActivatableLinkedList<Empleado>();
Empleado empleado = new Empleado("Joan", "Cardona", "Vives");
listaDeEmpleados.add(empleado)

4.2. Características de los sgbdoo


Edgar F. Codd, el creador del modelo relacional, definió en 1985 una serie de 12
reglas que permiten establecer las características propias de un sistema de gestión
de bases de datos relacional. El conjunto de reglas equivalente para los sistemas
orientados a objetos se conoce como el Manifiesto de las bdoo, y fue definido en
1992. Consta de las 13 reglas que se detallan en la tabla 1.1 (obligatorias para con-
siderar que un sgbd es oo) y de cinco opciones de implementación.

Al contrario que las reglas, las cinco opciones de implementación no son obliga-
torias. Son las siguientes:

1. Herencia múltiple
2. Verificación e inferencia de tipos
3. Distribución de los datos
4. Transacciones
5. Versionado de objetos

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 23 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Es importante hacer notar que las reglas 1 a 8 son características generales de los
sistemas orientados a objetos, incluyendo los lenguajes de programación, y que
por otro lado, las reglas 9 a 13 son características generales de las bases de datos,
incluyendo las no orientadas a objetos, como las relacionales.

Como en el caso de las 12 reglas de Codd, ninguna base de datos comercial cum-
ple todas las reglas del Manifiesto de las bdoo, por lo que puede decirse que estas
reglas describen un sistema idealizado no disponible en la realidad. Sin embargo,
en la práctica se trata de una lista muy útil para analizar los sgbdoo y determinar si
se ajustan a los requisitos de una aplicación dada.

Regla Explicación

Un sgbdoo podrá gestionar objetos con estructuras de datos arbitrarias (Ver


1. Objetos complejos
sección 3.3 Propiedades de los objetos).

En una bdoo los objetos tendrán una identidad, que será diferente de su valor
2. Identidad de objetos
(Ver sección 3.2 Identidad).

Un sgbdoo permitirá ocultar los detalles de implementación de los objetos,


3 Encapsulación haciendo que un objeto solo sea accesible mediante su interfaz público (Ver
sección 3.4 Comportamiento de los objetos: mensajes y métodos).

Un sgbdoo permitirá definir tipos de datos y tipos de objetos (Ver sección 3.5
4. Tipos y clases
Clasificación e instanciación de objetos).

Un sgbdoo permitirá organizar los objetos en clases, y permitirá definir nue-


5. Jerarquías de clases vas clases especializando o generalizando otras ya existentes (Ver sección
5.2 Generalización, especialización y herencia).

Distintas clases podrán proporcionar distintos métodos para una misma ope-
6. Sobrecarga y
ración; el sistema determinará dinámicamente qué método se debe ejecutar
polimorfismo
(Ver sección 5.3 Polimorfismo de métodos).

7. Lenguaje Un sgbdoo proporcionará un lenguaje de programación computacionalmente


computacionalmente completo, que es aquel que puede expresar cualquier algoritmo. Sql, por
completo ejemplo, no es completo.

Cada sgbdoo tiene un conjunto de tipos predefinidos por el sistema. Este


8. Extensibilidad conjunto puede ser extendido. Los tipos definidos por el sistema y los tipos
definidos por el usuario deben ser tratados del mismo modo.

En una sgbdoo, los objetos serán persistentes de la manera más transparen-


9. Persistencia
te posible (Ver sección 4.1 Persistencia).

Todo sgbdoo ha de ofrecer funciones de gestión de almacenamiento eficien-


te. Esto ha de incluir el uso de índices, agrupación de datos, el almacena-
10. Gestión de memoria
miento en memoria intermedia de datos, selección de la ruta de acceso y
secundaria
optimización de consultas. Todas estas características deben ser invisibles
para el programador de la aplicación.

Un sgbdoo debe ofrecer mecanismos para sincronizar el acceso de más de


11. Concurrencia
un usuario al mismo tiempo.

Un sgbdoo debe mantener el nivel de servicios en caso de fallos de software


12. Recuperación
o hardware.

13. Consultas ad hoc con Un sgbdoo proporcionará un lenguaje de consulta específico para objetos
un lenguaje declarativo (Ver sección 6. Consultas en bdoo).

Tabla 1.1. Características de los sgbdoo

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 24 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
5. Diseño lógico de bases de datos orientadas a objetos
Para diseñar bases de datos orientadas a objetos hay que identificar las clases de
objetos que se necesitan, así como el tipo y las operaciones de cada clase. Para de-
finir el tipo de los objetos de una clase, primero hay que identificar qué relaciones
se dan entre las clases. En esta sección, previamente a definir un procedimiento de
diseño, vamos a analizar los distintos tipos de relaciones que se pueden dar entre
las clases de una bdoo.

5.1. Agregación y asociación


Los objetos agregados son aquellos que se componen de otros objetos. La agrega-
ción es un tipo de relación que permite relacionar objetos agregados con sus obje-
tos componentes (relación todo/parte). Representar al objeto agregado puede ser
especialmente útil cuando el propio objeto agregado se debe relacionar con otros
objetos, o viceversa, cuando alguno de los objetos componentes se debe relacionar
con otro objeto. Como se ilustra en la figura 1.5, en los esquemas conceptuales de
la base de datos, la relación entre un objeto y sus componentes siempre la vamos a
denotar con se_compone_de y dibujaremos flechas que vayan desde el objeto agre-
gado hacia los componentes. En una jerarquía de agregación un objeto agregado
se puede componer de varios objetos componentes, pero un objeto componente
solo puede formar parte de un objeto agregado.

Figura 1.5. Relaciones de agregación

La relación de asociación sirve para relacionar objetos de varias clases indepen-


dientes. En el esquema conceptual de la base de datos a este tipo de relaciones se
las denomina con un nombre y una cardinalidad que reflejen su significado. En
el esquema conceptual de la figura 1.6 aparecen cuatro relaciones de asociación
diferentes.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 25 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Figura 1.6. Relaciones de asociación

En cierta manera la agregación es un tipo especial de asociación. La diferencia


principal entre ellas es que cuando se elimina un objeto que participa en una rela-
ción de asociación, los otros objetos relacionados siguen existiendo. Sin embargo,
en el caso de la agregación, la inserción/eliminación del objeto agregado equivale
a insertar/eliminar sus objetos componentes. Similarmente, un objeto que forma
parte de otro no puede ser insertado ni eliminado de la base de datos individual-
mente. Lógicamente, un objeto componente nada más puede formar parte de un
objeto compuesto.

A la hora de realizar el diseño lógico de una bdoo, cuando se definen los tipos de
los objetos de una clase, las relaciones de asociación y de agregación se repre-
sentan por medio de referencias en una o ambas direcciones, y de acuerdo a su
carnalidad asociada. En algunos sgbdoo es posible diferenciar en el esquema las
relaciones de agregación de las de asociación. En nuestro caso, las representamos
de la misma forma.

5.2. Generalización, especialización y herencia

Como ya hemos visto, una clase sirve para organizar un conjunto de objetos simi-
lares. Sin embargo, en muchas ocasiones los objetos de una clase pueden reorga-
nizarse, formando varios grupos que también pueden tener interés para la base de
datos. Por ejemplo, en la figura 1.7 vemos que los objetos de la clase empleado
pueden clasificarse en secretarios, ingenieros, gerentes y técnicos. Se dice que
cada una de estas agrupaciones es una subclase de la clase empleado, y emplea-
do es una superclase de las otras cuatro clases. Nótese que todo ingeniero es un
empleado pero no viceversa. Es decir, todas las instancias de una subclase son
también instancias de la superclase, pero no a la inversa.

Este tipo de relación se denomina generalización, o especialización a la inversa, y


en el esquema conceptual se representa con una relación denominada es_un y unas
flechas que van desde las subclases hacia las superclase. La generalización tiene
dos propiedades de las bases de datos orientadas a objetos:

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 26 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
• La propiedad de sustituibilidad dice que toda instancia de una clase puede
ser utilizada cuando se espera una instancia de alguna de sus superclases.
• La propiedad de extensión dice que las instancias de una clase incluyen las
instancias de sus subclases. En otras palabras, la extensión de una clase in-
cluye a las extensiones de sus subclases.

Figura 1.7. Relaciones de especialización

Como ejemplo, observemos el siguiente código Java. Asumiendo que tenemos


definida la jerarquía de clases que se muestra en la figura anterior:

public class Generalizacion {


public static void main(String[] args) {
Secretario sec = new Secretario("Francesc", "Tárrega");
Gerente ger = new Gerente("Maximilià", "Alloza");
System.out.println(sec instanceof Empleado);
System.out.println(ger instanceof Empleado);
}
}

El resultado de ejecutar este código es el siguiente:

true
true

mostrando que los secretarios y los gerentes están incluidos en la extensión de los
empleados.

Cuando el mecanismo de especialización se aplica sucesivamente en varios ni-


veles de clases se crea una jerarquía de especialización (ver figura 1.8). Una im-
portante característica de las jerarquías de especialización es el de la herencia de
tipos y operaciones desde las superclases hacia las subclases. Es decir, todas las
subclases de una clase heredan automáticamente su tipo y operaciones, siendo esta
una propiedad que se propaga a lo largo de toda la jerarquía. Por esta razón, a la
hora de hacer el diseño lógico, la definición del tipo y de las operaciones de una
subclase incluye de manera implícita a todas las definiciones hechas para la super-
clase más aquellas nuevas definiciones (nuevos atributos y nuevas operaciones)
explícitas que quieran hacerse.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 27 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Existen dos tipos de herencia: simple y múltiple. La herencia simple ocurre cuan-
do cada clase en una jerarquía tiene una sola superclase inmediata. Si se envía un
mensaje a un objeto de una clase en una jerarquía con herencia simple, el método
asociado se busca primero en la clase y luego en su superclase inmediata, y así
sucesivamente hacia arriba en la jerarquía. La herencia múltiple ocurre cuando
una subclase tiene varias superclases inmediatas. En este caso se heredan los tipos
y las operaciones de todas las superclases, por lo que pueden surgir colisiones con
los nombres de los atributos y de los mensajes. En ese caso se produciría un error.
En las relaciones de la figura 1.8 se producen ambos tipos de herencia.

Figura 1.8. Jerarquía de clases con herencia múltiple

5.3. Polimorfismo de métodos


Otra característica de las bdoo es que hacen posible el polimorfismo de los méto-
dos. Este concepto permite asignar a una misma operación dos o más implemen-
taciones diferentes, con el propósito de que en cada caso se ejecute una de ellas,
dependiendo de la clase de los objetos a los que se aplique. Aunque no siempre es
un requerimiento necesario, lo normal es que las distintas clases formen parte de
una jerarquía de especialización a través de la cual se hereda el método que va a
ser redefinido.

Por ejemplo, supongamos que se define una clase para objetos geométricos que
cuenta con una operación que calcula su área, y con tres especializaciones para los
rectángulos, los triángulos y los círculos.

define object type Objeto_Geometrico


type
forma: string
operations
area(): real;

define object type Rectangulo inherit Objeto_Geometrico


type

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 28 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
tuple [ ancho: real,
alto: real]
operations
es_cuadrado?(): bool;

define object type Triangulo inherit Objeto_Geometrico


type
tuple [ lado_1: real,
lado_2: real,
angulo: real]
operations
es_equilatero?(): bool;

define object type Circulo inherit Objeto_Geometrico


type
radio: real;

La operación area() se declara para todos los objetos de la clase Objeto_Geometrico,


aunque su implementación varía dependiendo de la subclase del objeto. Una po-
sibilidad es tener una implementación general para calcular el área de cualquier
objeto geométrico, y luego implementar otros métodos específicos para calcular
las áreas de ciertos objetos geométricos como los triángulos o los círculos. A la
hora de ejecutar el método sobre cierto objeto, el sgbdoo debe seleccionar la im-
plementación apropiada en base a la clase del objeto geométrico de que se trate.
La búsqueda se hace de abajo a arriba, es decir el sistema buscará la definición
del método en la clase del objeto o en la primera superclase suya que tenga dicha
definición.

Por ejemplo, en el siguiente código Java se asume que se ha creado la función


area() en todas las subclases de Objeto_Geometrico.

public class Polimorfismo {


public static void main(String[] args) {
// Creamos una colección de Objeto_Geometrico
List<Objeto_Geometrico> objetos = new List<Objeto_Geometrico>();
// Añadimos instancias de objetos geométricos
objetos.add(new Rectangulo(2, 2));
objetos.add(new Triangulo(3, 2, Math.PI/4));
objetos.add(new Circulo(1.5));

// Calculamos el área de todos los objetos


// Se llamará en cada caso al método correspondiente a la subclase
for (Objeto_Geometrico o : objetos) {
System.out.println(o.area());
}
}
}

En este ejemplo se aprovechan las propiedades de sustituibilidad y polimorfismo.


La sustituibilidad permite crear una colección de objetos de la superclase Obje-
to_Geometrico, y añadir objetos de las subclases. Además, se puede llamar al método
polimórfico area() sin preocuparnos de cuál es la subclase a que pertenece cada
objeto, lo que simplifica muchísimo la programación.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 29 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
5.4. Diseño lógico de una base de datos oo
Para implementar una bdoo a partir de un esquema conceptual lo primero que hay
que hacer es definir los tipos de datos, los tipos de objetos y las operaciones de las
clases en el lenguaje de definición de datos de nuestro sgbd. Posteriormente, se
añaden los métodos que se implementan en el lenguaje de programación disponi-
ble. Vamos a partir de un esquema conceptual que represente tanto las relaciones
de asociación, como las de agregación y especialización, sin embargo los métodos
tendrán que ser especificados por separado. A grandes rasgos la transformación
puede hacerse como sigue:

Paso 1: Crear una clase de objetos para cada entidad del esquema. El tipo de objetos de
la clase deberá agrupar todos los atributos de la entidad por medio de un cons-
tructor de tupla. Los atributos multivaluados se declaran a través de un constructor
de tipo conjunto, o lista si están ordenados. Los atributos complejos se declaran
por medio de un constructor de tupla. Todos los tipos y, sobre todo, aquellos
tipos de datos que se utilicen en varias clases se pueden definir como tipos de
datos aparte. Todas las clases deben tener una extensión (cláusula extent) defi-
nida.

Paso 2: Aquellas clases que son subclases de otras deberán tener una cláusula inherit para
indicarlo. Cada subclase hereda de forma automática el tipo y las operaciones
de su superclase inmediata. Solo hay que especificar los atributos y operacio-
nes específicos de la subclase.

Paso 3: Para cada relación de asociación y agregación en las que participe una clase,
añadir atributos para referenciar las clases que participen en la relación. Las re-
ferencias pueden definirse en una dirección o en ambas, aunque suele ser más
eficiente definirlas en ambas. Nosotros añadiremos atributos con referencias a
las dos clases relacionadas, excepto en las relaciones de cardinalidad (0,1) que
dependerá de cada caso a analizar. Los atributos serán monovaluados para las
relaciones de cardinalidad (1,1), y multivaluados (atributos de tipo conjunto o
lista) para los de cardinalidad (1,n). Si una relación se representa con referencias
en ambas direcciones se debe declarar que cada referencia es la inversa de la otra
(cláusula inverse). Si hay alguna relación con atributos, hay que usar un cons-
tructor de tupla para representarlo de la siguiente manera tuple[referencia con
cláusula inverse, atributos de la relación]. Esta tupla se incluye en el atributo de
referencia.

Paso 4: Incluir métodos apropiados para cada clase. Estos no estarán disponibles en el
esquema conceptual y se deberán agregar al diseño de la base de datos según se
necesiten. Al final, toda clase debe incluir un método constructor y otro destruc-
tor para sus instancias.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 30 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
5.5. Ejemplo de diseño de una base de datos orientada a objetos
A continuación se define un ejemplo de una base de datos para una universidad
que se ajusta al esquema conceptual de la figura 1.9. Para simplificar el esquema
no hemos puesto los atributos de las entidades, también vamos a suponer que los
métodos para crear y destruir los objetos de cada clase son definidos por el sistema.

Primero se definen dos tipos de datos.

define data type Telefonos: set(integer);

define data type Fecha:tuple[año:integer, mes:integer, dia:integer];

A continuación, se definen los tipos de objetos que se corresponden con las enti-
dades del diagrama conceptual.

define object type Persona extent Personas


type
tuple[ dni: string,
nombre: tuple [ nombrepila:string,
apellido_p:string,
apellido_s:string],
direccion:tuple [ numero:integer,
calle:string,
ciudad:string],
fechanac:Fecha
sexo:char]
operations
edad():integer;

define object type Profesor inherit Persona extent Profesores


type
tuple [ salario: real,
rango: string,
telefono: Telefonos,
pertenece_a: Departamento inverse Departamento:miembros,
tutoriza: set(Estudiante_Investigacion) inverse Estudiante_investigacion:tutor,
imparte: set(Asignatura) inverse Asignatura:prof]
operations
promover_profesor:boolean,
dar_aumento(porcentaje:real):boolean;

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 31 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Figura 1.9. Esquema conceptual de la bd de una universidad

define object type Estudiante inherit Persona extent Estudiantes


type
tuple [ grupo: string,
estudia: Departamento inverse Departamento:alumnos,
examinado_de: set(tuple [ nota:real,
fecha:Fecha,
asignatura: Asignatura inverse
Asignatura:examinados.estudiante]) ]
operations
nota_media():real,
cambiar_grupo:boolean,
cambiar_carrera(nueva_carrera:Departamento):boolean;

define object type Estudiante_investigacion inherit Estudiante extent Estudiantes_inv


type
tuple [ telefono:Telefonos,
graduación: list(tuple [ colegio:string,
grado:string,
año:integer]),
tutor: Profesor inverse Profesor:tutoriza];

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 32 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
define object type Departamento extent Departamentos
type
tuple [ nombre: string,
oficinas: set(string),
telefonos: Telefonos,
miembros: set(Profesor) inverse Profesor:pertenece_a,
alumnos: set(Estudiante) inverse Estudiante:estudia,
director: Profesor,
cursos: set(Curso) inverse Curso:ofrecido_por]
operations
añadir_profesor(p:Profesor),
añadir_a_carrera(e:Estudiante),
quitar_de_carrera(e:Estudiante):boolean;

define object type Curso extent Cursos


type
tuple [ nombre: string,
codigo: string,
descripcion: string,
asignaturas: set(Asignatura) inverse Asignatura:curso,
ofrecido_por: Departamento inverse Departamento:cursos]
operations
añadir_asignatura(a:Asignatura);

define object type Asignatura extent Asignaturas


type
tuple [ cod_asig: integer,
año: integer,
examinados:set(tuple [ nota:real,
fecha:Fecha,
estudiante:Estudiante inverse
Estudiante:examinado_de.asignatura])
curso: Curso inverse Curso:asignaturas,
profesores: set(Profesor) inverse Profesor:imparte ]
operations
cambiar_notas(e:Estudiante, n:integer);

Vamos a terminar el ejemplo de base de datos con una propuesta de implementa-


ción para el método edad() de la clase Persona.
method body edad:integer in class Persona
{
int a; Date d;
d=today();
a=d->año - self->fechanac->año;
if (d->mes < self->fechanac->mes) ||
(( d->mes == self->fechanac->mes) && (d->dia < self->fechanac->dia)) --a
}

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 33 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
6. Consultas en bases de datos orientadas a objetos
A la hora de realizar consultas a las bdoo se han propuesto diferentes lenguajes
más o menos expresivos y fáciles de utilizar. Todavía no existe ningún lengua-
je estándar oficial, por lo que aquí nos vamos a centrar en un lenguaje que se
aproxima mucho a uno que podría ser el más aceptado. Se trata del lenguaje oql
(Object Query Language) que ha sido diseñado por un consorcio de compañías de
software denominado odmg (Object Data Management Group). Hoy día, el están-
dar está mantenido por la organización omg, dedicada a la estandarización de las
tecnologías orientadas a objetos.

El lenguaje oql cuenta con una estructura select...from...where... similar a la de sql.


Por ejemplo, para recuperar el nombre de los departamentos presididos por la pro-
fesora llamada ‘Ana’ puede escribirse la siguiente consulta:

select d.nombre
from Departamentos d
where d.presidente.nombre.nombrepila = ‘Ana’

6.1. Puntos de acceso y variables iterador


La cláusula from de cada consulta debe incluir un punto de acceso a la base de datos
que puede ser cualquier objeto persistente con nombre específico. Normalmente,
el punto de acceso será el nombre de la colección persistente asociada a una de
las clases involucradas en la consulta. Hay que considerar que el nombre de una
colección (cláusula extent) se corresponde con el nombre de un objeto persistente
cuyo tipo es un conjunto de objetos de una clase. Por esta razón al escoger el nom-
bre de una colección como punto de acceso a la base de datos estamos haciendo
referencia a un conjunto de objetos persistentes que pueden ser recuperados si
cumplen las condiciones de la consulta.

Lo más recomendable es acceder a la base de datos por la colección de aquella


clase sobre la que las condiciones de la consulta (claúsula where) establezcan con-
diciones más restrictivas. De esta manera el resto de condiciones de la consulta
se tienen que evaluar para un menor número de objetos, y la consulta se ejecuta
mucho más eficientemente.

Dentro de claúsula from de una consulta siempre que se haga referencia a un conjunto
(o lista) de objetos es necesario definir una variable iterador que toma un valor por
cada objeto de la colección (en el ejemplo anterior d es la variable iterador). Esta
variable se puede utilizar para poner condiciones sobre los objetos y para acceder a
otros objetos de la base de datos como veremos en la siguiente sección.

El resultado de una consulta siempre es un conjunto de objetos que, a menos que


se utilice la cláusula distinct, podrá contener elementos repetidos. El tipo de estos
elementos se deduce de lo que se especifique en la cláusula select. En general, el

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 34 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
resultado de una consulta puede ser de cualquiera de los tipos que podamos defi-
nir con los constructores de tipos disponibles. En el ejemplo anterior, dado que el
atributo nombre de la clase departamento es de tipo string, el resultado de la consulta
será de tipo set(string).

6.2. Caminos de acceso


Los caminos de acceso o trayectorias además de permitir referirse a los compo-
nentes de los objetos complejos, pueden ser utilizados para navegar entre los obje-
tos a través de sus relaciones de agregación y asociación. De esta manera, si obj
es un objeto que tiene el atributo att, entonces obj.att denota el valor del atributo
para ese objeto concreto. Alternativamente, si meth es un método de la clase a la
que obj pertenece, entonces obj.meth() denota el valor resultante de aplicar al objeto
obj el método dado. Esta manera de especificar los caminos de acceso se denomina
notación de punto.

Por ejemplo, al escribir e.estudia.nombre donde e es un objeto de la clase Estudiante,


primero se localiza al departamento relacionado con el estudiante e a través de su
atributo estudia y luego se recupera el atributo nombre de dicho departamento. Otros
ejemplos de caminos de acceso sobre las clases Persona y Estudiante de la base de
datos anterior son las siguientes:

p.nombre.nombrepila np
p.direccion.calle c
e.nombre.nombrepila ne
e.estudia.telefonos t

Las variables iterador que aparecen después de los caminos de acceso denotan los
valores que se almacenan en los atributos donde estas terminan. Sin embargo, hay
que tener en cuenta que cuando una referencia es multivaluada no se puede usar la
notación de punto directamente. En este caso es preciso intercalar una nueva varia-
ble iterador, como se ha hecho en los siguientes caminos de acceso que empiezan
en la clase Profesor:

p.pertenece_a.miembros m, m.nombre.nombrepila np
p.imparte a, a.examinados e, e.estudiante.estudia.nombre nd

En este último ejemplo, la variable iterador e no toma como valores objetos, sino
los valores complejos que se almacenan en el atributo examinados. Dado que las re-
ferencias se implementan almacenando el oid de los objetos relacionados, se puede
decir que los caminos de acceso sustituyen a los joins de las bases de datos relacio-
nales. Esto quiere decir que al consultar una bdoo no se deben especificar relaciones
de join entre sus clases, sino que se deben utilizar variables iterador y caminos de
acceso como las que se muestran en los ejemplos anteriores.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 35 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
6.3. Lenguaje de consulta
La estructura básica de oql es select...from...where..., similar a la de sql, pero con la
diferencia de que es posible usar caminos de acceso dentro de la consulta para re-
ferirse a los componentes de los objetos complejos y para pasar de unos objetos a
otros relacionados. Otras diferencias, motivadas por los distintos modelos de datos
que subyacen a ambos lenguajes, se ilustrarán en los ejemplos que se muestran
más adelante.

En una consulta, la cláusula select define los datos que se desean conocer y el tipo
de los datos del resultado de la consulta. La cláusula from especifica las extensiones de
objetos por los que se accede a la base de datos y proporciona las variables iterador
que toman como valores los objetos de dichas colecciones. Estas variables pueden uti-
lizarse en el resto de cláusulas de la consulta. Por último, la cláusula where especifica
las condiciones para seleccionar los objetos individuales que intervienen en el re-
sultado de la consulta. A continuación vamos a ver algunos ejemplos de consultas
sobre la base de datos anterior:

a) Para conocer los distintos salarios que tienen los profesores de la base de
datos podemos escribir la siguiente sentencia. Se obtendrá un conjunto de nú-
meros reales diferentes.

select distinct p.salario


from Profesores p

b) Para conocer los distintos salarios que hay para cada sexo se puede definir la
siguiente consulta:
select distinct tuple[salario:p.salario, sexo:p.sexo]
from Profesores p

En este caso se obtiene como resultado un conjunto de tuplas diferentes en-


tre sí, donde cada tupla se compone del salario y sexo de un profesor de la
extensión Profesores. Es decir, el resultado de la consulta será un valor del
tipo set(tuple[salario:real, sexo:char]).

c) Las colecciones de la cláusula from también pueden especificarse por medio


de caminos de acceso. Por ejemplo, para conocer el nombre de las asignatu-
ras del año 2010 de que cada estudiante se ha examinado se puede escribir
una de las dos consultas siguientes:

select tuple[ nombre:e.nombre,


cod_asig: a.asignatura.cod_asig]
from Estudiantes e, e.examinado_de a
where a.asignatura.año = 2010

select tuple[ nombre:e.estudiante.nombre,


cod_asig: a.cod_asig]
from Asignaturas a, a.examinados e
where a.año = 2010

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 36 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
La diferencia entre las dos consultas es su punto de acceso a la base de datos,
siendo más rápida la segunda versión ya que accede a la base de datos por la
misma clase por la que se ponen las condiciones del where, además de que en
la base de datos hay muchos más estudiantes que asignaturas.

d) Veamos esto por medio de otro ejemplo. Supongamos que se desean co-
nocer los números del dni de aquellos estudiantes matriculados en alguna
asignatura impartida por un profesor de Sagunto. Para evaluar esta consulta
podríamos elegir entre las dos opciones siguientes:

select distinct e.dni


from Estudiantes e, e.examinado_de a, a.asignatura.profesor p
where p.direccion.ciudad = ’Sagunto’

select distinct e.estudiante.dni


from Profesores p, p.imparte a, a.examinados e
where p.direccion.ciudad = ’Sagunto’

La diferencia entre cada una de las opciones es su tiempo de ejecución.


Accediendo a la base de datos por la extensión Estudiantes, los dos caminos
de acceso del from se tendrán que evaluar para cada estudiante de la base de
datos, ya que sobre los estudiantes no se pone ninguna restricción. Sin em-
bargo, accediendo por la extensión de Profesores, los dos caminos de acceso
se tienen que evaluar para un menor número de objetos, ya que lo normal es
que en la base de datos haya muchos menos profesores de Sagunto que estu-
diantes. Por lo tanto, la segunda opción se evaluará mucho más rápidamente
que la primera.

e) En la cláusula where se puede especificar cualquier condición sobre los obje-


tos denotados por las variables de la cláusula from. Por ejemplo, si solamente
se está interesado en aquellos estudiantes que cursen su carrera en el depar-
tamento de informática y que estén examinados en más de 5 ocasiones tene-
mos que escribir la siguiente consulta que devolverá un conjunto de objetos
de la clase estudiante.

select e
from Departamentos d, d.alumnos e
where d.nombre=’Informática’
and count(e.examinado_de) > 5

Este ejemplo muestra cómo se puede utilizar la función count para saber
cuántos valores se almacenan en el atributo examinado_de. Esta misma fun-
ción se puede utilizar para saber cuántos oid se almacenan en un atributo que
representa una referencia 1:N.

f) En la especificación de condiciones también se pueden invocar métodos para


conocer las propiedades de los objetos a recuperar. Por ejemplo, la siguiente
consulta recupera los estudiantes cuya media de notas hasta el momento
supere el 7.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 37 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
select e
from Estudiantes e
where e.nota_media( ) > 7.0

g) También se pueden definir condiciones entre los atributos siempre que sean
del mismo tipo. Por ejemplo, podemos buscar parejas estudiante/profesor
que cumplan años el mismo día:

select tuple[ estudiante: e.nombre,


profesor: p.nombre,
cumpleaños: tuple[mes:p.fechanac.mes, dia:p.fechanac.dia] ]
from Estudiantes e, Profesores p
where e.fechanac.mes = p.fechanac.mes
and e.fechanac.dia = p.fechanac.dia

h) Para obtener los resultados ordenados existe la cláusula order by. Por ejem-
plo, se pueden recuperar los profesores ordenados por su sueldo y por su
primer apellido.

select p
from Profesores p
order by p.salario, p.nombre.apellido_p

i) También se pueden agrupar los resultados de una consulta según algún crite-
rio de los objetos recuperados. Por ejemplo, la siguiente consulta cuenta los
profesores que pertenecen al departamento de informática agrupados según
la ciudad donde viven.

select tuple[ciudad:p.direcccion.ciudad, num_prof:count(partition)]


from Departamentos d, d.miembros p
where d.nombre = ‘Informática’
group by p.direccion.ciudad

Como siempre accedemos a la base de datos por la clase sobre la que se


ponen las condiciones del where. La palabra clave partition sirve para denotar
cada uno de los grupos que se forman al procesar la consulta. En este caso la
función count cuenta cuantos elementos hay en cada partición, o sea en cada
grupo formado por el criterio p.direccion.ciudad.

j) Algunos atributos almacenan conjuntos o listas de valores u objetos dife-


rentes entre sí. Se puede comprobar si todos los valores almacenados en un
atributo de un objeto cumplen una condición, o si solamente alguno de ellos
lo hace.

select c
from Cursos c
where for all a in c.asignaturas: a.año = 2010

select e
from Estudiantes e
where exists a in e.examinado_de: a.nota = 10.0

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 38 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
La primera consulta recupera los cursos con todas sus asignaturas en el año
2010, y la segunda, los estudiantes con alguna matrícula de honor entre sus
notas. Esta última consulta sería equivalente a:

select e
from Estudiantes e, e.examinado_de a
where a.nota = 10.0

Para la primera consulta no hay sentencia equivalente.

k) También están disponibles las funciones de agregación similares a las de sql:


avg, count, sum, min y max. Por ejemplo, para conocer la media de edad de todos
los estudiantes se puede ejecutar la sentencia siguiente:

select avg(e.edad()) from Estudiantes e

l) El resultado de una consulta puede ser asignado a un identificador para poder


ser utilizado en otras consultas. Por ejemplo, se puede crear una colección
de objetos de la clase Profesor que incluye a los mejor pagados utilizando la
siguiente consulta:

define collection Mejor_pagados as


select p from Profesores p where p.salario> 60000

m) Ahora es posible conocer el rango de salarios de los profesores mejor paga-


dos de la siguiente forma:

select tuple [maximo:max(b.salario), minimo:min(b.salario)]


from Mejor _pagados b

n) Si se deseara conocer el nombre de los profesores con mayor salario tendría-


mos que utilizar una subconsulta de la siguiente forma:

select p.nombre
from Profesores p
where p.salario = (select max(p.salario) from Profesores p)

o) Otro ejemplo de consulta es la siguiente, que devuelve un conjunto de tuplas


con los detalles de las notas de cada estudiante del grupo ig2:

select tuple[ nombrep:e.nombre.nombrepila,


apellido:e.nombre.apellido_p,
resultados:set(tuple[nombre_cur:m.asignatura.curso.nombre,
cod_asig:m.asignatura.num_asig,
fecha:m.fecha,
nota:m.nota])
]
from Estudiantes e, e.examinado_de m
where e.grupo = ‘IG2’

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 39 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
7. Diseño físico de bases de datos orientadas a objetos
Al igual que en las bases de datos relacionales, el modelo lógico de datos de las bdoo
es independiente de la localización física de los datos. Los datos también se almace-
nan en ficheros emplazados en diferentes dispositivos físicos que el administrador
de la base de datos tiene que gestionar. Muchos de los conceptos de diseño físico de
bases de datos relacionales se pueden aplicar para las bdoo. Sin embargo, hay ciertos
cambios en la forma en que se realizan los agrupamientos y los índices de acceso a
los datos, que deben ser estudiados. En esta sección se repasan los principales me-
canismos que existen para diseñar el almacenamiento físico de los datos en bdoo.

7.1. Índices
Los principales tipos de estructuras de indexación que podemos encontrar en las
bdoo son:

• Índices de atributos. Se usan para indexar los objetos de una clase según
alguno de sus atributos. De esta manera se pueden recuperar rápidamente los
objetos de una clase que cumplen cierta propiedad sobre el atributo indexa-
do. Por ejemplo, se pueden indexar los objetos de la clase Empleados por su
atributo dni.

• Índices de objetos. Se usan para indexar los objetos de una clase según su
oid. Este índice contiene una entrada con el oid de cada objeto de la clase, y
un puntero a su dirección de memoria. Esta alternativa resulta muy útil para
navegar por los objetos ya que para pasar de un objeto de una clase a otro
que referencia desde alguno de sus atributos se utiliza el índice. Para llegar
al objeto referenciado solo hay que acceder al índice de la clase adecuada y
encontrar el oid y la dirección de memoria de dicho objeto.

• Índices de trayectoria. En este caso el índice para una trayectoria dada


consiste en una tabla con tantas columnas como componentes haya en la
trayectoria o camino de acceso. La tabla contiene una fila por cada combi-
nación de oid que determinen una ocurrencia de dicho camino dentro de la
base de datos. Por ejemplo, supongamos la siguiente trayectoria p.imparte a,
a.examinados e, e.estudiante.estudia d que indica los departamentos (d) en los que
estudian los estudiantes (e) examinados de las asignaturas (a) de cada profe-
sor (p). Supongamos también que esta trayectoria es muy importante y que
tiene que ejecutarse lo más rápidamente posible. Definiendo un índice sobre
este camino de acceso, podríamos tener la tabla 1.2 de relaciones entre los
profesores, las asignaturas, los estudiantes y los departamentos almacenados
en la base de datos.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 40 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
p a e d
oid.P1 oid.A1 oid.E1 oid.D1
oid.P1 oid.A2 oid.E1 oid.D1
oid.P1 oid.A2 oid.E2 oid.D2
oid.P1 oid.A2 oid.E3 oid.D3
oid.P1 oid.A3 oid.E3 oid.D3
oid.P2 oid.A4 oid.E1 oid.D1
oid.P2 oid.A4 oid.E3 oid.D3
oid.P2 oid.A1 oid.E4 oid.D4
oid.P3 oid.A4 oid.E2 oid.D2
oid.P4 oid.A4 oid.E5 oid.D5
oid.P4 oid.A1 oid.E5 oid.D5
oid.P4 oid.A1 oid.E1 oid.D1

Tabla 1.2. Ejemplo de índice de trayectoria

Para ejecutar la trayectoria desde una consulta, no será necesario acceder a la base
de datos y recuperar el gran número de objetos por los que pasa. Por ejemplo, para
conocer el departamento de los estudiantes a los que da clase el profesor con oid
oid.P4, leyendo las filas de este índice se puede saber que solamente hay que recu-
perar los departamentos con oid oid.D1 y oid.D5.

7.2. Agrupamientos
Las técnicas de agrupamiento se utilizan para posicionar los objetos en memoria
secundaria en posiciones contiguas, de forma que el proceso de recuperación se
acelere. Generalmente, en bdoo se pueden utilizar los siguientes tipos de agrupa-
mientos:

• Por clases. Este suele ser el modo de posicionamiento por defecto. Todos
los objetos de una clase se almacenan contiguos. Estos pueden incluir a los
objetos de otras clases que sean especializaciones suyas (subclases). De esta
manera, cuando se tiene una jerarquía de especialización simple expresada
en forma de árbol cuyos nodos son las clases de la jerarquía, los objetos de
las diferentes clases se almacenan según el orden definido por el recorrido
en preorden de los nodos del árbol.

• Por valores de los atributos. Los objetos de una clase se agrupan por el va-
lor de alguno de sus atributos. Por ejemplo, los objetos de la clase estudiante
se pueden almacenar ordenados por apellidos. Si se combina este método
con un índice sobre el mismo atributo, entonces la evaluación de las consul-
tas que involucren a dicho atributo se puede ver muy favorecida.

• Por relaciones de asociación. Aquellos objetos que se relacionen con otros


referenciándolos desde alguno de sus atributos, se almacenan de forma con-
tigua en el mismo bloque de memoria, por lo que ambos objetos se recu-
peran al mismo tiempo. De esta manera, la recuperación de objetos que
se relacionan con otros objetos se acelera mucho, ya que todos ellos se

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 41 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
recuperan en unas pocas operaciones de lectura. Por ejemplo, se puede re-
cuperar rápidamente el objeto de un departamento junto con los objetos de
todos sus profesores.

• Por relaciones de agregación. Aquellos objetos que se componen de otros


objetos se pueden almacenar de manera que los componentes se agrupan
incrustados en los compuestos (ver el ejemplo de la figura 1.10). De esta
forma, con pocos accesos al disco es fácil recuperar un objeto junto con sus
componentes.

Figura 1.10. Ejemplo de agrupamiento por relaciones de agregación

Bibliografía
Atkinson, M. et al. (1989): The Object-Oriented Database System Manifesto, Pro-
ceedings of 1st International Conference on Deductive and Object-Oriented
Databases.
Cattell, R. et al. (2000): The Object Data Standard: odmg 3.0, Morgan Kaufmann.
Date, C. J. (2001): Introducción a los Sistemas de Bases de Datos, (7.a edición),
Prentice-Hall.
Elmasri, R., Navathe, S. (2011): Fundamentals of Database Systems, (6.a edición),
Addison-Wesley Longman.
Harrington, J. (2000): Object Oriented Database Design Clearly Explained,
Morgan Kaufmann.
Silberschatz, A., Korth, H., Sudarshan, S. (2002): Fundamentos de Bases de
Datos, (4.a edición), McGraw Hill.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 42 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Ejercicios

Ejercicio 1
Utilizando los siguientes conceptos, diseñar un diagrama conceptual que contenga al
menos dos jerarquías de especialización y dos de agregación. El diagrama también
deberá contener alguna relación de asociación. Dar atributos a todas las entidades.

• Periódicos • Reporteros
• Noticias • Maquetadores de taller
• Anuncios publicitarios • Reveladores de taller
• Fotografías • Escribir noticia
• Textos • Aceptar noticia
• Trabajadores de redacción • Maquetar noticia
• Trabajadores de taller • Maquetar anuncio
• Redactores jefe • Revelar fotografía

Ejercicio 2
Dado el siguiente esquema conceptual diseñar una base de datos orientada a objetos.

Formular las siguientes consultas sobre la base de datos oo anterior:

1. Utilizando la asociación expediente, seleccionar los profesores de las asig-


naturas de la titulación de ‘Derecho’ en las que se hayan matriculado más de
30 estudiantes.
2. Seleccionar los nombres de los estudiantes que siempre aprueban las asigna-
turas en primera convocatoria.

Ejercicio 3

Dado el siguiente esquema conceptual diseñar una base de datos orientada a ob-
jetos.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 43 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
´

Formular las siguientes consultas sobre la base de datos oo anterior:

1. Para el cliente «Oscar Pérez Pérez», recuperar sus números de teléfono con
su fecha de venta.
2. Recuperar la duración media de todas las tarjetas vendidas en el año 2010.
3. Para todos los clientes que hayan participado en la campaña llamada «talk-
more», recuperar el nombre de aquellos que hayan pagado un recibo en la
misma fecha en que fue emitido.
4. Recuperar todos los recibos del «Banco de Morella» ordenados por teléfonos.

Ejercicio 4
Dado el siguiente esquema conceptual diseñar una base de datos orientada a objetos.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 44 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Formular las siguientes consultas sobre la base de datos oo anterior:

1. Seleccionar los jugadores que hayan lanzado más de 5 penaltis y que hayan
participado en alguna jugada de gol tipo remate desde una distancia de más
de 20 metros.
2. Seleccionar los nombres de los jugadores con una prima económica mayor.

Ejercicio 5

Dado el siguiente esquema conceptual diseñar una base de datos orientada a objetos.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 45 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
Formular las siguientes consultas sobre la base de datos oo anterior:

1. Recuperar el nombre de los modelos de los aviones que posee la empresa


llamada ‘Aerosmith’.
2. Recuperar el nombre de cada piloto junto con un número que indique cuán-
tos modelos de aviones es capaz de pilotar.
3. Recuperar los aviones que pertenecen a más de 3 propietarios.
4. Recuperar cuántos aviones que puede pilotar ‘José Pérez’ agrupados por
modelos.
5. Recuperar las fechas y las horas de los servicios de los aviones que se guar-
dan en el hangar número 7.
6. Visualizar el salario máximo y mínimo que un empleado puede tener.
7. Recuperar los nombres y las titulaciones de las parejas de operarios y pilotos
que vivan en la misma calle de la misma ciudad.
8. Calcular el peso y la capacidad media de los aviones.
9. Recuperar el número y la posición de cada hangar cuya nave tenga una ca-
pacidad superior a los 1000 metros cuadrados y ordenar por la capacidad de
la nave.
10. Recuperar los pilotos que siempre vuelan en aviones con capacidad supe-
rior a los 200 pasajeros.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 46 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
CAPÍTULO 2

Sistemas de recuperación
de información
y documentos estructurados

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 47 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
1. Introducción
Los Sistemas de Recuperación de Información (sri) tratan con la representación,
almacenamiento y recuperación de documentos. Por definición, el objetivo gene-
ral de un sri es que dada una consulta proporcionada por el usuario el sistema recu-
pere información relevante. En los sri tradicionales cada documento se almacena
en un fichero separado. Previamente, su contenido textual debe ser procesado para
su indexación. Es precisamente este mecanismo de indexación el que se utiliza
para procesar las consultas de los usuarios y recuperar los documentos relevantes.

Durante las últimas décadas han surgido nuevos formatos para representar docu-
mentos estructurados que permiten expresar los atributos y la organización de los
documentos junto con sus contenidos. xml (Extensible Markup Language) es un
formato universalmente aceptado como estándar de intercambio de datos y docu-
mentos que permite ser procesado, entre otras muchas cosas, para indexar su con-
tenido y estructura. En este capítulo se estudian los principales modelos y técnicas
que se utilizan en los sistemas de recuperación de información tradicionales y para
documentos estructurados.

1.1. Objetivos de aprendizaje


Los objetivos de aprendizaje de este capítulo se enumeran a continuación:

a) Definir qué son los sri y sus conceptos más importantes.


b) Diferenciar entre un sistema de bases de datos y un sri en cuanto a su utili-
zación y técnicas de desarrollo.
c) Explicar en qué consiste la tarea de recuperar información.
d) Definir los elementos de un sri, sus funciones y relaciones.
e) Describir los principales modelos de representación de documentos.
f) Explicar los modelos de recuperación de información clásicos, sus caracte-
rísticas y propiedades.
g) Explicar el concepto de eficacia de un sri y sus mecanismos básicos de me-
dida.
h) Describir en qué consisten los principales mecanismos de especificación de
consultas en sri tradicionales.
i) Explicar los pasos del proceso de indexación y almacenamiento de docu-
mentos en un sri.
j) Describir los principales tipos de índices de los sri y su funcionamiento en
la búsqueda y recuperación de información.
k) Explicar las peculiaridades de los sri que almacenan documentos estructura-
dos en cuanto a sus consultas y esquemas de indexación.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 49 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
2. Sistemas de bases de datos versus sistemas
de recuperación de información
A pesar de que los sri no son tan conocidos como los sistemas de bases de datos
(sbd), se están utilizando desde hace tantos años como los sbd más antiguos. Am-
bos tipos de sistemas deben permitir al usuario almacenar y recuperar informa-
ción, sin embargo, hay diferencias sustanciales en su funcionamiento y ámbito de
aplicación. En este apartado se estudian las principales diferencias entre estos dos
tipos de sistemas de información.

Los sbd tradicionales solo pueden utilizarse para recuperar datos y sus técnicas no
se pueden emplear en aplicaciones que necesiten rescatar documentos. Igualmente
los sri solo permiten almacenar documentos y no son adecuados para almacenar
y recuperar datos. Por esta razón, desde sus orígenes, ambos tipos de sistemas
han ido evolucionando separadamente, y sus técnicas y modelos son completa-
mente diferentes. Sin embargo, durante los últimos años, los principales sistemas
de gestión de bases de datos han ido incorporando módulos para el manejo de
información textual que les permite indexar y gestionar documentos. De esta ma-
nera, ahora es posible combinar datos y documentos dentro de un mismo sistema
de información, e incluso es posible realizar consultas que combinen condiciones de
recuperación sobre ambos tipos de información.

Para almacenar datos dentro de una base de datos, previamente es necesario dise-
ñar un esquema lógico que defina la estructura y el tipo de los datos que se van a
insertar. Por ejemplo, en una base de datos relacional, esta información se especi-
fica al crear las tablas donde se van a insertar los datos. Cada tabla se compone de
un conjunto de columnas y cada columna almacena un solo dato del tipo corres-
pondiente. Sin embargo, para los documentos de una colección no se puede crear
un esquema de base de datos porque el contenido de cada documento es diferente.
Sus secciones y párrafos tienen longitudes muy variadas y pueden llegar a ser
muy largos. Además, es imposible predecir cuántas secciones o cuántos párrafos
tendrá cada uno de los documentos de la colección. Por esta razón, en los sri no
se crea ninguna estructura de datos para almacenar los documentos. La unidad de
almacenamiento y recuperación es el documento, y cada documento se almacena
separadamente en un solo bloque, normalmente un solo fichero.

A la hora de especificar sus necesidades de información, los usuarios de un sri tie-


nen muchas más dificultades que con los sbd. Los datos de un sbd siempre tienen
una estructura y un significado que vienen claramente definidos por el esquema de
la base de datos que los almacena. Una consulta a un sbd en sql define claramente
unas condiciones de recuperación que todos los datos devueltos van a cumplir
exactamente, con lo que siempre se puede decir que las respuestas satisfacen com-
pletamente las necesidades de los usuarios. Sin embargo, dadas las características
de la información que manejan, los sri no pueden ser tan exactos, y entre el con-
junto de documentos que devuelven al usuario se pueden encontrar algunos que no
son tan relevantes como otros. La principal razón de esta diferencia de comporta-
miento es que los sri tratan con textos escritos en lenguaje natural, siendo este un

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 50 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
lenguaje cuya ambigüedad dificulta su manejo por los ordenadores, sobre todo por
la imposibilidad que tienen de entender su significado preciso.

Por ejemplo, cuando se recupera de una base de datos el teléfono del Ayuntamien-
to de Peñíscola, el usuario realiza una consulta sql como por ejemplo la siguiente:

select distinct telefono


from ayuntamientos
where municipio = ‘Peñíscola’

Además, todos los elementos de la respuesta se corresponderán con la información


solicitada. Sin embargo, para buscar esta información con un sri, la consulta que
se puede utilizar es mucho menos exacta. En este caso, un usuario podría indicar:
(teléfono ayuntamiento Peñíscola).

Como respuesta del sistema, el usuario recibirá una lista de documentos ordenados
según su capacidad de satisfacer las condiciones de la consulta. Cuanto mayor sea
esta capacidad mayor será la relevancia del documento con respecto a la consul-
ta. Sin embargo, a pesar de esto, muchos de los documentos de la respuesta no
proporcionarán la información que se solicita, es decir, el número de teléfono del
Ayuntamiento de Peñíscola.

Para realizar su función, los sri procesan el contenido de los documentos que al-
macenan, y los representan por medio de un conjunto de palabras que se extraen
de su contenido. Posteriormente, los documentos son considerados para su recu-
peración de acuerdo a su relevancia con respecto a la consulta inicial. Todo este
proceso requiere la extracción de información de los textos y la utilización de esta
información para evaluar la consulta. La dificultad no esta solo en cómo extraerla,
sino en cómo utilizar la información para estimar la relevancia del documento con
respecto a la consulta.

Como puede verse, la noción de relevancia es central en los sri. De hecho, pode-
mos decir que el principal objetivo de los sri es recuperar el mayor número posible
de documentos relevantes para el usuario, y recuperar el menor número posible de
ellos que no sean suficientemente relevantes. En el resto del capítulo se estudian
las principales características y técnicas empleadas por los sri actuales. En la tabla
2.1 se resumen todos los conceptos explicados en este apartado.

Sistemas de Bases de Datos Sistemas de Recuperación de Información

Almacenan datos con estructura regular y Almacenan documentos con estructura irregular y signifi-
significado preciso cado impreciso

Consultas con condiciones precisas Consultas con condiciones aproximadas

select distinct telefono


(teléfono ayuntamiento Peñíscola)
from ayuntamientos
where municipio = ‘Peñíscola’

Resultados siempre relevantes Resultados varían de muy relevantes a poco relevantes

Consultas completamente satisfechas Consultas más o menos satisfechas

Tabla 2.1. Sistemas de bases de datos versus sistemas de recuperación de información

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 51 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
3. Visión general
En esta sección se presentan de una manera general los conceptos más básicos
de los sri que serán mejor explicados en el resto de secciones del capítulo. Estos
conceptos sirven para comprender cómo funciona un sri de una manera preliminar
y permiten comenzar a profundizar en las cuestiones más específicas del capítulo
como son los modelos de representación de los documentos, los mecanismos de
evaluación de consultas y las técnicas de inserción, indexación y búsqueda de do-
cumentos.

3.1. La tarea de recuperar información

A la hora de utilizar un sri, el usuario tiene que traducir sus necesidades de infor-
mación en consultas escritas en el lenguaje o interfaz gráfica proporcionada por el
sistema. En general, tal y como expresa la figura 2.1, puede decirse que la tarea de
recuperar información es un proceso cíclico cuyos objetivos iniciales no están bien
definidos y pueden ir cambiando a lo largo del proceso.

Figura 2.1. La tarea de recuperar información con un sri

Normalmente, la tarea de recuperar información implica especificar un conjunto


de palabras clave que describan los contenidos de los documentos a recuperar.
Después de un primer intento y de observar los documentos recuperados, si la
respuesta del sistema no se considera los suficientemente buena, el usuario suele
entonces escoger otro conjunto de palabras clave para describir de nuevo la con-
sulta anterior y tratar de obtener una respuesta que cubra mejor sus necesidades.

En otras ocasiones, al recibir la respuesta a una consulta, al usuario le puede surgir


una nueva necesidad de información que cambia su objetivo inicial y que se expre-
sa con una nueva consulta más o menos relacionada con la anterior. Por ejemplo,
un usuario buscando información de los actores de una película puede descubrir
el nombre de un actor que hasta entonces desconocía. Este hecho, le puede llevar
a una nueva consulta en la que trate de encontrar más películas en las que haya
participado dicho actor.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 52 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
3.2. Arquitectura de un sri
En la figura 2.2 se proporciona un esquema que expresa la arquitectura genérica
de un sri y su funcionamiento en el proceso de almacenamiento y recuperación de
información. Nótese que los usuarios de un sri van a realizar únicamente operacio-
nes de consulta y las operaciones de almacenamiento de documentos las realizará
su administrador.

El contenido de los documentos que se almacenan en un sri se suele representar


por medio de un conjunto de términos que sirven para su indexación. Conforme
se van almacenando los documentos, estos se van procesando para extraer sus
términos de indexación que son insertados en el índice del sistema. Un esquema
de indexación, o simplemente índice, es una estructura de datos con información
extraída tras procesar los documentos y que permiten su recuperación rápida tras
comprobar que satisfacen las condiciones de las consultas.

Figura 2.2. Arquitectura de un sri

Al igual que el contenido de los documentos, las necesidades de información de


los usuarios también se suelen representar con un conjunto de términos. El proceso
de recuperación comienza analizando la consulta del usuario para trasformarla con
operaciones textuales en otra consulta mejorada que devuelva información más re-
levante. A continuación, la consulta se ejecuta sobre el índice y el sistema recupera
un conjunto de documentos. Antes de enviar estos documentos al usuario, deben
ser ordenados según su relevancia con respecto a la consulta del usuario. A veces,
después de visualizar los documentos, el usuario puede indicar cuáles son los que
más le interesan (user feedback). Esta información puede ser utilizada por el siste-
ma para reformular la consulta inicial y devolver al usuario una respuesta con más
documentos relevantes. En el resto del capítulo se explican todos estos conceptos
mucho más detalladamente.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 53 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
4. Modelos de representación de documentos
Para representar los documentos almacenados, cada sri utiliza su propio modelo
de documento. En el modelo de representación de documentos se define qué in-
formación se va representar acerca de cada documento almacenado. Por eso, el
modelo de documento utilizado por un sri va a tener consecuencias en cuestiones
importantes como el formato y las estructuras de datos que se van a utilizar para
almacenar los documentos, y los tipos de condiciones que se van a poder especifi-
car en los lenguajes de recuperación del sistema.

Algunos modelos de documento solamente representan su contenido textual, en


otros casos junto con el texto de los documentos se representan otras propiedades
de los mismos, y en algunos sistemas se pueden utilizar lenguajes de marcado para
representar el contenido de los documentos junto con su organización y atributos.
En esta sección se explican las diferentes alternativas que existen para crear un
modelo de documento.

4.1. Representación del contenido textual


En todos los sri se representa el contenido textual de los documentos. Se considera
que cada documento está descrito por un conjunto de palabras clave que resumen
su contenido, las cuales son también denominadas términos de indexación, ya que
se insertan en un índice que se utiliza para procesar las consultas. Para seleccionar
los términos de indexación de un documento, este tiene que ser procesado por el
sistema con el fin de identificar las palabras que son realmente importantes para
describir su contenido. Sin embargo, algunos sistemas realizan una indexación
full-text de los documentos que almacenan, lo cual significa indexar todas las pa-
labras del texto. Esto resulta en un modelo de documento muy completo pero con
demasiado costo computacional. Por eso, para grandes colecciones de documen-
tos, es mejor utilizar los sistemas que son capaces de extraer automáticamente las
palabras del texto que tengan un mayor significado. Durante este proceso primero
se eliminan las stopwords (palabras sin significado como artículos, pronombres,
preposiciones, etc.), después se extraen las raíces gramaticales que forman conjun-
tos de palabras con el mismo significado (stemming), y finalmente se identifican
las frases nominales (se agrupan las palabras en conceptos y se eliminan los adje-
tivos, adverbios y los verbos).

Todas estas operaciones sobre el texto reducen la complejidad del modelo de re-
presentación de los documentos, y proporcionan un buen conjunto de términos de
indexación para el documento. Sin embargo, es importante tener en cuenta que
ninguna de ellas resuelve los problemas de ambigüedad del lenguaje causados
entre otras cosas por la utilización de palabras con varios significados (polisemias)
o varias palabras con el mismo significado (sinónimas). Aunque se han estudiado
mucho, los problemas de ambigüedad del lenguaje siguen sin estar resueltos, así
que se puede decir que es imposible expresar el contenido de los documentos de
manera exacta.

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 54 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73
4.1.1. Matriz de términos/documentos

Para representar el contenido textual de los documentos, en muchos sri se utiliza


una estructura de datos consistente en una matriz con dos dimensiones denomina-
da matriz de términos/documentos. En esta matriz se almacenan los términos de
indexación que se han extraído tras procesar los documentos para almacenarlos en
el sistema. Más específicamente, en una dimensión de esta matriz se consideran
todos los documentos almacenados en el sistema y en la otra todos los términos de
indexación que describen su contenido. En cada posición de la matriz se almacena
un valor que indica si el documento contiene dicho término, pudiendo ser un valor
booleano de cierto/falso o un número real que exprese la importancia que tiene di-
cho término en el documento. Toda esta información será utilizada por el sri para
procesar las consultas.

Desde que en Hogwarts se abrió la cámara secreta, Harry y sus ami-


Documento 1
gos deberán luchar contra un monstruo

Harry y sus amigos deben encontrar los horrocruxes que Voldemort


Documento 2
necesita para sobrevivir

Harry descubre un libro de un príncipe. Resulta que Voldemort está


Documento 3
detrás de todo

Tabla 2.2. Ejemplos de documentos con términos de indexación

Por ejemplo, considerando los tres documentos de la tabla 2.2 en el que los térmi-
nos de indexación aparecen marcados en negrita, se puede construir la matriz de
la tabla 2.3. En esta tabla, cada posición de la matriz almacena un valor booleano
indicando si el texto contiene al término.

Término Doc. 1 Doc. 2 Doc. 3

hogwarts 1 0 0

harry 1 1 1

amigos 1 1 0

cámara secreta 1 0 0

monstruo 1 0 0

voldemort 0 1 1

horrocruxes 0 1 0

sobrevivir 0 1 0

príncipe 0 0 1

libro 0 0 1

Tabla 2.3. Ejemplo de matriz de términos/documentos

María José Aramburu C. / Ismael Sanz B. - ISBN: 978-84-695-6769-2 55 Bases de datos avanzadas - UJI - DOI: http://dx.doi.org/10.6035/Sapientia73

También podría gustarte