Análisis de Metadatos
Análisis de Metadatos
Análisis de Metadatos
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 2
de la tecnología digital, pero éste data desde mucho últimos diez autores del documento, si se uso un
tiempo atrás. El ejemplo mas común se presenta en paquete macro para la creación del documento o un
una biblioteca, donde se utilizan fichas que sistema de gestión de documentos como repositorio,
especifican autores, títulos, casas editoriales y entre otros [7].
lugares para buscar libros. De esta forma podemos
afirmar que los metadatos son datos que describen Los metadatos pueden dividirse en dos categorías:
datos.
De manera más formal podríamos decir que un Metadatos de aplicación
metadato es un dato que se encarga de mantener un
registro sobre el significado, contexto o propósito Son aquellos que son creados
de un objeto informativo, para descubrir, entender, automáticamente por una aplicación y están
extraer y administrar dicho objeto [1]. Dicho incrustados en todos los archivos que son
registro generalmente es de menor tamaño que los creados o modificados con ese software.
datos que describe, y maneja un formato corto ya
establecido, de forma tal que describen colecciones
de objetos y también los procesos en los que están Sistemas de Metadatos
involucrados, describiendo cada uno de los eventos,
Los sistemas operativos que controlan
sus componentes y cada una de las restricciones que
máquinas individuales, servidores y otros
se les aplican.
dispositivos, crean sistemas de metadatos, los
cuales fijan una tabla de asignación de
En los documentos digitales, los metadatos van
campos de archivo (nombre de archivo,
más allá que el contenido impreso del mismo. Estos
creación, extensión, y el uso) a todos los
contienen todos los datos en el sistema de archivos
archivos almacenados en el sistema de forma
que describen el diseño y atributos de los archivos y
tal que el sistema operativo puede identificar
los directorios regulares. Incluyendo, no solo
y localizar cualquier archivo. Los sistemas de
atributos de tiempo, el control de acceso a la
metadatos residen en el sistema de registro del
información, el tamaño, sino también información
sistema o el servidor utilizado para acceder y
sobre cómo encontrar y reunir un archivo o
almacenar ese archivo.
directorio en el sistema de archivos. Esta última
información que se obtiene, contiene enlaces a Aplicaciones como Word, Excel y PowerPoint,
bloques de datos, o incluso a todos los bloques automáticamente generan docenas de campos
utilizados como nodos internos de búsqueda de (tipos) de metadatos de aplicación para cada uno de
estructuras de datos tales como árboles-B. los archivos que crean. Los campos de los
metadatos de aplicación y sistemas de metadatos
Los metadatos en un documento digital son creados y actualizados para Word, Excel y
principalmente son automáticamente añadidos PowerPoint cada vez que un archivo es creado,
cuando el archivo es creado y después almacenado abierto, o utilizado, así como la información
y/o cuando se abre el archivo y se edita. Por opcional sobre los cambios o las versiones de que
ejemplo cuando un documento es creado, se asocia un usuario puede intencionalmente añadir al
la fecha de creación y el nombre del autor, como archivo. El software de Adobe Acrobat crea
metadatos del mismo. Por otro lado cuando el metadatos con información detallada sobre la ruta
documento se imprime se añaden etiquetas de del documento, que puede proporcionar
fechas de impresión. Otro tipo de metadatos que información para el análisis forense sobre archivos
también se asocian a un documento son, que tipo de PDF [6].
plantilla se utilizó para crear el documento y el
autor de la plantilla, información con el nombre y
ruta donde el archivo fue almacenado por los
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 3
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 4
Nombre de la organización
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 5
Las propiedades del archivo representan solo una almacenar todos los cambios realizados al
parte de los metadatos almacenada en los documento, el autor de los cambios, y las
documentos. Otro tipo de metadatos que se añaden fechas de modificación. Este tipo de
al documento son mediante las opciones de Campo, información reside en el mismo archivo.
Control de Cambios y Versiones.
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 6
V. ESPECIFICACIÓN AVANZADA DE LOS ARCHIVOS Ilustración 7. Estructura inicial de un archivo PDF [14]
PDF Y MSOFFICE
A continuación describiremos como esta
estructurado un archivo PDF, como es la
organización y tipo de objetos que este gestiona
para acceso rápido y actualizaciones que sean
realizadas. Normalmente un archivo PDF consta de
cuatro elementos:
1. Cabecera
Que es la parte que identifica la versión de la
especificación PDF que el archivo conforma.
2. Cuerpo
El cual contiene los objetos que forman el
contenido del archivo.
3. Referencia Cruzada
Contiene información acerca de los objetos
indirectos en el archivo
4. Trailer
Contiene una tabla con la localización de la
referencia cruzada y objetos especiales que
están dentro del cuerpo.
Ilustración 8. Estructura de un archivo PDF actualizado
[14]
Esta es la estructura inicial, pero a medida que se
realizan actualizaciones sobre el archivo se
A. Cabecera
adicionan nuevos elementos al final del archivo
(cuerpo, referencia cruzada y tráiler) como se La cabecera es la primera línea del archivo PDF
muestra en las siguientes ilustraciones. que identifica la versión de la especificación del
archivo, indica la firma (25 50 44 46). Si la
versión es 1.5 la línea sería así:
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 7
%PDF-1.5 D. Trailer
Permite que a una aplicación que lea el archivo
Esta versión puede ser anulada en caso que se
encuentre rápidamente la tabla de referencias
haga una actualización, el nuevo valor será
cruzadas y ciertos objetos especiales. Las
almacenado en la entrada raíz del Trailer.
aplicaciones leen los PDF desde el fin, por lo tanto
en caso que se hayan realizado actualizaciones y la
versión se modifique, esta información se
encontrará aquí como anteriormente se mencionó.
La última línea del archivo sería así:
%%EOF
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 8
archivo. Se debe tener en cuenta que el propio sin asignar. La FAT es prácticamente un flujo
archivo también puede ser considerado como un formado por uno o más sectores de grasa.
flujo virtual. Las partes principales de este archivo
compuesto son: 3. Sectores MiniFAT
Como el espacio de flujos es siempre asignado
1. Cabecera en el sector de bloques, se considera que hay
La cabecera contiene información para la desperdicio cuando se almacenan objetos mucho
instanciación del archivo. Su tamaño es de 512 más pequeños que los sectores (normalmente
bytes, es única y esta localizada al principio del 512 bytes). Como una solución a este problema,
archivo en el desplazamiento cero. se introdujo el concepto de la MiniFat. El
MiniFAT es estructuralmente equivalente a la
FAT, pero se utiliza de una manera diferente.
4. Sectores DIF
Se utiliza para representar el almacenamiento de
la FAT. El DIF también está representado por
una variedad de sectores, y es encadenado por la
terminación de células en cada sector.
5. Sectores Directorio
El Directorio es una estructura utilizada para
contener flujo de información acerca de los
flujos en un archivo compuesto, así como para
mantener una estructura de árbol de contención.
Se trata de un flujo virtual compuesto de uno o
más sectores Directorio. El Directorio está
representado como un estándar de la cadena de
sectores dentro del FAT.
Ilustración 11. Cabecera archivo MS Office
Imagen tomada por Andrea Ariza Díaz
6. Sectores de Almacenamiento
Son simplemente colecciones de bytes
arbitrarios. Ellos son los bloques de flujos del
usuario, no se imponen restricciones sobre su
contenido, por lo cual se puede añadir
información u ocultar datos. Los sectores de
almacenamiento están representados como
cadenas en la FAT, y cada cadena de
almacenamiento (flujo) tendrá una única entrada
de directorio asociada a ella [15].
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 9
uno de los documentos a analizar en su forma real. archivo no se podrá abrir desde Word, como se
Para este caso utilizamos WinHex. puede ver en las ilustraciones 14 y 15.
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 10
Este es un ejemplo de modificación de firmas, Imagen tomada por Andrea Ariza Díaz
pero como se dijo anteriormente es posible partir,
unir, concatenar documentos. Por lo cual ocultar
información dentro de ellos sin que se pueda notar, B. Cambio de extensión en un documento
es fácil para un atacante que conozca este tipo de Microsoft Office y en un documento Adobe PDF
herramientas. De la misma forma esto se puede
hacer para un documento PDF como se muestra a Otra forma de ocultar datos dentro de un
continuación. documento y hacerlo inservible a primera vista, es
cambiándole la extensión a los archivos. Este caso
La firma de un archivo PDF es de 4 bytes, a lo puede ser aplicable para cualquier documento
diferencia de un documento de Microsoft Office que como tal. Los atacantes suelen hacer este tipo de
es de 8 bytes, y es 25 50 44 46. modificaciones explicadas anteriormente para que
impedir el acceso a los documentos.
VII. CONCLUSIONES
Este artículo ha presentado como es la estructura
de los documentos Microsoft Office y Adobe PDF,
para el análisis de metadatos en una investigación
Ilustración 16. Firma de un Archivo PDF
Imagen tomada por Andrea Ariza Díaz
forense, o como explicación de una forma de
ataque. Para explicar cómo se puede hacer este
procedimiento se utilizó la herramienta WinHex.
PUJ - 2008
Pontificia Universidad Javeriana. Ariza, Ruíz. Análisis de Metadatos. 11
REFERENCIAS
Realizado por:
[1] Vásquez. Paulus. C., METADATOS: Introducción e Andrea Ariza Díaz
historia [Online]. Available: Juan Camilo Ruíz
http://www.dcc.uchile.cl/~cvasquez/introehistoria.pdf Ingeniería de Sistemas
[2] Pinnington. D., (2004). Beware the dangers of Metadata Pontificia Universidad Javeriana
[Online]. Available: www.lawpro.ca/magazinearchives 2008
[3] Simon Byers (2003). Scalable Exploitation of, and
Responses to Information Leakage Through Hidden
Data in Published Documents [Online]. Available:
http://www.user-agent.org/word_docs.pdf
[4] Payne Consulting Group. How much metadata are you
sharing? [Online]. Available:
http://www.payneconsulting.com/pub_books/articles/pdf/
HowMuchMetadataAreYouSharing.pdf
[5] Payne. D., Metadata are you protected. [Online].
Available:
http://www.payneconsulting.com/pub_books/articles/pdf/
HowMuchMetadataAreYouSharing.pdf
[6] Spafford. E., Buchholz. F., On the role of file system
metadata in digital forensics. [Online]. Available:
http://homes.cerias.purdue.edu/~florian/publications/meta
data_jdi.pdf
[7] Payne. D., Metadata What every attorney need to know.
[Online]. Available:
http://www.scribd.com/doc/2893980/ComplexDiscovery-
Considering-Metadata
[8] SNAC (2005). How much metada are you sharing.
[Online]. Available:
http://www.payneconsulting.com/pub_books/articles/pdf/
HowMuchMetadataAreYouSharing.pdf
[9] Metadata: What is it, and how do you deal with it?.
[Online]. Available:
http://www.hsskgroup.com/attachments/articles/57/Metad
ata%209%2030%2004%20Updated.pdf
[10] Farrar. R., Metadata Management in Microsoft Office:
How Firms Can Protect Themselves against
Unintentional Disclosure and Misuse of Metadata.
[Online]. Available:
http://www.abanet.org/genpractice/ereport/2006/may/met
adata.html
[11] Ruhnka. J., Forensic Implications of Metadata in
Electronic Files. [Online]. Available:
http://www.nysscpa.org/cpajournal/2008/608/essentials/p
68.htm
[12] (2008). File Signatures Table
http://www.garykessler.net/library/file_sigs.html
[13] Adobe systems Incorporated. (2008). PDF Reference.
[Online]. Available:
http://partners.adobe.com/public/developer/en/pdf/PDFRe
ference.pdf
[14] Microsoft Corporation. (2008). Windows Compound
Binary File Format Specification. [Online]. Available:
http://download.microsoft.com/download/0/B/E/0BE8BD
D7-E5E8-422A-ABFD-
4342ED7AD886/WindowsCompoundBinaryFileFormatS
pecification.pdf
[15] (2008). WinHex 15.1 Completo editor hexadecimal.
[Online]. Available: http://winhex.uptodown.com/
PUJ - 2008