Como Funciona La Web - Caps 1 2 3 PDF
Como Funciona La Web - Caps 1 2 3 PDF
Como Funciona La Web - Caps 1 2 3 PDF
funciona
la
Web
Centro de Investigacin de la Web
Departamento de Ciencias de la Computacin
Universidad de Chile
Publicacin Autoeditada.
Primera Edicin, Junio 2008.
Santiago de Chile.
Captulo 1
La Web como espacio de informacin universal ................................................ 9
De fuentes aisladas a redes de informacin ................................................ 10
Las bases lgicas de la Web ........................................................................... 12
La filosofa de la Web como espacio de informacin: la W3C .................. 14
La Web Semntica ........................................................................................... 16
El Futuro de la Web ......................................................................................... 20
Captulo 2
Anatoma de la Web ............................................................................................. 23
Introduccin ..................................................................................................... 23
Conceptos Bsicos ........................................................................................... 24
Caracterizando la Web .................................................................................... 29
Captulo 3
Internet .................................................................................................................... 43
El desarrollo de Internet ................................................................................. 43
Arquitectura ..................................................................................................... 45
El gobierno de Internet ................................................................................... 49
Captulo 4
Buscando en la Web .............................................................................................. 51
Crawling: qu pginas debera conocer un buscador? ............................ 53
Indexamiento: qu debera almacenarse de las pginas? ........................ 55
Bsqueda: qu preguntas debera responder, y cmo? ........................... 56
Interaccin con el Usuario: cmo presentar la informacin? .................. 59
Captulo 5
Manejo de grandes volmenes de informacin utilizando Clusters de com
putadores ................................................................................................................ 63
Mquinas de bsqueda y Clusters ................................................................ 65
Recoleccin de pginas Web y Clusters ....................................................... 69
Captulo 6
XML: Transformando la Web en una Base de Datos ....................................... 75
XML: Un lenguaje para almacenar informacin ......................................... 78
Transformacin de documentos XML .......................................................... 80
Extraccin de informacin desde XML ........................................................ 85
Para recordar .................................................................................................... 89
Captulo 7
Uso y Bsqueda de Informacin Geogrfica en la Web ................................. 93
Cul es el tipo de informacin geogrfica en la Web? ............................ 94
Servicios web de informacin geogrfica ................................................... 97
Mquinas de bsqueda Web geogrfica ..................................................... 99
Captulo 8
Multimedia en la Web ....................................................................................... 103
El universo creciente de la informacin mutimedial en la Web ............ 103
Indexacin automatizada de la informacin multimedial ..................... 106
Bsqueda o Recuperacin de informacin multimedial ........................ 108
Captulo 9
Redes Sociales ..................................................................................................... 113
Anlisis de Redes Sociales ........................................................................... 113
Redes Sociales y Software ........................................................................... 116
Sitios y Aplicaciones Mencionados ............................................................ 122
Captulo 10
Clasificacin y Filtrado de Informacin en la Web Viva ........................... 127
Sindicacin de Contenido ............................................................................ 128
Canales y Agregadores de RSS .................................................................... 130
Filtrado y Clasificacin de Informacin ..................................................... 131
Los Primeros Filtros Automticos ............................................................... 132
Filtros que Aprenden y se Adaptan ............................................................ 134
Filtrado Colaborativo .................................................................................... 136
El Rol de los Tags ........................................................................................... 138
Conclusin ...................................................................................................... 139
Introduccin
1
Introduccin
2
Introduccin
Gonzalo Navarro
Director del Centro de Investigacin de la Web
Santiago, Chile, Abril 2008.
3
Los Autores
5
Los Autores
6
Los Autores
7
Los Autores
8
Captulo 1
La Web como espacio de
informacin universal
Claudio Gutirrez
9
Captulo 1 La Web como espacio de informacin universal
10
Captulo 1 La Web como espacio de informacin universal
mos cmo hace 50 aos alguien buscaba informacin. Deba recorrer biblio
teca por biblioteca, y correlacionar o comparar la informacin a mano. Por
ejemplo, determinar los ttulos de libros que estudian la vida de Andrs Be
llo. No poda navegar a travs de la imagen virtual de todos los libros de
todas las bibliotecas del mundo juntas. Sin embargo, la Web hizo posible esa
realidad.
A comienzos de los noventa, Tim BernersLee [1] tuvo una idea genial:
disear este sistema global de informacin de tal forma que cada usuario en
un nodo pudiera navegar por el resto de forma totalmente automtica, es de
cir, sin tener idea de cmo funciona el sistema del otro, qu sistema
operativo tiene, qu lenguajes de programacin usa, qu aplicaciones corre.
Su experiencia en el CERN (ver figura 1.1) fue la gatilladora de esta simple
idea, que es el origen de la Web. En palabras de BernersLee: El concepto de
la Web integr muchos sistemas de informacin diferentes, por medio de la
formacin de un espacio imaginario abstracto en el cual las diferencias entre
ellos no existan. La Web tena que incluir toda la informacin de cualquier
tipo en cualquier sistema.
11
Captulo 1 La Web como espacio de informacin universal
12
Captulo 1 La Web como espacio de informacin universal
13
Captulo 1 La Web como espacio de informacin universal
14
Captulo 1 La Web como espacio de informacin universal
15
Captulo 1 La Web como espacio de informacin universal
La Web Semntica
Uno de los problemas ms importantes que aparece con la Web es el de
determinar qu significa cada dato que est en la Web. Es prcticamente
imposible para un usuario chileno entender una pgina en chino o tailands.
Y viceversa. El problema es an ms dramtico: es muy difcil para un hu
mano encontrar la informacin que necesita. Los buscadores funcionan de
manera puramente sintctica, es decir, no entienden las palabras. Qu
hacer?
16
Captulo 1 La Web como espacio de informacin universal
17
Captulo 1 La Web como espacio de informacin universal
Metadatos y RDF
La caracterstica distintiva de la Web Semntica ser un lenguaje estn
dar de metadatos y ontologas, que permitirn que agentes de software
encuentren el significado de la informacin en pginas Web, siguiendo enla
ces a las definiciones de trminos claves y reglas para razonar acerca de ellas
lgicamente. Los metadatos son datos descriptivos acerca de un objeto o re
curso, sea ste fsico o electrnico. Las ontologas son especificaciones
formales de vocabulario y conceptos compartidos para un dominio.
18
Captulo 1 La Web como espacio de informacin universal
museos han sido usados por dcadas, por ejemplo, el DCC (Dewey Decimal
Classification), OCLC (On Line Computer Library Center), Dublin Core. Una
manera til de pensar acerca de los metadatos es la suma total de lo que
uno puede decir acerca de cualquier objeto de informacin a cualquier nivel
de agregacin. Hay muchos tipos de metadatos, y los usos ms comunes se
refieren a documentacin de copyrights y accesos legales, versionamiento,
ubicacin de informacin, indizacin, descripcin de condiciones fsicas de
recursos, documentacin de software, autentificacin, etc.
19
Captulo 1 La Web como espacio de informacin universal
de ser definido siguiendo las lneas dadas en los esquemas RDF (RDF Sche
ma), y bsicamente son codificaciones de ontologas a diferentes niveles.
El Futuro de la Web
No es fcil predecir los desarrollos futuros de la Web. El proyecto ini
cial de Tim BernersLee inclua el desarrollo de capas sucesivas para
permitir el intercambio global de informacin y conocimiento. Luego de la
estructura bsica que conocemos, vendr una capa de semntica, de metada
tos. Esta capa permitira procesar la informacin semiautomticamente, es
decir, permitira a agentes de software procesar la informacin en paralelo a
los humanos. (Ntese que la Web actual est hecha casi en su totalidad para
que seres humanos la naveguen.)
20
Captulo 1 La Web como espacio de informacin universal
Para saber ms
Tim BernersLee, Tejiendo la Red, Siglo Veintuno Eds., Espaa, 2000.
Tim BernersLee, Ora Lassila La Web Semntica, Scientific American, 2002.
La World Wide Web Consortium (W3C) ha dispuesto una breve gua
introductoria, en espaol, sobre la web semntica:
http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica
Referencias
1. CERN: Where the web was born. Page at the CERN.
http://public.web.cern.ch/public/en/About/Weben.html
2. Tim BernersLee. Information Management: A Proposal (1989).
http://info.cern.ch/Proposal.html
http://www.w3.org/History/1989/proposal.html
3. Tim BernersLee. The World Wide Web Past Present and Future: Exploring
Universality. http://www.w3.org/2002/04/Japan/Lecture.html
4. W3C Semantic Web Activity: http://www.w3.org/2001/sw/
5. Resource Description Framework (RDF) / W3C Semantic Web Activity:
http://www.w3.org/RDF/
21
Captulo 2
Anatoma de la Web
Ricardo Baeza Yates
Introduccin
Qu estructura tiene la telaraa mundial de computadores o World
Wide Web? (la Web de ahora en adelante, aunque no me queda claro si es fe
menino o masculino). Nadie sabe. Crece ms rpido que la capacidad de ella
misma para detectar sus cambios. Sus conexiones son dinmicas y muchas
de ellas quedan obsoletas sin ser nunca actualizadas. El contenido de la Web
es hoy de miles de terabytes (un terabyte o Tb es un billn de megabytes) de
texto, imgenes, audio y video. Para aprovechar esta gran base de datos no
estructurada es importante poder buscar informacin en ella, adaptndose al
crecimiento continuo de la Web.
23
Captulo 2 Anatoma de la Web
Conceptos Bsicos
La Web es compleja: hay pginas estticas y dinmicas, pblicas y pri
vadas, con o sin metadatos, que representan la semntica de la Web, tal
como se muestra en la Figura 2.1.
24
Captulo 2 Anatoma de la Web
Las pginas pblicas son las que todas las personas pueden ver y las pri
vadas son las que estn protegidas por una clave o se encuentran dentro de
una Intranet. Como cada persona tiene acceso a distintas pginas privadas,
la Web pblica depende del observador. En particular cada buscador refleja
una Web pblica distinta. Algunos sitios tienen informacin semntica que
ayuda a los buscadores y se estima que un 5% de ellos tiene informacin fi
dedigna. Sin embargo, ms son los sitios que tienen informacin falsa, lo que
se llama spam de Web.
Minera Web
Para caracterizar la Web debemos realizar un proceso de minera de da
tos de la Web, lo que en ingls se llama Web mining. Una metfora sera
excavar la Web y es posible hacerlo en distintas partes de ella: en su conteni
do, en su estructura y en su uso. El contenido y la estructura se recolectan
con un software que recorre las pginas de la Web y siguen sus enlaces, un
programa que en ingls se llama crawler. El uso se obtiene de la informacin
que dejan las personas al usar un sitio Web, que se almacena en una bitco
ra. A continuacin detallamos brevemente cada uno de estos casos.
Excavando el Contenido
Lo ms simple es recuperar informacin a travs de buscadores como
Google o Yahoo!. Pero es posible tambin usar anlisis de lenguaje natural
para entender parcialmente la semntica del texto, extraer otros objetos
como imgenes o audio, aprovechar las marcas de HTML para transformar
el contenido o extraer datos especficos, o mejorar los resultados de los bus
25
Captulo 2 Anatoma de la Web
Desenredando la Estructura
La estructura de la Web es compleja y evoluciona en el tiempo. Hay
desde sectores altamente conectados hasta islas que slo conocen algunos
buscadores. La estructura puede ser usada por los buscadores para jerarqui
zar los resultados (en base a las pginas ms referenciadas usando
heursticas como Pagerank) o para encontrar grupos de pginas que se
apuntan entre s y representan comunidades de personas con intereses simi
lares. El problema principal en este caso es entender el proceso de evolucin
y su relacin con las personas que participan en l.
Analizando el Uso
Analizar las bitcoras de acceso (logs) a un sitio Web es lo ms intere
sante desde el punto de vista comercial. Por ejemplo, una pgina que nunca
es visitada tal vez no tiene razn de ser, o si pginas muy visitadas no estn
en los primeros niveles, esto sugiere mejorar la organizacin y navegacin
del sitio. Por lo tanto, es importante detectar patrones de acceso y sus ten
dencias. Esta deteccin puede ser genrica o para un usuario especfico (lo
que permite personalizar sitios en forma dinmica) y los resultados pueden
ser usados para recomendar servicios o productos. El problema principal en
este caso es poder diferenciar a los usuarios y cundo se conectan o desco
nectan (determinar sesiones).
26
Captulo 2 Anatoma de la Web
27
Captulo 2 Anatoma de la Web
28
Captulo 2 Anatoma de la Web
Caracterizando la Web
Estructura y Visibilidad
Cuntas referencias tiene una pgina HTML? (HTML es un acrnimo
para Hyper Text Markup Language; el lenguaje usado para estructurar pgi
nas Web). Ms del 75% de las pginas tiene al menos una referencia, y en
promedio cada una tiene entre 5 y 15 referencias. La mayora de estas refe
rencias son a pginas en el mismo servidor. De hecho, la conectividad entre
sitios distintos no es muy buena. En particular, la mayora de las pginas no
son referenciadas por nadie y las que s son referenciadas, lo son por pginas
en el mismo servidor.
29
Captulo 2 Anatoma de la Web
hacia pginas en otros servidores. Esto significa que una minora de los ser
vidores mantiene toda la carga navegacional de la red. Estadsticas recientes
indican que el 1% de los servidores contienen aproximadamente el 50% del
volumen de datos de la Web, que se estimaba mayor a 20,000 millones de
pginas durante 2006.
Tamaos y caractersticas
Cmo es una pgina Web promedio? Una pgina de HTML promedio
tiene alrededor de 5 a 7 kilobytes (alrededor de mil palabras). Si agregamos
audio o video, este promedio aumenta. De hecho, la distribucin de tamaos
sigue una distribucin de Zipf. En otras palabras, aunque la mayora de los
archivos son pequeos, existe un nmero no despreciable de archivos gran
des; y hasta 50 kilobytes predomina el volumen de las imgenes. Desde all
hasta 300 kilobytes son importantes los archivos de audio. Ms all de este
lmite, llegando a varias decenas de megabytes, tenemos archivos de video.
Los formatos ms populares (en base a la extensin del nombre de archivo)
son HTML, GIF, TXT, PDF, PS y JPG, entre otros.
30
Captulo 2 Anatoma de la Web
puede ser falsa o engaosa. Hay que tener esto en mente cuando usamos
una pgina Web como fuente de informacin o la referenciamos.
31
Captulo 2 Anatoma de la Web
Para que un grafo tenga un dimetro pequeo debe tener muchas cone
xiones. Si todas las conexiones existen, el dimetro es 1. Por otra parte, un
grafo aleatorio tiene un dimetro mucho mayor. Un modelo de grafo que re
presenta bien este fenmeno es aquel en el que cada persona est conectada
con todas las personas cercanas (geogrficamente) y slo con algunas lejanas
de manera aleatoria y con una distribucin de probabilidad uniforme. Este
modelo se llama smallworld o mundo pequeo, valga la redundancia, y tam
bin representa bien la red neuronal de un gusano y la red elctrica del oeste
de Estados Unidos, entre otros casos [2].
32
Captulo 2 Anatoma de la Web
33
Captulo 2 Anatoma de la Web
Figura 2.2: Ejemplos ilustrativos de una red aleatoria y una red libre de escala.
Cada grafo tiene 32 nodos y 32 enlaces.
otros nodos a la red, como se ilustra en la Figura 2.2. Esto quiere decir que la
distribucin de los enlaces es muy sesgada: unas pocas pginas reciben mu
chos enlaces mientras que la mayora recibe muy pocos o incluso ninguno.
Conectividad
Para conocer qu pginas Web apuntan a una pgina dada es necesario
recorrer toda la Web, algo que los grandes buscadores hacen peridicamen
te. El primer estudio de la estructura del grafo de la Web fue realizado a
partir de dos recorridos de Altavista en Mayo y Octubre de 1999, cada uno
de ms de 200 millones de pginas (entre un 20% y un 25% de la Web en esa
poca) y 1.500 millones de enlaces. Slo almacenar y procesar el grafo equi
valente es todo un desafo.
34
Captulo 2 Anatoma de la Web
de pginas con muchos enlaces es muy pequeo. Estos valores son casi los
mismos para los dos recorridos, pese a que entre ellos pasaron 6 meses.
Estructura
Para analizar la estructura de la Web se buscan las partes del grafo que
estn conectadas entre s. El estudio ya mencionado, y el nico realizado a
nivel global, muestra que el ncleo o centro de la Web lo constituan ms de
56 millones de pginas, existiendo un camino para ir de cualquier pgina a
otra, con un largo mximo (dimetro) de al menos 28. En otras palabras, el
camino ms corto entre dos pginas en el peor caso implicaba visitar 28 de
ellas. Esto contrasta con el modelo del mundo pequeo mencionado al co
mienzo que predeca un dimetro mximo de 20 pginas para toda la Web.
En la prctica se encontraron caminos hasta de largo 900, lo que indica que el
dimetro de la Web es mucho mayor. De todos modos, este nmero no es
tan grande considerando que son cientos de millones de pginas.
35
Captulo 2 Anatoma de la Web
36
Captulo 2 Anatoma de la Web
Dinmica de la Web
Ms de la mitad de la Web ha nacido o ha sido actualizada en los lti
mos seis meses. Parte de ese crecimiento, alrededor de 20%, es replicndose
a travs de sitios espejos o mirrors u otros tipos de copias (en algunos casos
plagio). Al mismo tiempo gran parte de la Web muere. Se estima que el
tiempo promedio de vida de una pgina es alrededor de tres meses. Otra
parte de la Web muta, ya sea a travs de cambios de nombres de dominio,
sitios, directorios o archivos. Es como un organismo catico, como una colo
nia de bacterias que est sobrealimentada en algunas partes y en otras
agoniza.
37
Captulo 2 Anatoma de la Web
Figura 2.4: Dinmica de la estructura del grafo de la Web Chilena entre los aos
2000 y 2002 [3].
La Web Chilena
Definimos como sitio Web chileno aquel que termina en .cl o el cual su
IP pertenece a un proveedor chileno de Internet. El ltimo estudio realizado
con datos de 2006 mostr los siguientes resultados: La Web chilena est com
puesta por ms de 170.000 sitios, y estos contienen ms de 7 millones de
pginas. Muchas de sus caractersticas son muy similares a las de la Web
global en general.
El 14% de los sitios estn conectados entre s a travs de enlaces
y tienen el 53,3% de las pginas. Por otro lado, el 49,5% de los sitios
est completamente desconectado en trminos de enlaces, pero re
presentan slo el 14% de las pginas.
Un sitio promedio tiene 43 pginas, contenidas en 0,304 MiB,
con 1,56 referencias desde otros sitios.
Un dominio promedio tiene 1,08 sitios y 46,61 pginas, conteni
das en 0,328 MiB.
38
Captulo 2 Anatoma de la Web
39
Captulo 2 Anatoma de la Web
40
Captulo 2 Anatoma de la Web
Para saber ms
Centro de Investigacin de la Web, http://www.ciw.cl
Google Labs, http://labs.google.com
Search Engine Watch, http://www.searchenginewatch.com
TodoCL, el buscador chileno, http://www.todocl.cl
Web Information Retrieval resources, http://www.webir.org
World Wide Web Consortium, http://w3c.org
Yahoo! Research, http://research.yahoo.com
Referencias
1. Information on Zipf's Law. http://www.nslijgenetics.org/wli/zipf/
2. S. Boccaletti et al. Complex Networks: Structure & Dynamics. Physics
Reports, Elsevier. 2006.
3. Ricardo BaezaYates, Barbara J. Poblete, Felipe SaintJean. Evolucin de la
Web Chilena 20012002. Centro de Investigacin de la Web. 2003.
http://www.ciw.cl/recursos/estudio2002/estudio2002html.html
4. Ricardo BaezaYates, Carlos Castillo, Eduardo Graells. Caractersticas de la
Web Chilena 2006.
http://www.ciw.cl/material/web_chilena_2006/index.html
5. R. Albert, H. Jeong and AL. Barabsi. Diameter of the World Wide Web
Nature 401, 130. 1999.
6. J. Kleinberg et al. The Web as a graph: measurements, models, and
methods. Proceedings of the 5th International Computing and
combinatorics Conference, 1999.
41
Captulo 3
Internet
Jos Miguel Piquer
El desarrollo de Internet2
En las dcadas de 1970 y 1980 los computadores se desarrollaban rpi
damente mientras iba siendo claro que exista la necesidad de inter
conectarlos en redes mundiales, bsicamente para poder enviar mail desde
una parte del mundo a cualquier otra; necesidad bsica de la comunidad
cientfica que hasta ese momento slo dispona de un lento y poco confiable
sistema de cartas internacionales para intercambiar ideas y trabajos escritos.
43
Captulo 3 Internet
44
Captulo 3 Internet
Durante muchos aos el dominio .CL creci muy lentamente (ver figu
ra 3.1b). Al cabo de 10 aos, comenzaron a aparecer las inscripciones
masivas de nombres y hubo que crear una organizacin formal que adminis
trara los nombres (NIC Chile), un sistema de cobros por dominio y un
sistema de administracin de los conflictos que surgen en torno a un nom
bre. NIC Chile contina operando el dominio .cl bajo el alero de la
Universidad de Chile hasta el da de hoy.
Arquitectura
Para que la Web funcione, se requiere de una Internet que provea bsi
camente la funcionalidad que permita que cualquier computador conectado
a Internet pueda conectarse a un servidor identificado por la URL utilizada.
45
Captulo 3 Internet
(a)
(b)
Figura 3.1: (a) Flujo de las News en 1993, (b) nombres inscritos bajo el
dominio .cl en 1993. Tomados de [1].
46
Captulo 3 Internet
47
Captulo 3 Internet
3. Ruteo de paquetes IP
4. Protocolo HTTP
48
Captulo 3 Internet
El gobierno de Internet
En ingls se habla de Internet Governance, que ms que un gobierno
es una forma de control y supervisin del sistema que nos d garantas de
que esto funcione en forma estable para todos.
49
Captulo 3 Internet
existir leyes globales para regirla y los usuarios slo queremos que siga fun
cionando. Afortunadamente, a estas alturas no es fcil tomar acciones locales
para ninguno de los actores y se requiere un cierto consenso para llevar a
cabo cualquier cambio, lo que da algunas garantas de que el sistema siga
operando en forma estable por muchos aos ms.
Para saber ms
Para saber ms sobre el gobierno de Internet, visite el sitio de ICANN:
http://www.icann.org
NIC Chile (http://www.nic.cl
http://www.nic.cl) se encarga de administrar los nombres de
dominio en Chile.
Referencias
1. Ricardo BaezaYates, Jos M. Piquer, Patricio V. Poblete. The Chilean
Internet Connection or I Never Promised You a Rose Garden. INET '93.
http://www.nic.cl/inet93/paper.html
2. .CL. Wikipedia the Free Encyclopedia: http://en.wikipedia.org/wiki/.cl
3. Internet Governance. Wikipedia the Free Encyclopedia:
http://en.wikipedia.org/wiki/Internet_governance
50