Clase 8
Web Invisible
Tecnología de la Comunicación I
Web Invisible
• En el contenido de la Web
pueden distinguirse dos
partes:
- Web Superficial
(SurfaceWeb)
- Web Profunda (DeepWeb)
La Web Superficial
• Es lo que se conoce como
WWW:
- Está compuesta por un conjunto
de páginas estáticas
públicamente accesibles.
- Constituye una porción
relativamente muy pequeña de
toda la Web (un 17%
aproximadamente).
- La información que se recupera
debe ser cuidadosamente
evaluada y validada.
La Web Profunda
• Se conoce como Web
Invisible y se compone de:
- Contenidos dinámicos:
páginas dinámicas que
retornan en respuesta a una
búsqueda o accedidas sólo
por una vía.
- Contenidos no enlazados:
páginas que no tienen
vínculos entrantes desde otras
páginas.
La Web Profunda
- Contenidos de acceso limitado:
que requieren registrarse o que
limitan el acceso a sus páginas,
prohibiendo que los buscadores
los incluyan en sus bases de datos.
- Contenidos “scripted”: páginas
que solamente son accesibles a
través de enlaces producidos por
JavaScript y Flash, las cuales
requieren un tratamiento
especial.
- Contenidos no textuales: archivos
multimedia, en otros formatos o
“usenet”
Clasificación de La Web Profunda
OPACA
PRIVADA
Web…
PROPIETARIA
REALMENTE
INVISIBLE
La Web Opaca
• Se compone de todas aquellas páginas que son
excluidas por:
- extensión de la indización: por economía, no todas
las páginas de un sitio son indizadas en los
buscadores.
- Frecuencia de la indización: los buscadores
indexan de forma periódica y la WWW cambia
diariamente.
- Número máximo de resultados visibles: se limita a
los 200 y 1000 documentos, si bien el número de
resultados es mayor.
- URL’s desconectados: los buscadores presentan
los resultados en base a la cantidad de referencias o
enlaces a los sitios, caso contrario la página no será
indizada.
La Web Privada
• Las páginas Web son excluidas
por alguna de estas causas:
- Se encuentran protegidas por
contraseñas.
- Contienen
un
archivo
“robots.txt” para evitar ser
indizadas.
- Contienen
un
campo
“noindex” para evitar que el
buscador indice la parte
correspondiente al cuerpo de
la página.
La Web Propietaria
• Incluye aquellas páginas en
las que es necesario
registrarse para tener
acceso al contenido, ya sea
de forma gratuita o
pagada. Se dice que al
menos 95% de la web
profunda contiene
información de acceso
público y gratuito.
La Web realmente invisible
• Las páginas no son indizadas por
las siguientes razones:
- Incluyen formatos como PDF,
PostScript, Flash, Shockwave,
programas ejecutables y archivos
comprimidos.
- Se generan dinámicamente, a
partir de datos que introduce el
usuario.
- Almacenan la información en
bases de datos, que no puede ser
extraída a menos que se realice
una petición específica.
¿Cómo buscar en la Web
invisible?
- Los buscadores tradicionales
han añadido funcionalidades
adicionales para la búsqueda
en la llamada Web profunda.
- También existen buscadores
especializados en ese
segmento de la Web, que no
sólo buscan en la Web
superficial, sino también en la
Web Invisible.
Forman parte de la Web profunda
- Las bibliotecas: digitales,
catálogos de bibliotecas, bases
de datos de bibliotecas, bases
de datos bibliográficas.
- Bases de datos.
- Revistas electrónicas y archivos
de documentos.
- Documentos en formatos no
indizables, (pdf, ppt, doc, mp3,
wav, avi, mpeg, etc.)
- Catálogos de editoriales,
Directorios de Publicaciones
periódicas.
Forman parte de la Web profunda
- Archivos (instituciones y
organismos de gobierno).
- Repositorios de artículos de
revistas, tesis y literatura gris.
- Directorios de bases de datos
- Guías de sitios, Revistas
electrónicas, Obras de
referencia: enciclopedias,
diccionarios, tesauros, etc.
- Foro, Blogs, Noticias (diarios).
- Sitios de remates, Paginas
blancas/amarillas, Directorios
Forman parte de la Web profunda
- Revistas electrónicas, en las
que es necesario un registro
previo y las que sólo se puede
recuperar la información
mediante búsquedas en su
base de datos.
- Organismos públicos de
gobierno, ONGs, etc., que en
sus sitios web disponen de
consultas a sus bases de
datos.
Directorios de Bibliotecas
Catálogos Directivos
Libros
Base de datos Bibliográficas
Herramientas para el manejo de
referencias bibliográficas
Directorios en Internet Invisible
Tesis
Fuentes
multidisciplinarias
Archivos y
depósitos de
documentos
Revistas
electrónicas y
directorios
Archivos y
depósitos de
documentos
Localización de
la información en
la Web Invisible
El archivo de Internet
- Asume el reto de preservar el
pasado de Internet
- La mayor parte de la
información que contiene es
estadounidense.
- Se ingresa a través del sitio:
http://www.archive.org/inde
x.php
- De sus secciones se destaca
Wayback
MAchine,
que
contiene miles de millones de
páginas, grabadas desde
1996
Descargar

clase8 - Página de Tecnología de la Comunicación