Veille sur Internet
Veille sur Internet
Veille sur Internet
2.2 Aide au choix des outils l’ensemble d’une entreprise prend jusqu’à quelques semaines voire
quelques mois, en fonction de la solution choisie.
Le choix d’un outil se fait en fonction des besoins, de la sur- Ces considérations ne doivent tout de même pas faire oublier
veillance à mettre en œuvre et selon les paramètres suivants : que la veille sur Internet est considérée comme un investissement
— le nombre de personnes en charge de la veille ; et non comme un coût.
— la taille de l’effectif concerné par les résultats ;
— le budget alloué ;
— la durée de surveillance.
Quelques exemples pour certains cas bien définis sont présentés
dans le tableau 2.
3. Veille manuelle sur Internet
2.3 Analyse comparée des solutions 3.1 Sourcing et carnets d’adresse Web
■ Les solutions S1 à S13 répondent toutes à un besoin de veille, Le processus de veille [47] [48] débute par l’identification des
mais elles n’assurent pas les mêmes fonctions de surveillance et ne sources d’information afin de constituer des carnets d’adresses de
sont donc pas comparables en termes de budget. Leurs coûts sites à contrôler ou à aspirer et de thèmes à surveiller. Cette étape,
d’acquisition sont de l’ordre de : dite de sourcing, est fondamentale pour assurer une surveillance
— 50 € pour les outils de surveillance simple ; précise, fiable et efficace. Elle est réalisée à l’aide d’un navigateur
— 80 € pour un outil de recherche multisource (S7) ; (par exemple IE, Firefox, Opera) et des logiciels de capture ou de
— 2,5 k€ pour un outil de surveillance professionnel et complet gestion de bookmark, qui s’avèrent très utiles pour réduire la durée
(S8) ; des recherches.
— 30 k€ par an pour des outils (ou services) intégrés (S9 à S13). Exemple : Logiciels de capture :
La différence se fonde sur la richesse des fonctionnalités des Net Snippets : http://netsnippets.com,
outils, le nombre de sources à surveiller et surtout les adresses des Onfolio : http://onfolio.com/
sources qui sont limitées sur certains outils.
Macropool : http://www.macropool.com/en/index.html,
Exemple : la solution S7 (Copernic Agent Pro) est limitée à 1 000 FURL : http://furl.net/
sources prédéfinies par l’éditeur du logiciel alors que les solutions S10 Logiciels de gestion de bookmark :
(Arisem), S11 (WebformanceWatch), S13 (Digimind) et S8 (KBCrawl),
permettent de surveiller plus de 10 000 sources quelles que soient MyFavorites : http://bookmark-manager.net/,
leurs adresses (prédéfinies ou non). Cela implique également que le SurfSaver : http://surfsaver.com/
paramétrage des sources sur ce type de produits prend plus de temps
que sur des outils plus simples.
■ Par ailleurs, le temps d’apprentissage pour maîtriser chaque outil 3.2 Mise en œuvre
n’est pas à négliger : les outils simples (S2, S7) demandent environ
une heure pour une prise en main de leurs fonctionnalités princi- ■ La première étape consiste à trouver le maximum de listes de sites
pales alors que les outils plus complets (S8, S10, S13) nécessitent en un minimum de temps. Pour cela, les annuaires de recherche four-
une formation spécifique d’une ou de plusieurs journées pour les nissent des listes de thèmes classés par catégories (ou rubriques) :
personnes en charge de ces outils mais également une miniforma- pour chaque nom d’entreprise, ils fournissent sa catégorie qui corres-
tion pour les utilisateurs. Ainsi, le déploiement de la veille pour pond à son domaine ou à son secteur.
Les tableaux de bord sont datés (date de création et date de Dans un troisième temps, un tableau de bord de veille est
modification) et signés par leur(s) auteurs. Ils sont aux formats constitué pour chaque axe de surveillance.
html, xml ou d’un tableur, par exemple le format [xls].
Pour plus de sécurité, et pour prévenir les problèmes de Puis, les outils de veille – comme KBCrawl, Httrack et Vigiluspro
confidentialité, on conseille de dissocier du tableau les paramètres – sont paramétrés.
o
n 1, 2, 3, 6 : ces derniers sont décrits dans des fichiers différents
de celui du tableau de bord, et les liens sont protégés par mots de Bases de brevets (liste non exhaustive) :
passe. Thomson Derwent
http://www.derwent.com/
Institut national de la propriété industrielle
4.3 Organisation en entreprise http://www.inpi.fr
IBM
La figure 1 représente l’organisation de la veille Internet dans http://www.patents.ibm.com
l’entreprise, que ce soit pour une personne en charge de la veille MicroPatent
ou pour une équipe est représentée. http://www.micropat.com
L’organisation proposée montre le processus d’utilisation des United states patent and trademark office
outils de veille en fonction des besoins et des utilisateurs, organi- http://www.uspto.gov
sation qui peut être modifiée ou adaptée à d’autres contextes
d’entreprises.
Listes d’experts et d’entreprises (liste non exhaustive) :
SYPRIS Data Systems
http:/www.datatape.com
5. Applications IBM
http://www.storage.ibm.com
StorageLand
http://www.storageland.com
5.1 Veille sur le Web DISK/TREND
http://www.disktrend.com
■ Comme nous venons de le voir : on commence par construire un Gartner Dataquest
carnet d’adresses de surveillance – avec les rubriques acteurs, tech- http://www.gartner.com/it/products/research/dataquest.jsp
nologies, produits – par l’application des méthodes Xfind. DataSure
Dans un deuxième temps, les axes de recherche sont définis par http://www.datasure.com
la fonction « stocker » et les mots clés associés. Pour une recherche MOS magazine
sur le Web, les mots clés et expressions sont : CDR, CDRW, http://www.mosarca.com
CD-WORM, data storage, DVD, high capacity HD, bactério-rhodop- Rorke Data
sine, biochemical storage, giga storage, holography, magnetic sto- http:///www.rorke.com
rage, optical storage, stockage de données, stockage numérique,
storage technology, Tera storage, 3D storage. Après la consultation
classique des bases de brevets avec ces mots clés, la liste des ■ Par expérience, la mise en place de la veille sur Internet mobilise
experts (inventeurs) et des entreprises (déposants) est construite généralement un veilleur pendant un mois à temps plein, puis un
en html, pour le paramétrage ultérieur des agents intelligents. jour par semaine pendant sept mois. L’équipe projet qui s’occupe
Carnet
d’adresses
Web
Niveaux et
Stratégie de
fonctions de Timelyweb
surveillance
surveillance
Recherche et
Outils Sites à Services Outils de Pages à Outils de
mise à jour
d'aspiration aspirer externes recherche surveiller surveillance
stratégique
Digimind
WSWatcher KBCrawl WebformanceWatch WSWatcher
Evolution
Expression Expression
Carnet
tous les tous les
d’adresses URL, IRC Tracking Link URL
documents documents
Web
Mise en veille Mise en veille
Profils de
surveillance
Destinataires
Consultations Système
d’information
Intranet, Extranet
Destinataires Destinataires
des résultats est constituée de cinq ingénieurs, une personne du — soit ces informations sont cachées ou exclues volontairement
service commercial et un membre du service marketing. du référencement par des administrateurs de sites Web. Ils utili-
sent le standard d’exclusion des robots (RES : Robot Exclusion
Standard ) pour des répertoires, ou les balises méta suivantes :
5.2 Veille sur le Web invisible <meta name=robots, content=noindex> pour une page Web privé ;
— soit des pages non indexées par les moteurs ; ces derniers
■ La notion de Web invisible [19] [50] renvoie à tous les sites qui limitent de façon volontaire le nombre de pages qu’ils référencent
sont introuvables en utilisant des outils de recherche classique. (on parle alors Web opaque).
Un site Web invisible correspond à des catégories distinctes De nombreux sites se sont spécialisés dans le Web invisible et
d’informations qui sont : leur « donnent accès ». D’autres métamoteurs de recherche pro-
— soit sauvegardées dans des bases de données gratuites ou posent des sources mixtes, c’est-à-dire visibles et invisibles,
payantes, (bibliothèques, etc.) ; comme le site goshme.com dans l’onglet « spécialisé ».
— soit non indexables par les moteurs de recherche, tels que les ■ Les deux alternatives possibles pour réaliser une veille sur le Web
fichiers de musique (MP3, WAV, etc.), les fichiers vidéo (MPG, invisible sont les suivantes :
MOV, etc.), et les autres formats de documents images (JPG, GIF,
etc.). Leur contenu n’est pas textuel, la recherche de ces fichiers • si la démarche respecte le standard d’exclusion des robots, il
s’effectue en conséquence généralement par leurs noms ; est conseillé d’utiliser des sites spécialisés dans le Web invisible,
— soit pas encore indexées, ou qui sont en attente d’indexation ; comme des moteurs de recherche spécifiques (completeplanet), les
métamoteurs (Goshme), et les bases de données (scirus). Une liste exemple on peut créer la requête formulée en flux RSS sur le site
non exhaustive est donnée ci-dessous. http://www.pubmed.gov, onglet RSS feed.
Sites spécialisés « Web invisible » (liste non exhaustive) : Principaux agrégateurs en ligne (liste non exhaustive) :
http://www.completeplanet.com http://www.bloglines.com
http://www.magportal.com http://www.pluck.com
http://www.oclc.org http://www.rss4you.com
http://www.nielsenbuzzmetrics.com/ http://www.feeddemon.com
http://www.deepwebresearch.blogspot.com http://www.mystart.com
http://www.scirus.com
http://www.searchability.com Pour une veille plus approfondie, on privilégie les logiciels agré-
http://www.alacrastore.com gateurs, plus complets que les agrégateurs en ligne.
http://www.vlib.org
http://www.infomine.ucr.edu
http://www.libraryspot.com Principaux logiciels agrégateurs (liste non exhaustive) :
http://www.verticalnet.com http://www.alertinfo.fr
http://www.goshme.com http://www.feedreader.com
http://www.globalspec.com http://www.newisfree.com
http://www.spaceref.com http://www.newsgator.com
http://www.turbo10.com
http://www.nanotech-now.com
http://www.bubl.ac.uk
http://www.mammahealth.com 5.4 Veille sur les blogs
http://www.ccfr.bnf.fr
http://www.libdex.com ■ Depuis leur développement dans les années 1990 [6], les blogs
http://www.thunderstone.com sont aujourd’hui, des sources d’informations complémentaires au
http://www.rdn.ac.uk Web, aux forums de discussion, aux listes de diffusion et aux
http://www.chemindustry.com « newsletters » [30]. Les Blogs [54] [55] se développent conjointe-
http://www.incywincy.com ment et parallèlement au Web [8] [28] [40] [41] : comme le Web, les
http://www.dadi.enssib.fr blogs ont des outils de recherche spécifiques tels que des annuaires
http://www.deepweb.com et des moteurs de recherche qui recensent uniquement des adresses
http://www.infoplease.com de blogs et les flux RSS associés. À terme la communication entre
http://www.plants.usda.gov les entreprises, les organismes ou encore les écoles se fera à l’aide
http://www.publist.com des blogs et de flux RSS, et complétera leurs sites Internet.
http://www.beaucoup.com
http://www.lii.org
http://www.findarticles.com Annuaires de blogs (liste non exhaustive) :
http://www.scienceport.org/
http://www.blogonautes.com/
• si la démarche ne respecte pas le standard d’exclusion des http://www.lamoooche.com/
robots, alors l’usage d’un outil d’aspiration permet d’accéder aux http://www.retronimo.com/
parties cachées du site. Pour cela, on paramètre l’outil afin qu’il ne http://www.newsisfree.com/sources/bycat
respecte pas le standard d’exclusion des robots.
Le fonctionnement des sites qui utilisent la technologie RSS ■ La démarche de veille sur les blogs [49] débute classiquement
repose sur un ensemble d’outils en ligne ou à télécharger. Les flux par une identification des sites : l’utilisation des « annuaires Web »
RSS permettent de consulter les dernières informations publiées permet de trouver les rubriques thématiques et donc des listes
par les sites Web ou Blogs. « L’abonnement » au flux RSS s’effectue d’annuaires et de moteurs de recherche spécifiques à la
soit par un copier coller une adresse, soit par la sélection de l’icône « blogosphère ». Cette démarche itérative se poursuit sur plusieurs
RSS 1.0, RSS 2.0 ou ATOM 0.3 sur les sites qui le proposent. Les « annuaires Web » afin de trouver d’autres « annuaires de blogs », et
principaux lecteurs RSS sont : NetNewsWire, NewsFire, RSSOwl, ainsi de suite.
Shrook, et USM.
Exemple : sur le site http://www.yahoo.fr dans l’onglet « rubrique
■ Dans un premier niveau de veille, on utilise les agrégateurs en Web », on trouve la « sous-rubrique blogs » qui regroupe une
ligne : ce sont des sites qui proposent de trouver et paramétrer des large sélection de sites spécifiques à la « blogosphère ». Le site
adresses des pages qui proposent elles-mêmes des flux RSS. Des http://www.blogonautes.com recense plusieurs milliers de blogs
recherches par mots clés peuvent être mises en flux RSS : par francophones.
■ En complément des moteurs de recherche spécifiques aux blogs, sources d’informations formelles et informelles que les entreprises
il convient d’utiliser les moteurs de recherche Web à l’aide des exploitent.
méthodes Xfind : on croise le terme blog avec les expressions de la
Alors que certaines entreprises utilisent massivement le site
recherche, exemple : blog ET matériaux.
google, et donc limitent la surveillance de l’Internet à 1 %, d’autres
Deux alternatives sont possibles en fonction des besoins : entreprises développent une veille professionnelle sur Internet et
contrôlent jusqu’à 99 % des données présentes sur Internet.
• soit les blogs sont surveillés avec la syndication de leur
contenu, auquel cas l’utilisation de la veille sur les flux RSS est réa- La problématique des entreprises devient alors : comment maî-
lisable. La syndication de contenu peut s’effectuer par flux RSS, triser intelligemment les flux d’informations externes et internes ?
par lien blog du site et par mots clés personnalisés ; La veille sur Internet est la réponse concernant les flux externes.
Pour cela, elle nécessite l’utilisation d’outils et de méthodes adap-
Exemple : l’utilisation des Navigateur IE 7 ou Firefox – se reporter tés à chaque cas, que nous venons de présenter.
au site de http://www.mozilla.org –, avec l’option Wizz RSS permet de
lire directement les flux RSS. Chaque jour, le volume d’informations augmente, de nouvelles
technologies apparaissent, et des stratégies d’informations ou de
• soit les sites blogs sont surveillés comme des sites Web, désinformations sont déployées. Ces contraintes doivent être prises
auquel cas on utilise des outils et des méthodes identiques. en compte dans la recherche d’informations.
Toute information doit également être systématiquement recou-
pée et validée avant d’être utilisée comme paramètre dans une
prise de décision : dans la guerre de l’information, une rumeur ou
6. Conclusions une désinformation habilement conduite se révèle parfois d’une
efficacité redoutable, au même titre que d’autres armes du jeu
et perspectives concurrentiel.
Enfin, n’oublions pas, que le système d’information qui recueille
L’environnement électronique des entreprises est de plus en plus des documents Internet doit intégrer des outils capables d’indexer
varié et complexe : le Web, les blogs, les forums, les listes de diffu- en texte intégral toutes les informations, afin de les retrouver ulté-
sions, les wiki ou encore la messagerie instantanée sont autant de rieurement et aussi rapidement que sur Internet.