Veille sur Internet

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 10

Veille sur Internet

par Henry SAMIER


Ancien élève de l’École Normale Supérieure de Cachan
Directeur ISTIA Innovation, Université d’Angers
Chercheur au laboratoire Présence & Innovation, ENSAM Angers-Laval

1. Surveillance de l’Internet ...................................................................... H 7 430 - 2


1.1 Principe de la surveillance .......................................................................... — 2
1.2 Organisation de la surveillance .................................................................. — 2
1.3 Avantages et limites .................................................................................... — 3
2. Outils de veille sur Internet .................................................................. — 3
2.1 Typologie des outils .................................................................................... — 3
2.2 Aide au choix des outils .............................................................................. — 5
2.3 Analyse comparée des solutions ............................................................... — 5
3. Veille manuelle sur Internet .................................................................. — 5
3.1 Sourcing et carnets d’adresse Web ............................................................ — 5
3.2 Mise en œuvre ............................................................................................. — 5
4. Veille automatique sur Internet ........................................................... — 6
4.1 Étapes de la démarche ................................................................................ — 6
4.2 Tableaux de bord de veille .......................................................................... — 6
4.3 Organisation en entreprise ......................................................................... — 7
5. Applications .............................................................................................. — 7
5.1 Veille sur le Web........................................................................................... — 7
5.2 Veille sur le Web invisible............................................................................ — 8
5.3 Veille sur les flux RSS.................................................................................. — 9
5.4 Veille sur les blogs....................................................................................... — 9
6. Conclusions et perspectives................................................................. — 10
Pour en savoir plus ........................................................................................... Doc. H 7 430

l’heure de la globalisation, les entreprises doivent surveiller leurs environ-


À nements économique, concurrentiel et technologique. La compétition mon-
diale s’effectue parallèlement dans le monde réel (matériel) et sur Internet
(immatériel). Ce dernier territoire est régi par de nouvelles lois juridiques, où
l’information est reconnue comme une ressource. C’est aussi une arme utilisable
pour mener une « guerre de l’information », dont les enjeux sont principalement
économiques et politiques.
Dans ce contexte, les entreprises mettent en œuvre des stratégies d’attaque
ou de défense, en vue de pérenniser leur position concurrentielle. Leurs
espions sont les salariés eux-mêmes, qui sont présents sur le terrain, et les
sources numériques d’information, les bases de données et Internet.
Aujourd’hui, les flux d’informations présents sur Internet sont en constante
croissance et, paradoxalement, ils comportent de moins en moins de sens. En
l’absence de traitement efficace, tous les systèmes de veille deviennent alors
inopérants. Une définition des zones à surveiller est nécessaire et demande la
maîtrise d’outils et de méthodes spécifiques.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


est strictement interdite. − © Editions T.I. H 7 430 − 1

Dossier délivré pour


DOCUMENTATION
21/10/2008
VEILLE SUR INTERNET __________________________________________________________________________________________________________________

Devenue aujourd’hui vitale et stratégique pour les entreprises, la surveillance


d’Internet constitue un facteur de compétitivité. Nous verrons donc dans ce
dossier comment sont identifiées les sources pertinentes, et nous présenterons
les meilleurs outils de recherche actuels. Nous exposerons également les deux
types de surveillance sur Internet : individuelle ou collective, ainsi que leurs
mises en place, que ce soit pour le Web ou les Blogs.

1. Surveillance de l’Internet 1.1 Principe de la surveillance


■ La surveillance électronique repose sur le besoin de connaître en
■ Au Ve siècle avant Jésus-Christ, le général chinois Sun Tzu fut [56] temps réel les dernières informations sur des sujets stratégiques [3].
l’un des premiers à définir la surveillance comme capitale et à pré- Ces renseignements sont alors transformés en connaissance afin
coniser l’envoi d’espions pour observer les mouvements ennemis et d’apporter une aide à la décision [2] [23] [32]. Ils sont de natures
connaître au plus tôt leurs intentions. Deux mille cinq cents ans plus diverses : marchés, technologies, concurrents [42], consommateurs,
tard, les travaux de Michel Foucault [20] montrent que la sur- produits ou encore services.
veillance interne d’une industrie est un facteur clé pour sa perfor- La démarche de surveillance suit les principes suivants :
mance.
1. identifier les sources (numériques et humaines) ;
■ Historiquement, les premiers systèmes de surveillance sont 2. qualifier les sources (hiérarchisation, fiabilité, durée de vie) ;
l’œuvre des services des armées et de la police : ils étaient fondés 3. définir la cible (priorités) ;
sur le renseignement humain et électronique [5] [12] [18]. Naturel-
lement, ils sont repris dans les démarches du renseignement, de la 4. définir les dates (recherche, atteinte des cibles, prise de
guerre de l’information et de la surveillance de l’Internet [23] [25] décision) ;
[36] [44]. 5. diversifier et croiser les sources pour la validation de l’infor-
mation ;
La surveillance électronique a toujours existé [9] [10] : les
États-Unis et la Grande-Bretagne ont créé en 1947 le réseau 6. organiser un système de captage d’information ;
d’écoute international Echelon, géré par la NSA (National Security 7. développer les capacités d’analyse de l’information
Agency). Echelon – et plus particulièrement l’un de ces modules : (knowledge worker).
le code P415 – s’apparente à un système planétaire de filtrage
Elle repose également sur l’utilisation de six catégories d’agents
d’informations : celles-ci sont ciblées par des mots clés. En 2000,
espions :
l’opinion publique découvrait le gigantesque système de contrôle
et d’interception des e-mails : Carnivore. Ce dernier a par ailleurs — les agents d’influence locaux ;
donné naissance au système Altivore (pour « Alternative to — les agents d’influence qui sont positionnés dans l’entourage
Carnivore »), qui est concocté par le géant californien des solutions immédiat du pouvoir de l’ennemi ;
logicielles antipirates, Network ICE. Aujourd’hui, de nombreuses — les agents de l’intérieur ;
agences – comme la CIA (Central Intelligence Agency ), la DST — les agents doubles ;
(Direction de la Surveillance du territoire), la DGSE (Direction
— les agents sacrifiés, qui travaillent au péril de leur vie ;
Générale de la Sécurité Extérieure) – écoutent et surveillent Inter-
net à des fins de sécurité nationale. Cette vigilance électronique — les agents (ou navettes) qui doivent rester vivants et qui sont
s’effectue avec des moyens militaires, qui demeurent inaccessibles chargés de collecter l’information et d’en rendre compte.
aux entreprises et aux organismes privés.
■ Sur Internet, nous retrouvons certains de ces agents sous forme
de logiciels de surveillance, qui sont qualifiés d’agents intelligents.
■ Évoluant désormais à l’ère de l’information [11] et des
réseaux [45] [51], les rapports de l’homme et de l’entreprise face à Plusieurs types de veille composent la surveillance électronique,
l’information se sont profondément modifiés [29] [38] : le cyber- et ils ont été adaptés aux sources d’information et aux technolo-
monde [46] fait partie intégrante du quotidien des entreprises qui gies utilisées :
l’utilisent et doivent le surveiller au même titre qu’un autre — la veille de bases de données, qui ont un contenu qualifié ;
environnement [13]. — la veille sur Internet, dont la qualité du contenu est d’une
grande variabilité. Elle est complémentaire à celle des bases de
La surveillance de l’environnement des entreprises s’est déve-
données et permet de recouper les informations pour les valider.
loppée grâce au concept de « competitive intelligence » [42] [52]
[53], repris initialement, en France, sous le vocable de « veille
technologique » [16] [27] [34]. La veille globale s’est ensuite déve-
loppée dans toutes les fonctions des entreprises (commerciales, 1.2 Organisation de la surveillance
marketing, juridiques, etc.) pour être intégrée sous le terme plus
large d’intelligence [1] [14] [35]. ■ L’organisation de la surveillance se déroule en trois temps :
Aujourd’hui, l’intelligence économique est largement pratiquée 1. on définit les missions de surveillance – enjeux, objectifs,
dans les grandes entreprises [4] [7] [21] [22] [26] [29] [33] dans les périmètre, profondeur – et les personnes concernées ;
PME (petites et moyennes entreprises) [24] [37] ou à l’échelle d’un 2. on hiérarchise les actions selon les niveaux de surveillance –
territoire où est développée l’intelligence territoriale [17]. L’un de en temps réel, quotidien, hebdomadaire ou mensuel – ;
ces composants, la veille sur Internet, se fonde sur des méthodes 3. les résultats constituent les dossiers de surveillance et sont
et des outils licites. remis à jour périodiquement.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


H 7 430 − 2 est strictement interdite. − © Editions T.I.

Dossier délivré pour


DOCUMENTATION
21/10/2008
__________________________________________________________________________________________________________________ VEILLE SUR INTERNET

■ Par ailleurs, l’analyse de l’environnement des entreprises néces-


site des outils cartographiques pour décoder les liens et les relations Tableau 1 – Les étapes du processus de veille (1)
existantes entre elles.
Étape Fonction Utilisateur
Exemple : les travaux de Dodge [15] portent sur la cybergéographie
et cartographient des réseaux, ou encore le site http://touchgraph.com Étape no 1 : Définir les objectifs, les besoins en Veilleurs
offre des représentations dynamiques de sites à partir de l’analyse des Rechercher information, identifier et localiser Ingénieurs
pages similaires extraites du moteur de recherche http://google.com. les sources d’informations Experts
Décideurs
Étape no 2 : Collecter toutes les informations Veilleurs
1.3 Avantages et limites Collecter (téléchargement des documents) Ingénieurs
Étape no 3 : Mettre en forme et homogénéiser Veilleurs
Internet comporte des centaines de millions de pages existantes Traiter les informations (organiser l’infor-
et représente de ce fait une mine d’informations et de connaissances mation)
pour tous les internautes. Au milieu de cette profusion, il faut détec- Étape no 4 : Diffuser aux experts des domaines Veilleurs
ter, surveiller, analyser et utiliser les renseignements nécessaires à Diffuser pour évaluer, analyser et valider les Ingénieurs
l’entreprise. informations Experts
Décideurs
Cependant, ces derniers ne sont pas structurés en comparaison
avec ceux issus des bases de données. On utilise alors l’ensemble Étape no 5 : Évaluer et analyser les informations Veilleurs
des balises des pages Internet, comme le titre, le résumé, le lien, Évaluer pour préparer et présenter les syn- Ingénieurs
l’adresse, le site, la date, etc. Analyser thèses Experts
Décideurs
Enfin, le contenu des informations est hétérogène ainsi que leurs
formats. Le croisement et la validation de ces informations Étape no 6 : Vérifier, recouper, consolider et fia- Ingénieurs
deviennent alors plus délicats. Valider biliser les informations Décideurs
Étape no 7 : Décider des actions à engager Ingénieurs
Utiliser Experts
Décideurs
2. Outils de veille sur Internet Étape no 8 : Stocker et archiver les informations Veilleurs
Intégrer (sources, tableaux de bord, résul- Ingénieurs
tats, décisions)
La veille a été définie par l’AFNOR comme étant « une activité
continue et en grande partie itérative visant à une surveillance Étape no 9 : Mettre à jour les synthèses Veilleurs
Maintenir Responsable
active de l’environnement technologique, commercial, ... pour en SI
anticiper les évolutions ». Son processus suit neuf étapes de traite-
ment de l’information qui ont des fonctions spécifiques et des uti- (1) Extrait de la norme AFNOR XP X50-053.
lisateurs dédiés (tableau 1). (0)
Les principaux outils de veille sont utilisés dans les étapes no 1
La quasi-totalité des outils proposent un paramétrage qui utilise
à no 4, certains d’entre eux peuvent aussi fournir une aide aux
un agenda pour la planification du lancement des outils et la
étapes n o 5 et n o 6. D’autres outils d’analyse et de gestion de
remise à jour des recherches.
contenu ou des connaissances participent aux étapes no 5, no 6, no 8
et no 9. ● Les outils de recherche multisources :
Leur fonction principale est de rechercher les informations à partir
de mots clés ou d’expressions sur des dizaines, centaines ou mil-
2.1 Typologie des outils liers de sites comme des moteurs de recherche, des annuaires, des
sites spécialisés et autres sites thématiques. Leurs fonctions secon-
■ La plupart des entreprises utilisent des environnements informa- daires consistent entre autres à télécharger, indexer et vérifier.
tiques sous Linux et Microsoft Windows, ce dernier équipant la
grande majorité des ordinateurs des salariés. De ce fait, les dévelop- Les principaux outils de recherche multisources sont récapitulés
pements des outils informatiques portent sur ces deux types d’envi- dans l’encadré ci-dessous.
ronnements.
■ Il existe une grande variété d’outils de veille et d’agents Copernic Agent
intelligents [57]. Certaines typologies des outils sont par exemple http://www.copernic.com
basées sur les usages, et elles offrent par conséquent des rubriques KB Crawl
pléthoriques. http://www.beaconseil.com
Webseeker
■ L’une d’entre elles est la typologie fonctionnelle, au sens de
http://www.bluesquirrel.com
l’analyse fonctionnelle et de l’analyse de la valeur. Elle a l’avantage
Firststopwebsearch
d’être stable dans le temps et de comprendre plus rapidement la fina-
http://www.firststopwebsearch.com
lité de chaque outil. Elle permet aussi d’associer, dans une même ana-
Orbiscope
lyse, des outils informatiques et des services qui remplissent des
http://www.orbiscope.net/fr/index.html
fonctions comparables. Certains sites Internet utilisent la typologie
Webinspector
fonctionnelle, comme l’un des sites de référence : http://www.agent-
http://www.webinspector.com
land.fr.
Kaliwatch Pro
Les quatre grandes catégories fonctionnelles sont : http://www.arisem.com
— les outils de recherche multisources ; DigimindFinder
— les outils de surveillance ; http://www.digimind.com
— les outils d’aspiration ; Webferretpro
— les outils intégrés. http://www.ferretsoft.com/netferret/

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


est strictement interdite. − © Editions T.I. H 7 430 − 3

Dossier délivré pour


DOCUMENTATION
21/10/2008
VEILLE SUR INTERNET __________________________________________________________________________________________________________________

● Les outils de surveillance


Tropes, Zoom, Index, Ethnos
Leur fonction principale est la surveillance, la modification du http://www.acetic.fr
contenu des sites ou l’apparition de nouveaux mots clés préalable- TaZzoo !
ment définis. Leurs fonctions secondaires conservent l’historique http://www.coelis.com
des différentes versions de pages et remettent à jour les différentes
Pertimm
versions. Les principaux outils de surveillance sont présentés dans
http://www.pertimm.com
l’encadré ci-dessous.
Activeradar
http://www.activeradar.com
KartOO Technologies
Check&Get http://www.kartoo.net
http://www.activeurls.com Nstein
KB Crawl http://www.nstein.com
http://www.beaconseiI.com
Albert
WebformanceWatch http://www.albert.com
http://www.webformancewatch.com
Connotate
CopernicTracker
http://www.connotate.com
http://www.copernic.com
News Watch Qwam system
http://www.xemico.com http://www.qwam.com
WebSiteWatcher Pro Alcor
http://www.aignes.com http://www.alcor.com
lnfoic Datops
http://www.infoic.com http://www.datops.com
Orbiscope.Observer Strategy Software
http://www.orbiscope.net http://www.strategy-software.com
Wysigot @Logic.com
http://www.wysigot.com http://www.alogic.fr
Digimind
http://www.digimind.fr
● Les outils d’aspiration u-know
http://www.u-know.fr
Leur fonction principale est la copie d’une partie d’un site ou de InventionMachine
sa totalité. Leur fonction secondaire est de respecter ou non la
http://www.invention-machine.com
règle d’exclusion des robots (voir notamment http://www.robots-
txt.org), afin d’aspirer des informations cachées ou qualifiées à tort TEMIS
d’invisibles. Les principaux outils d’aspiration sont présentés dans http://www.temis-group.com
l’encadré ci-dessous. Arisem
http://www.arisem.com
Delphes
http://www.delphes.com/
Grab-a-Site
WebformanceWatch
http://www.bluesquirrel.com
http://www.webformancewatch.com
HTTrack
http://www.httrack.com Autonomy
http://www.autonomy.com
Webwacker
http://www.bluesquirrel.com Xyleme
Teleport pro http://www.xyleme.com
http:/www.tenmax.com Ayonis
Webzip http://www.ayonis.com
http://www.spidersoft.com Ideliance
Wysigot http://www.Ideliance.com
http://www.wysigot.com MatheoSoftware
Memoweb http://www.matheo-software.com
http://www.goto.fr iScope
http://www.iscope.fr
Novintel
● Les outils intégrés http://www.novintel.com
InfoCodex
Ces outils ont un ensemble de fonctions intégrées ou dédiées à http://www.infocodex.com
des tâches ou des sources précises. Ils présentent des fonctions
très variables puisqu’ils concernent la recherche, l’analyse (par SPSS
exemple sémantique) ou encore le traitement et la présentation http://www.spss.com/predictive_text_analytics/
des informations ainsi que la gestion des « connaissances ». SharePoint
http://www.sharepointknowledge.com
Ce type d’outils est très utile pour des grands groupes qui sou- Cybion
haitent déployer des moyens robustes sur des effectifs larges. Une http://www.cybion.com
sélection d’outils est proposée dans l’encadré suivant (0)

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


H 7 430 − 4 est strictement interdite. − © Editions T.I.

Dossier délivré pour


DOCUMENTATION
21/10/2008
__________________________________________________________________________________________________________________ VEILLE SUR INTERNET

Tableau 2 – Exemples d’outils


Obtenir régulièrement des informations sur la concurrence Surveiller un thème Faire une veille
ou faire une veille globale sans installer
Entreprise réalisant spécifique sur de logiciels
plusieurs un domaine précis dans l’entreprise
Cas PME réalisant surveillances
PME réalisant une
des actions de veille dans différents
veille occasionnelle
fréquentes domaines pour
un grand nombre
de salariés
Nature et fonction Outil de surveillance Outil de surveillance Outil intégré ou de Outil de recherches Outil intégré qui est
du produit qui assure aussi la associé à un outil surveillance associé multisources ou alors un service
fonction d’aspiration d’aspiration à un outil d’aspiration un outil intégré
Exemples S1 : Wysigot outil S2 : Websitewatcher, S5 : Arisem ou Datops S7 : Copernic Agent S10 : Arisem,
peu onéreux et Httrack (pour une (outils intégrés), pro (pour une S11 :
rapidement intégrable personne), S6 : KBCrawl, Httrack personne), WebformanceWatch,
dans l'entreprise S3 : KBCrawl, Httrack S8 : KBCrawl (pour S12 : Qwam,
(un seul outil), par (pour une équipe une équipe de veille), S13 : Digimind.
ailleurs certaines de veille), S9 : Datops (pour une
fonctionnalités S4 : équipe de veille).
restent limitées. WebformanceWatch,
Httrack (pour une
équipe de veille).

2.2 Aide au choix des outils l’ensemble d’une entreprise prend jusqu’à quelques semaines voire
quelques mois, en fonction de la solution choisie.
Le choix d’un outil se fait en fonction des besoins, de la sur- Ces considérations ne doivent tout de même pas faire oublier
veillance à mettre en œuvre et selon les paramètres suivants : que la veille sur Internet est considérée comme un investissement
— le nombre de personnes en charge de la veille ; et non comme un coût.
— la taille de l’effectif concerné par les résultats ;
— le budget alloué ;
— la durée de surveillance.
Quelques exemples pour certains cas bien définis sont présentés
dans le tableau 2.
3. Veille manuelle sur Internet

2.3 Analyse comparée des solutions 3.1 Sourcing et carnets d’adresse Web
■ Les solutions S1 à S13 répondent toutes à un besoin de veille, Le processus de veille [47] [48] débute par l’identification des
mais elles n’assurent pas les mêmes fonctions de surveillance et ne sources d’information afin de constituer des carnets d’adresses de
sont donc pas comparables en termes de budget. Leurs coûts sites à contrôler ou à aspirer et de thèmes à surveiller. Cette étape,
d’acquisition sont de l’ordre de : dite de sourcing, est fondamentale pour assurer une surveillance
— 50 € pour les outils de surveillance simple ; précise, fiable et efficace. Elle est réalisée à l’aide d’un navigateur
— 80 € pour un outil de recherche multisource (S7) ; (par exemple IE, Firefox, Opera) et des logiciels de capture ou de
— 2,5 k€ pour un outil de surveillance professionnel et complet gestion de bookmark, qui s’avèrent très utiles pour réduire la durée
(S8) ; des recherches.
— 30 k€ par an pour des outils (ou services) intégrés (S9 à S13). Exemple : Logiciels de capture :
La différence se fonde sur la richesse des fonctionnalités des Net Snippets : http://netsnippets.com,
outils, le nombre de sources à surveiller et surtout les adresses des Onfolio : http://onfolio.com/
sources qui sont limitées sur certains outils.
Macropool : http://www.macropool.com/en/index.html,
Exemple : la solution S7 (Copernic Agent Pro) est limitée à 1 000 FURL : http://furl.net/
sources prédéfinies par l’éditeur du logiciel alors que les solutions S10 Logiciels de gestion de bookmark :
(Arisem), S11 (WebformanceWatch), S13 (Digimind) et S8 (KBCrawl),
permettent de surveiller plus de 10 000 sources quelles que soient MyFavorites : http://bookmark-manager.net/,
leurs adresses (prédéfinies ou non). Cela implique également que le SurfSaver : http://surfsaver.com/
paramétrage des sources sur ce type de produits prend plus de temps
que sur des outils plus simples.
■ Par ailleurs, le temps d’apprentissage pour maîtriser chaque outil 3.2 Mise en œuvre
n’est pas à négliger : les outils simples (S2, S7) demandent environ
une heure pour une prise en main de leurs fonctionnalités princi- ■ La première étape consiste à trouver le maximum de listes de sites
pales alors que les outils plus complets (S8, S10, S13) nécessitent en un minimum de temps. Pour cela, les annuaires de recherche four-
une formation spécifique d’une ou de plusieurs journées pour les nissent des listes de thèmes classés par catégories (ou rubriques) :
personnes en charge de ces outils mais également une miniforma- pour chaque nom d’entreprise, ils fournissent sa catégorie qui corres-
tion pour les utilisateurs. Ainsi, le déploiement de la veille pour pond à son domaine ou à son secteur.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


est strictement interdite. − © Editions T.I. H 7 430 − 5

Dossier délivré pour


DOCUMENTATION
21/10/2008
VEILLE SUR INTERNET __________________________________________________________________________________________________________________

■ La deuxième étape allie les moteurs de recherche avec les


méthodes X-Find pour gagner du temps. Celles-ci sont au nombre 4. Veille automatique
de cinq, et elles exploitent toutes les options avancées des moteurs
de recherche avec des finalités précises :
sur Internet
— la méthode rapidfind trouve rapidement l’information par la
recherche d’une expression (ou bout de phrase) dans le titre et 4.1 Étapes de la démarche
d’un nom de fichier ou une extension de nom de domaine dans
l’url. Les principales étapes sont la réalisation d’une veille manuelle
Exemple : sur les moteurs de recherche, on a : puis la construction des tableaux de bord de veille et enfin la mise
en place de la veille automatique.
• alltheweb.com dans l’option « advanced search » : title :
« concurrent engineering AND url:design », ■ La veille automatique débute par des recherches manuelles afin
• google.com dans l’option « advanced search » : concurrent engi- de valider les mots clés, les expressions et la pertinence des pre-
neering <expression exacte> / <dans le titre> [et] org <dans le miers résultats. On constitue ainsi les carnets d’adresses Web ainsi
domaine> ; que les listes des sites à surveiller, ceux à aspirer et les mots clés ou
expressions. À partir de ces renseignements et en fonction des
— la méthode detectfind trouve des carnets d’adresses que niveaux de surveillance (surveillance quotidienne, hebdomadaire
d’autres internautes ont construits, puis mis en ligne. La plupart du ou mensuelle), on paramètre les outils de veille. Au final, les résul-
temps, ces carnets d’adresses sont nommés « bookmark », tats des outils de veille constituent les dossiers de veille.
« signet » ou « favori ». Il suffit donc de trouver un fichier ayant un ■ La deuxième étape est la construction des tableaux de bord de
de ces noms en associant un mot clé. veille. Ceux-ci servent à tracer le processus de surveillance. Ils sont
Exemple : sur les moteurs de recherche : essentiels pour garantir une veille efficace et en continu avec les
équipes d’ingénieurs concernés.
• alltheweb.com dans l’option « advanced search » : url:bookmark
AND « concurrent engineering », Leur objectif est l’élaboration des profils de surveillance et
• altavista.com dans l’option « advanced search » : url:bookmark l’affectation des missions de surveillance associées.
and « concurrent engineering » ; ■ La troisième étape est la mise en place de la veille automatique :
en temps réel, on surveille les sites, les concurrents, la technologie,
— la méthode linkfind recherche l’ensemble des sites qui pointent les experts, etc., puis on filtre et diffuse les résultats. Enfin, on sau-
un lien sur un site « à forte densité de sens » (ou site nœud). vegarde et capitalise ces résultats.
Exemple : sur les moteurs de recherche :
• altavista.com ou alltheweb.com dans l’option « advanced
search » : link:www.knowledgeboard.com AND domain:fr, 4.2 Tableaux de bord de veille
• google.com dans l’option « advanced search » : http://www.
Les tableaux de bord répondent aux questions suivantes : Qui
knowledgeboard.com <dans le lien de la page> [et] fr <dans le
fait quoi, comment, quand, avec qui, pourquoi, depuis quand et
domaine> ;
pour qui ? Ils assurent la totale visibilité du processus de veille
d’une entreprise et de ce fait, ils sont stratégiques.
— la méthode filefind trouve une page à partir de son format.
L’objectif est de réduire le nombre de réponses en fonction des for- Les treize paramètres les plus utilisés pour construire les
mats du fichier « texte » proposés par les moteurs de recherche tableaux de bord de veille sont les suivants :
tels que les formats : .pdf, .doc, .xls, ppt, etc. 1. adresse(s) du ou des sites : exemple :
www.istia.univ-angers.fr/Innovation/ ;
Exemple : sur les moteurs de recherche :
2. objectifs de la surveillance : ce que l’on cherche réellement ;
• alltheweb.com dans l’option « advanced search » : « concurrent
engineering » [et] pdf <dans le format du fichier>, 3. fonction de surveillance : rechercher, surveiller, aspirer ou
mettre à jour ;
• google.com dans l’option « advanced search » : concurrent engi-
neering <expression exacte> [et] xls <dans le format du fichier> ; 4. outil de veille choisi : type d’outils de recherche, de sur-
veillance ou d’aspiration ;
— la méthode extractfind trouve une page dans un site. La 5. date de début de surveillance : 2006/10/01 ;
recherche est limitée à un site unique afin d’extraire une informa- 6. mots clés et expressions : profils de recherche et équations
tion particulière. logiques ;
Exemple : sur les moteurs de recherche : 7. niveau de surveillance : quotidien, hebdo ou mensuel ;
• alltheweb.com dans l’option « advanced search » : « concurrent 8. nom des « cyberveilleurs » : équipe ou individu en charge de
engineering » AND site:www.knowledgeboard.com, la surveillance ;
• google.com dans l’option « advanced search » : concurrent engi- 9. nom des destinataires : individus ou groupes concernés ;
neering <expression exacte> [et] http://www.knowledgeboard.com 10. fréquences de diffusion : parfois différente de la fréquence
<dans le domaine>. des recherches ;
11. dates et heures de diffusion : adaptée aux besoins des des-
Il est possible d’associer plusieurs de ces méthodes pour une tinataires ;
plus grande efficacité : l’association des méthodes rapidfind et file-
12. mode de diffusion : par mail, intranet, blog, avec pour cha-
find donne des résultats très rapidement avec un fort taux de per-
que utilisateur une optimisation ;
tinence.
13. localisation des informations : où se trouve physiquement
■ La troisième étape est la constitution de carnets d’adresses Web les informations.
(Favori sur Internet Explorer et Marque-pages sur Firefox) de Ces paramètres remplissent la première colonne du tableau, les
manière thématique et en fonction des besoins de surveillance. Ces autres colonnes correspondent au nom des sites Web à surveiller
carnets d’adresses sont importés par les outils de recherche. (tableau 3). (0)

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


H 7 430 − 6 est strictement interdite. − © Editions T.I.

Dossier délivré pour


DOCUMENTATION
21/10/2008
__________________________________________________________________________________________________________________ VEILLE SUR INTERNET

Tableau 3 – Tableau de bord de veille


Nom des sites
Paramètres
Société IBM Sociétés no 2 Sociétés no 3
P1 : Liste des adresses des sites http://www.ibm.com fichier adresse2 fichier adresse3
P2 : Objectif de la surveillance nouveaux services nouvelles technologies fichier obsur3
P3 : Fonction de surveillance détecter fichier surveil2 fichier surveil3
P4 : Outil de surveillance KBCrawl Webformance Digimind
Httrack
P5 : Date de début de surveillance jj/mm/aaaa jj/mm/aaaa jj/mm/aaaa
P6 : mots clés et expressions profil N5-12 fichier mots2 fichier mots3
P7 : Niveau de surveillance N1 : quotidien N2 : hebdo N3 : mensuel
P8 : Nom des cyberveilleurs H. Samier fichier veilleurs2 D. Derouet
P9 : Nom des destinataires D. Raoul B. Taravel H. Samier
P10 : Fréquence de diffusion quotidien bimensuelle mensuelle
P11 : Date et heure de diffusion 9H vendredi, 14H mardi, 9H
P12 : Mode de diffusion mail, intranet blog, intranet
P13 : Localisation d’information [référence machine] fichier listserv2 bureau 426, 4e

Les tableaux de bord sont datés (date de création et date de Dans un troisième temps, un tableau de bord de veille est
modification) et signés par leur(s) auteurs. Ils sont aux formats constitué pour chaque axe de surveillance.
html, xml ou d’un tableur, par exemple le format [xls].
Pour plus de sécurité, et pour prévenir les problèmes de Puis, les outils de veille – comme KBCrawl, Httrack et Vigiluspro
confidentialité, on conseille de dissocier du tableau les paramètres – sont paramétrés.
o
n 1, 2, 3, 6 : ces derniers sont décrits dans des fichiers différents
de celui du tableau de bord, et les liens sont protégés par mots de Bases de brevets (liste non exhaustive) :
passe. Thomson Derwent
http://www.derwent.com/
Institut national de la propriété industrielle
4.3 Organisation en entreprise http://www.inpi.fr
IBM
La figure 1 représente l’organisation de la veille Internet dans http://www.patents.ibm.com
l’entreprise, que ce soit pour une personne en charge de la veille MicroPatent
ou pour une équipe est représentée. http://www.micropat.com
L’organisation proposée montre le processus d’utilisation des United states patent and trademark office
outils de veille en fonction des besoins et des utilisateurs, organi- http://www.uspto.gov
sation qui peut être modifiée ou adaptée à d’autres contextes
d’entreprises.
Listes d’experts et d’entreprises (liste non exhaustive) :
SYPRIS Data Systems
http:/www.datatape.com
5. Applications IBM
http://www.storage.ibm.com
StorageLand
http://www.storageland.com
5.1 Veille sur le Web DISK/TREND
http://www.disktrend.com
■ Comme nous venons de le voir : on commence par construire un Gartner Dataquest
carnet d’adresses de surveillance – avec les rubriques acteurs, tech- http://www.gartner.com/it/products/research/dataquest.jsp
nologies, produits – par l’application des méthodes Xfind. DataSure
Dans un deuxième temps, les axes de recherche sont définis par http://www.datasure.com
la fonction « stocker » et les mots clés associés. Pour une recherche MOS magazine
sur le Web, les mots clés et expressions sont : CDR, CDRW, http://www.mosarca.com
CD-WORM, data storage, DVD, high capacity HD, bactério-rhodop- Rorke Data
sine, biochemical storage, giga storage, holography, magnetic sto- http:///www.rorke.com
rage, optical storage, stockage de données, stockage numérique,
storage technology, Tera storage, 3D storage. Après la consultation
classique des bases de brevets avec ces mots clés, la liste des ■ Par expérience, la mise en place de la veille sur Internet mobilise
experts (inventeurs) et des entreprises (déposants) est construite généralement un veilleur pendant un mois à temps plein, puis un
en html, pour le paramétrage ultérieur des agents intelligents. jour par semaine pendant sept mois. L’équipe projet qui s’occupe

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


est strictement interdite. − © Editions T.I. H 7 430 − 7

Dossier délivré pour


DOCUMENTATION
21/10/2008
VEILLE SUR INTERNET __________________________________________________________________________________________________________________

Expressions Recherche Méthodes


mots clés manuelle XFind

Carnet
d’adresses
Web

Niveaux et
Stratégie de
fonctions de Timelyweb
surveillance
surveillance

Recherche et
Outils Sites à Services Outils de Pages à Outils de
mise à jour
d'aspiration aspirer externes recherche surveiller surveillance
stratégique

Digimind
WSWatcher KBCrawl WebformanceWatch WSWatcher
Evolution

Expression Expression
Carnet
tous les tous les
d’adresses URL, IRC Tracking Link URL
documents documents
Web
Mise en veille Mise en veille

Profils de
surveillance

Destinataires
Consultations Système
d’information
Intranet, Extranet

Destinataires Destinataires

Figure 1 – Organisation de la veille

des résultats est constituée de cinq ingénieurs, une personne du — soit ces informations sont cachées ou exclues volontairement
service commercial et un membre du service marketing. du référencement par des administrateurs de sites Web. Ils utili-
sent le standard d’exclusion des robots (RES : Robot Exclusion
Standard ) pour des répertoires, ou les balises méta suivantes :
5.2 Veille sur le Web invisible <meta name=robots, content=noindex> pour une page Web privé ;
— soit des pages non indexées par les moteurs ; ces derniers
■ La notion de Web invisible [19] [50] renvoie à tous les sites qui limitent de façon volontaire le nombre de pages qu’ils référencent
sont introuvables en utilisant des outils de recherche classique. (on parle alors Web opaque).
Un site Web invisible correspond à des catégories distinctes De nombreux sites se sont spécialisés dans le Web invisible et
d’informations qui sont : leur « donnent accès ». D’autres métamoteurs de recherche pro-
— soit sauvegardées dans des bases de données gratuites ou posent des sources mixtes, c’est-à-dire visibles et invisibles,
payantes, (bibliothèques, etc.) ; comme le site goshme.com dans l’onglet « spécialisé ».
— soit non indexables par les moteurs de recherche, tels que les ■ Les deux alternatives possibles pour réaliser une veille sur le Web
fichiers de musique (MP3, WAV, etc.), les fichiers vidéo (MPG, invisible sont les suivantes :
MOV, etc.), et les autres formats de documents images (JPG, GIF,
etc.). Leur contenu n’est pas textuel, la recherche de ces fichiers • si la démarche respecte le standard d’exclusion des robots, il
s’effectue en conséquence généralement par leurs noms ; est conseillé d’utiliser des sites spécialisés dans le Web invisible,
— soit pas encore indexées, ou qui sont en attente d’indexation ; comme des moteurs de recherche spécifiques (completeplanet), les

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


H 7 430 − 8 est strictement interdite. − © Editions T.I.

Dossier délivré pour


DOCUMENTATION
21/10/2008
__________________________________________________________________________________________________________________ VEILLE SUR INTERNET

métamoteurs (Goshme), et les bases de données (scirus). Une liste exemple on peut créer la requête formulée en flux RSS sur le site
non exhaustive est donnée ci-dessous. http://www.pubmed.gov, onglet RSS feed.

Sites spécialisés « Web invisible » (liste non exhaustive) : Principaux agrégateurs en ligne (liste non exhaustive) :
http://www.completeplanet.com http://www.bloglines.com
http://www.magportal.com http://www.pluck.com
http://www.oclc.org http://www.rss4you.com
http://www.nielsenbuzzmetrics.com/ http://www.feeddemon.com
http://www.deepwebresearch.blogspot.com http://www.mystart.com
http://www.scirus.com
http://www.searchability.com Pour une veille plus approfondie, on privilégie les logiciels agré-
http://www.alacrastore.com gateurs, plus complets que les agrégateurs en ligne.
http://www.vlib.org
http://www.infomine.ucr.edu
http://www.libraryspot.com Principaux logiciels agrégateurs (liste non exhaustive) :
http://www.verticalnet.com http://www.alertinfo.fr
http://www.goshme.com http://www.feedreader.com
http://www.globalspec.com http://www.newisfree.com
http://www.spaceref.com http://www.newsgator.com
http://www.turbo10.com
http://www.nanotech-now.com
http://www.bubl.ac.uk
http://www.mammahealth.com 5.4 Veille sur les blogs
http://www.ccfr.bnf.fr
http://www.libdex.com ■ Depuis leur développement dans les années 1990 [6], les blogs
http://www.thunderstone.com sont aujourd’hui, des sources d’informations complémentaires au
http://www.rdn.ac.uk Web, aux forums de discussion, aux listes de diffusion et aux
http://www.chemindustry.com « newsletters » [30]. Les Blogs [54] [55] se développent conjointe-
http://www.incywincy.com ment et parallèlement au Web [8] [28] [40] [41] : comme le Web, les
http://www.dadi.enssib.fr blogs ont des outils de recherche spécifiques tels que des annuaires
http://www.deepweb.com et des moteurs de recherche qui recensent uniquement des adresses
http://www.infoplease.com de blogs et les flux RSS associés. À terme la communication entre
http://www.plants.usda.gov les entreprises, les organismes ou encore les écoles se fera à l’aide
http://www.publist.com des blogs et de flux RSS, et complétera leurs sites Internet.
http://www.beaucoup.com
http://www.lii.org
http://www.findarticles.com Annuaires de blogs (liste non exhaustive) :
http://www.scienceport.org/
http://www.blogonautes.com/
• si la démarche ne respecte pas le standard d’exclusion des http://www.lamoooche.com/
robots, alors l’usage d’un outil d’aspiration permet d’accéder aux http://www.retronimo.com/
parties cachées du site. Pour cela, on paramètre l’outil afin qu’il ne http://www.newsisfree.com/sources/bycat
respecte pas le standard d’exclusion des robots.

Moteurs de recherche (liste non exhaustive) :


5.3 Veille sur les flux RSS http://www.feedster.com/
http://www.blogdigger.com/index.html
■ Le flux RSS (Really Simple Syndication ) est une description de http://www.rssfeeds.com/
fichier ayant des balises spécifiques, et qui est basée sur la norme http://www.popdex.com/
RDF (Ressource Description Framework ). Il permet de « syndiquer » http://www.blawgs.detod.com/
un site à un autre. En complément du format RSS, il existe aussi http://www.boogieplay.com
l’ATOM. Cette forme d’abonnement « gratuit » ou sous licence http://www.search4blogs.com/
« creative commons » à une zone d’information de site est http://www.technorati.com/
aujourd’hui largement utilisée dans le domaine de la veille sur http://www.blogdump.com/
Internet. http://www.ask.com
Nota : pour plus d’informations sur ATOM, se reporter au site Internet de l’IEF – Insu- http://www.feedburner.com
rance Education Institute’s – (http://www.ietf.org).

Le fonctionnement des sites qui utilisent la technologie RSS ■ La démarche de veille sur les blogs [49] débute classiquement
repose sur un ensemble d’outils en ligne ou à télécharger. Les flux par une identification des sites : l’utilisation des « annuaires Web »
RSS permettent de consulter les dernières informations publiées permet de trouver les rubriques thématiques et donc des listes
par les sites Web ou Blogs. « L’abonnement » au flux RSS s’effectue d’annuaires et de moteurs de recherche spécifiques à la
soit par un copier coller une adresse, soit par la sélection de l’icône « blogosphère ». Cette démarche itérative se poursuit sur plusieurs
RSS 1.0, RSS 2.0 ou ATOM 0.3 sur les sites qui le proposent. Les « annuaires Web » afin de trouver d’autres « annuaires de blogs », et
principaux lecteurs RSS sont : NetNewsWire, NewsFire, RSSOwl, ainsi de suite.
Shrook, et USM.
Exemple : sur le site http://www.yahoo.fr dans l’onglet « rubrique
■ Dans un premier niveau de veille, on utilise les agrégateurs en Web », on trouve la « sous-rubrique blogs » qui regroupe une
ligne : ce sont des sites qui proposent de trouver et paramétrer des large sélection de sites spécifiques à la « blogosphère ». Le site
adresses des pages qui proposent elles-mêmes des flux RSS. Des http://www.blogonautes.com recense plusieurs milliers de blogs
recherches par mots clés peuvent être mises en flux RSS : par francophones.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


est strictement interdite. − © Editions T.I. H 7 430 − 9

Dossier délivré pour


DOCUMENTATION
21/10/2008
VEILLE SUR INTERNET __________________________________________________________________________________________________________________

■ En complément des moteurs de recherche spécifiques aux blogs, sources d’informations formelles et informelles que les entreprises
il convient d’utiliser les moteurs de recherche Web à l’aide des exploitent.
méthodes Xfind : on croise le terme blog avec les expressions de la
Alors que certaines entreprises utilisent massivement le site
recherche, exemple : blog ET matériaux.
google, et donc limitent la surveillance de l’Internet à 1 %, d’autres
Deux alternatives sont possibles en fonction des besoins : entreprises développent une veille professionnelle sur Internet et
contrôlent jusqu’à 99 % des données présentes sur Internet.
• soit les blogs sont surveillés avec la syndication de leur
contenu, auquel cas l’utilisation de la veille sur les flux RSS est réa- La problématique des entreprises devient alors : comment maî-
lisable. La syndication de contenu peut s’effectuer par flux RSS, triser intelligemment les flux d’informations externes et internes ?
par lien blog du site et par mots clés personnalisés ; La veille sur Internet est la réponse concernant les flux externes.
Pour cela, elle nécessite l’utilisation d’outils et de méthodes adap-
Exemple : l’utilisation des Navigateur IE 7 ou Firefox – se reporter tés à chaque cas, que nous venons de présenter.
au site de http://www.mozilla.org –, avec l’option Wizz RSS permet de
lire directement les flux RSS. Chaque jour, le volume d’informations augmente, de nouvelles
technologies apparaissent, et des stratégies d’informations ou de
• soit les sites blogs sont surveillés comme des sites Web, désinformations sont déployées. Ces contraintes doivent être prises
auquel cas on utilise des outils et des méthodes identiques. en compte dans la recherche d’informations.
Toute information doit également être systématiquement recou-
pée et validée avant d’être utilisée comme paramètre dans une
prise de décision : dans la guerre de l’information, une rumeur ou
6. Conclusions une désinformation habilement conduite se révèle parfois d’une
efficacité redoutable, au même titre que d’autres armes du jeu
et perspectives concurrentiel.
Enfin, n’oublions pas, que le système d’information qui recueille
L’environnement électronique des entreprises est de plus en plus des documents Internet doit intégrer des outils capables d’indexer
varié et complexe : le Web, les blogs, les forums, les listes de diffu- en texte intégral toutes les informations, afin de les retrouver ulté-
sions, les wiki ou encore la messagerie instantanée sont autant de rieurement et aussi rapidement que sur Internet.

Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie


H 7 430 − 10 est strictement interdite. − © Editions T.I.

Dossier délivré pour


DOCUMENTATION
21/10/2008

Vous aimerez peut-être aussi