111.-Base-de-donnees-S.-Bechet

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 42

Introduction à la création et la

gestion de bases de données

Stéphane Béchet
Biostatisticien / Data Manager
Institut Pasteur
Unité d’Epidémiologie des Maladies Emergentes
stephane.bechet@pasteur.fr

1
Objectifs de la formation

• Comprendre la nécessité de l’utilisation d’un


Système de Gestion de Bases de Données
(SGBD) par rapport à de simples fichiers Excel

• Connaître les points essentiels dans la création


d’une base de données

• Assimiler les étapes principales de gestion d’une


base de données

2
Objectifs de la formation

• Comprendre la nécessité de l’utilisation d’un


Système de Gestion de Bases de Données
(SGBD) par rapport à de simples fichiers Excel

• Connaître les points essentiels dans la création


d’une base de données

• Assimiler les étapes principales de gestion d’une


base de données

3
Définitions

• Base de données (BD) : Ensemble structuré de


données informatisées, accessible de façon
sélective par plusieurs utilisateurs.

• Système de gestion de base de données


(SGBD): Logiciel permettant d’interagir avec
une base de données. C’est l’interface entre
l’utilisateur et la base de données.

4
Limites à l’utilisation des fichiers type Excel

Données socio-démographiques Evénements indésirables


(sexe, age,inclus,…) (sexe, date de début, cause,…)

Données biologiques Données cliniques


(ASAT, ALAT, CD4,…) (poids, CD4,…)

De telles applications sont : Les données associées sont :


 rigides  redondantes

 contraignantes  peu fiables

 longues à mettre en oeuvre  peu accessible de manière ponctuelle

Un grand effort de programmation est alors nécessaire pour exploiter


et maintenir dans un état cohérent ces informations et leurs liens. 5
Limites à l’utilisation des fichiers type Excel
• Doublons
• Contrôles des données (valeurs aberrantes, cohérence
entre variables…)
• Format des données

6
Limites à l’utilisation des fichiers type Excel

• Tri sur les données

7
Avantages de l’utilisation d’un SGBD
Requête Résultat Utilisation d’un SGBD

 Définition des données


SGBD (objets, attributs et liens),

 Centralisation des données,


Base de données
 Manipulation simple des données
Données socio-démographiques (ajout, modification, tri, …),
(sexe, age,inclus,…)

Données biologiques  Obtention de renseignements


(ASAT, ALAT, CD4…) spécifiques à partir des données,

Données cliniques  Contraintes d’intégrités,


(poids,…)

Evénements indésirables
 Accès multiples aux données,
(date de début, cause,…) 8
 Accès sécurisé aux données
Objectifs de la formation

• Comprendre la nécessité de l’utilisation d’un


Système de Gestion de Bases de Données
(SGBD) par rapport à de simples fichiers Excel

• Connaître les points essentiels dans la création


d’une base de données

• Assimiler les étapes principales de gestion d’une


base de données

9
Développement d’une application

• La partie la plus importante du développement d’une


application se fait avant même d’allumer un ordinateur !!!

• Travail à réaliser en collaboration avec les membres de


l’équipe (Investigateurs, Attachés de Recherche Clinique,
Médecins d’Etude Clinique, Biostatisticiens, …)

• Etapes dans le développement d’une application :


– spécification des besoins (principaux intervenants et principales
activités)
– l’analyse
– la conception (élaboration de la structure de la base)
– l’implémentation (écriture des programmes informatiques) 10
Type d’utilisateurs d’une base de données

• L’administrateur
– maintenance de la base de données,
– Sauvegardes et restauration du système en cas de pannes,
– définition des droits d’accès pour chaque utilisateur

• Le programmeur
– construction de la base et des interfaces utilisateurs,
– mise en place des droits d’accès

• L’utilisateurs
– Selon les droits : ajout, modification, suppression, consultation des
données
–L’utilisateur ne peut en aucun cas modifier la structure de la base
11
Élaboration
d’une base de données (1/2)
1) Annotation du questionnaire
2) Dictionnaire des données
– nom des variables
– libellés
– unité des mesures
– page du CRF où se trouve la variable

3) Structure de la base
– tables
– variables (nom, type de données, format, clé primaire)
– schéma relationnel
4) Cahier des charges (incohérences)
- numéro du contrôle
- nom des variables impliquées
- description 12
Élaboration
d’une base de données (2/2)
5) Masques de saisie
 Mise en page
 Liste déroulante, cases à cocher
 Boutons de commandes…

6) Contrôle de cohérences
 bornes
 saut conditionnel…

7) Rapports automatiques
8) Test de la base
9) Mode d’emploi de la base de données

13
Tracking / Audit Trail

Suivi des modifications apportées à une


base de données :
 Qui

 Quand

 Quoi

 Pourquoi

 Ancienne valeur

 Nouvelle valeur
14
Sécurité

 Un contrôle d’accès à votre réseau / ordinateur : firewall, antivirus,


login, mot de passe, maintenance régulière (matériels, logiciels…)
 un contrôle d’accès à la base de données : login, mot de passe
 un contrôle d’accès aux données par des droits différents selon les
utilisateurs :
• Consultation
• Ajout
• Modification
• Suppression
• Modification de la structure de la base
• …
15
Mot de passe

• Longueur d'au moins sept caractères


• Lettres majuscules et minuscules
FAIRE

• Chiffres
• Symbole
• Au moins quatre caractères différents (sans répétitions)
• Ressemble à une séquence aléatoire de lettres et de nombres
NE PAS FAIRE

• N'utilisez AUCUNE PARTIE de votre nom de connexion .


• N'utilisez ni votre nom, ni votre prénom
• N'utilisez aucune lettre ou nombre consécutif tel que "abcdefg" ou
"23456"
• N'utilisez aucune touche adjacente sur votre clavier telle que "azerty"

Ne communiquez pas votre mot de passe, ne l’écrivez pas 16


Sauvegarde

La sauvegarde est un paramètre fondamental pour


toute étude et reste l’unique garantie de ne pas perdre
votre travail

 sauvegardes fréquentes

 différents supports (Serveur, bandes magnétiques,


DVD…)

 gestion des anciennes versions

17
Synthèse
• L’élaboration de la base de données exige :
– du temps
– de la rigueur
– Une collaboration avec toute l’équipe projet
• La base de données doit être :
– évolutive
– conviviale
– cohérente
• La sécurité des données des sujets doit être garantie :
– droits différent selon les utilisateurs
– mots de passe efficaces
• Sauvegarde régulière

18
Objectifs de la formation

• Comprendre la nécessité de l’utilisation d’un


Système de Gestion de Bases de Données
(SGBD) par rapport à de simples fichiers Excel

• Connaître les points essentiels dans la création


d’une base de données

• Assimiler les étapes principales de gestion d’une


base de données

19
Définition

Data Management : Processus de gestion de


données permettant d'obtenir une base de
données cohérente et exploitable par les
statisticiens afin de répondre aux objectifs de
l'étude.

20
Plan

 CRF (Case Report Form) annoté


 Cahier des charges
 Création de la base de données
 Saisie des données
 Programmation des contrôles de cohérence
 Edition des demandes de clarification
 Correction des données
 Codage des données à l’aide de dictionnaires spécifiques
 Revue de données en aveugle (essais cliniques)
 Gel de la base de données
 Traçabilité
 Règlementation / Guidelines 21
CRF annoté (1)

• L’annotation du CRF permet de structurer toute


l’information contenu dans le questionnaire

• On indique directement sur un CRF vierge :


 le nom des tables
 le nom et type des variables
 les listes de codes utilisés

22
CRF annoté (2)

En rouge, le nom
1
2
de la table
En bleu, le nom
1 0
de la variable
1 0
1 0 En indice, le code
1 0 utilisé

23
1
Cahier des charges (1)

• Objectif : lister les contrôles de cohérences qui seront


effectués sur les données
• Il est réalisé à partir du protocole et du CRF
• Il doit comprendre :
• le numéro du contrôle
• la ou les variable(s) impliquée(s) dans le contrôle
• le message destiné aux cliniciens

Le cahier des charges doit être discuté/validé lors d’une


réunion avec tous les participants à l’étude (chef de projet,
ARC, DM, statisticien...)
24
Cahier des charges (2)

N° Variable Contrôle
1 INIT • Les initiales du patient doivent être renseignées.
• La date de signature du consentement doit être
2 DTCONS renseignée, complète et calendaire.

3 DTNAIS • La date de naissance doit être renseignée, complète


et calendaire.
DTNAIS / • La date de naissance doit être antérieure à la date de
4
DTCONS consentement.
• Le sexe du patient doit être renseigné et être indiqué
5 SEXE
à 1 (Masculin) ou 2 (Féminin).
6 • La date de visite doit être renseignée, complète et
DTV1
calendaire.
• La date de la visite 1 doit être postérieure au
7 DTV1 01/01/2002 et antérieure à la date de saisie du CRF.
• La date de signature du consentement doit être
8 DTCONS / DTV1
antérieure ou égale à la date de la visite 1.
25
Création de la base de données (1)
Choix du logiciel en fonction :
• du type d’étude (essai clinique, enquête…)
• du nombre de sites impliqués
• du type de saisie (simple ou double)
• du nombre d’accès simultanés à la base

EpiData Access EasyPHP / Voozanoo

Etudes plus complexes Etudes


Petites enquêtes
et accès multiples à la multicentriques et
et saisies en local
base saisie via le web

26
Création de la base de données (2)

• Elaboration de la structure de la base de données sur


papier à partir du CRF
• Création de la base de données sous le SGBD :
• Tables et variables
• Schéma relationnel
• Masques de saisie
• Premiers contrôles (à partir du CRF, du protocole et du
cahier des charges)
• etc…
27
Saisie des données

 Saisie : simple ou double ?


• Double saisie : permet d’éviter les erreurs en cours de
saisie (lecture, frappe…)
• Choix avant l’élaboration de la base de données car
répercution sur la structure
 Si double saisie :
1) Saisies indépendantes
2) Comparaison des deux bases pour identification des
différences
3) Retour au CRF pour vérification et correction des
données de chaque base 28
Contrôle des données
CRF et protocole

Cahier des charges

Programmation des contrôles


Le cahier des charges suit l’ordre du CRF et la
programmation est le reflet du cahier des charges
29
Contrôle des données après saisie

Le programmes de contrôles doivent détecter :


 Les déviations de protocole
Ex : Respect des critères d’inclusion
 Les erreurs de remplissage du cahier (incohérence sur
une donnée ou entre plusieurs données)
Ex: Valeurs aberrantes de taille, poids…
Test de grossesse = NA pour les hommes
 Les données manquantes qui seront potentiellement
récupérables 30
Contrôle des données après saisie

Les demandes de clarification (DCF) doivent être datées, signées et


archivées dans le dossier du sujet concerné 31
Correction des données

Donnée initiale : Réponse à une query :


Poids = 180 kg Poids = 80 kg

Opérateur Opérateur

AUDIT-TRAIL

Date Utilisateur Variable Ancienne Nouvelle Query


valeur valeur

14/03/07 Opérateur Poids 180 80 Veuillez vérifier le poids


du patient (180 Kg).
32
Codage des données à l’aide d’un
dictionnaire
 Pourquoi ?
• Facilité de manipulation
• Facilité d’analyse
• Présentation standard des informations
 Les dictionnaires les plus utilisés :
• MedDRA ou ICD9CM pour coder les antécédents,
pathologies, actes chirurgicaux

• MedDRA ou WHO-ART ou COSTART ou HARTS pour coder


les événements indésirables

• WHO-DRUG pour les médicaments


33
Codage des données : Le dictionnaire
MedDRA

34
Revue des données en aveugle
(nouveaux produits)

Objectifs :
 Définir les déviations par rapport au protocole et
les classer en « mineures » ou « majeures »
 Rechercher les incohérences non détectables par
des contrôles automatiques
 Edition et revue (en aveugle des traitements)
des listing de données par patient

35
Gel d’une base de données

 But : Empêcher toute modification de données


par un verrouillage physique de la base
ou une copie des données

 Quand : Lorsque les données sont « propres » et


la revue des données en aveugle terminée

 Pourquoi : - Analyse statistique intermédiaire


- Analyse statistique finale
36
Dégel d’une base de données

Dégel de la base possible :

 Obtenir les accords

 Documenter et motiver

 Re-verrouiller la base

37
Traçabilité

Il est indispensable de conserver toutes traces


d’opération sur les données :
– Journal de saisie
– Comparaison des saisies
– Demandes de clarification
– Corrections évidentes de la base
– …
et de les joindre soit au questionnaire de chaque
sujet, soit à la documentation relative à la base de
données 38
Réglementation / Guidelines

 Réglementation (données traitées en France) :


• Comité Consultatif sur le Traitement de l'Information en matière de
Recherche dans le domaine de la Santé (CCTIRS)
www.recherche.gouv.fr/cid20537/cctirs.html
• Comission Nationale de l’Informatique et des Libertés (CNIL)
www.cnil.fr

 Guidelines :
• ICH www.ich.org
 Bonnes Pratiques Cliniques (ICH E6)
 General Consideration of Clinical Trials (ICH E8)
• Bonnes Pratiques de Data Management (www.scdm.org)
• …
39
Conclusion
déclaration aux
autorités compétentes
(CCTIRS, CNIL) cahier des charges

Annotation Structure Création


CRF de la base de la base
du CRF
Protocole (papier) (SGBD)

revue simple/double saisie vérification contrôles


Rapports
double saisie
-incohérences
-données manquantes,
CRF Base de données -doublons
-…
Vérification
Correction
dans le CRF

Investigateurs
40
Gel de la base
Conclusion
 Le Data Management est une étape très importante
dans une étude car il conditionne la qualité des
données et par conséquent celle des résultats
statistiques

 C’est aussi l’étape la plus longue, exigeant rigueur et


organisation

 L’efficacité du DM dépendra pour beaucoup de votre


connaissance du protocole et de la rédaction du cahier
des charges
41
Cours de l’Institut Pasteur
www.pasteur.fr rubrique Enseignement

• Création et Gestion de Bases de données sous Access


et Epidata
• Analyse de données avec Stata (Tests statistiques,
régression logistique, survie)
• Introduction à l’Epidémiologie et aux Biostatistiques
et Validation des Tests Diagnostiques
• Essais Cliniques et Maladies Infectieuses et Tropicales
• … 42

Vous aimerez peut-être aussi