IBM SPSS Data Preparation FR
IBM SPSS Data Preparation FR
IBM SPSS Data Preparation FR
IBM
Important
Avant d'utiliser le présent document et le produit associé, prenez connaissance des informations générales figurant à la
section «Remarques», à la page 27.
La présente édition s'applique à la version 25.0.0 d'IBM® SPSS Statistics et à toutes les éditions et modifications
ultérieures sauf mention contraire dans les nouvelles éditions.
LE PRESENT DOCUMENT EST LIVRE EN L'ETAT SANS AUCUNE GARANTIE EXPLICITE OU IMPLICITE. IBM
DECLINE NOTAMMENT TOUTE RESPONSABILITE RELATIVE A CES INFORMATIONS EN CAS DE
CONTREFACON AINSI QU'EN CAS DE DEFAUT D'APTITUDE A L'EXECUTION D'UN TRAVAIL DONNE.
Ce document est mis à jour périodiquement. Chaque nouvelle édition inclut les mises à jour. Les informations qui y
sont fournies sont susceptibles d'être modifiées avant que les produits décrits ne deviennent eux-mêmes
disponibles. En outre, il peut contenir des informations ou des références concernant certains produits, logiciels ou
services non annoncés dans ce pays. Cela ne signifie cependant pas qu'ils y seront annoncés.
Pour plus de détails, pour toute demande d'ordre technique, ou pour obtenir des exemplaires de documents IBM,
référez-vous aux documents d'annonce disponibles dans votre pays, ou adressez-vous à votre partenaire
commercial.
Vous pouvez également consulter les serveurs Internet suivants :
v http://www.fr.ibm.com (serveur IBM en France)
v http://www.ibm.com/ca/fr (serveur IBM au Canada)
v http://www.ibm.com (serveur IBM aux Etats-Unis)
Compagnie IBM France
Direction Qualité
17, avenue de l'Europe
92275 Bois-Colombes Cedex
© Copyright IBM France 2017. Tous droits réservés.
Table des matières
Avis aux lecteurs canadiens . . . . . . v Rétablissement des scores. . . . . . . . . 20
Identification des observations inhabituelles . . . 21
Préparation des données . . . . . . . 1 Identification de la sortie d'observations
inhabituelles . . . . . . . . . . . . . 22
Introduction à la préparation des données . . . . 1
Identification des enregistrements d'observations
Utilisation des procédures de préparation des
inhabituelles . . . . . . . . . . . . . 23
données . . . . . . . . . . . . . . . 1
Identification des valeurs manquantes des
Règles de validation . . . . . . . . . . . . 1
observations inhabituelles . . . . . . . . 23
Chargement des règles de validation prédéfinies . 2
Options d'identification des observations
Définition des règles de validation . . . . . . 2
inhabituelles . . . . . . . . . . . . . 23
Validation des données . . . . . . . . . . . 4
Fonctions supplémentaires de la commande
Vérifications de base de validation des données . 5
DETECTANOMALY . . . . . . . . . . 24
Règles de variable unique de la validation des
Recodage supervisé optimal . . . . . . . . . 24
données . . . . . . . . . . . . . . . 6
Sortie du recodage supervisé optimal . . . . . 25
Règles de variable croisée de la validation des
Enregistrement du recodage supervisé optimal 25
données . . . . . . . . . . . . . . . 6
Valeurs manquantes de recodage supervisé
Sortie de la validation des données . . . . . . 6
optimal . . . . . . . . . . . . . . . 25
Enregistrement de la validation des données. . . 7
Options Regroupement optimal. . . . . . . 25
Préparation automatique des données . . . . . . 7
Fonctions supplémentaires de la commande
Obtention d'une préparation automatique des
OPTIMAL BINNING . . . . . . . . . . 26
données . . . . . . . . . . . . . . . 8
Obtention d'une préparation interactive des
données . . . . . . . . . . . . . . . 8 Remarques . . . . . . . . . . . . . 27
Onglet Champs . . . . . . . . . . . . 9 Marques . . . . . . . . . . . . . . . 29
Onglet Paramètres . . . . . . . . . . . 9
Onglet Analyse . . . . . . . . . . . . 14 Index . . . . . . . . . . . . . . . 31
iii
iv IBM SPSS Data Preparation 25
Avis aux lecteurs canadiens
Le présent document a été traduit en France. Voici les principales différences et particularités dont vous
devez tenir compte.
Illustrations
Les illustrations sont fournies à titre d'exemple. Certaines peuvent contenir des données propres à la
France.
Terminologie
La terminologie des titres IBM peut différer d'un pays à l'autre. Reportez-vous au tableau ci-dessous, au
besoin.
Claviers
Les lettres sont disposées différemment : le clavier français est de type AZERTY, et le clavier
français-canadien de type QWERTY.
Au Canada, on utilise :
v les pages de codes 850 (multilingue) et 863 (français-canadien),
v le code pays 002,
v le code clavier CF.
Nomenclature
Les touches présentées dans le tableau d'équivalence suivant sont libellées différemment selon qu'il s'agit
du clavier de la France, du clavier du Canada ou du clavier des États-Unis. Reportez-vous à ce tableau
pour faire correspondre les touches françaises figurant dans le présent document aux touches de votre
clavier.
v
Brevets
Il est possible qu'IBM détienne des brevets ou qu'elle ait déposé des demandes de brevets portant sur
certains sujets abordés dans ce document. Le fait qu'IBM vous fournisse le présent document ne signifie
pas qu'elle vous accorde un permis d'utilisation de ces brevets. Vous pouvez envoyer, par écrit, vos
demandes de renseignements relatives aux permis d'utilisation au directeur général des relations
commerciales d'IBM, 3600 Steeles Avenue East, Markham, Ontario, L3R 9Z7.
Assistance téléphonique
Si vous avez besoin d'assistance ou si vous voulez commander du matériel, des logiciels et des
publications IBM, contactez IBM direct au 1 800 465-1234.
Le module complémentaire Préparation des données vous permet d'identifier les observations
inhabituelles et les observations non valides, ainsi que les variables et les valeurs de données dans votre
jeu de données actif, de plus ce module prépare les données pour la modélisation.
Une fois que votre fichier de données est "propre", vous êtes prêt à construire des modèles à partir
d'autres modules complémentaires.
Règles de validation
Une règle sert à déterminer la validité d'une observation. Il existe deux types de règles de validation :
v Règles de variable unique : Les règles de variable unique sont composées d'un ensemble fixe de
vérification s'appliquant à une variable unique, telle que les vérifications des valeurs hors plage. Les
valeurs valides peuvent être exprimées sous la forme d'une plage de valeurs ou d'une liste de valeurs
possibles en ce qui concerne les règles de variable unique.
v Règles de variable croisée : Les règles sur variables croisées sont des règles définies par l'utilisateur
qui peuvent être appliquées à une variable ou à une combinaison de variables. Les règles de variable
croisée sont définies par une expression logique qui repère les valeurs non valides.
Vous pouvez également utiliser l'assistant Copier des propriétés de données pour charger les règles à
partir de n'importe quel fichier de données.
Règles : La liste affiche les règles de validation de variable unique par nom et le type de variable auquel
la règle peut être appliquée. A l'ouverture de la boîte de dialogue, les règles définies dans le dictionnaire
de données s'affichent ou, si aucune règle n'a été définie, une règle de substitution intitulée "Règle de
variable unique 1" apparaît. Les boutons suivants apparaissent au-dessous de la liste Règles :
v Nouveau : Ajoute une nouvelle entrée au bas de la liste Règles. La règle est sélectionnée et le nom
"SingleVarRule n" lui est appliqué, n correspondant à un nombre entier de sorte que le nom de la
nouvelle règle n'ait pas de doublon parmi les règles de variable unique et de variable croisée.
v Dupliquer : Ajoute une copie de la règle sélectionnée au bas de la liste Règles. Le nom de la règle est
ajusté de sorte qu'il n'y ait pas de doublon parmi les règles de variable unique et de variable croisée.
Par exemple, si vous dupliquez "SingleVarRule 1", le nom de la première règle dupliquée sera "Copy of
SingleVarRule 1", celui de la deuxième sera "Copy (2) of SingleVarRule 1", etc.
v Supprimer : Supprime la règle sélectionnée.
Définition de règles : Ces contrôles vous permettent d'afficher et de définir les propriétés d'une règle
sélectionnée.
v Nom : Le nom de la règle doit être unique parmi les règles de variable unique et de variable croisée.
v Type : Il s'agit du type de variable auquel une règle est appliquée. Effectuez votre sélection à partir de
Numérique, Chaîne et Date.
v Format : Le format vous permet de sélectionner le format de date pour les règles pouvant être
appliquées à des variables de date.
Règles : La liste affiche les règles de validation de variable croisée par nom. A l'ouverture de la boîte de
dialogue, une règle de substitution intitulée "CrossVarRule 1" s'affiche. Les boutons suivants apparaissent
au-dessous de la liste Règles :
v Nouveau : Ajoute une nouvelle entrée au bas de la liste Règles. La règle est sélectionnée et le nom
"CrossVarRule n" lui est appliqué, n correspondant à un nombre entier de sorte que le nom de la
nouvelle règle n'ait pas de doublon parmi les règles de variable unique et de variable croisée.
v Dupliquer : Ajoute une copie de la règle sélectionnée au bas de la liste Règles. Le nom de la règle est
ajusté de sorte qu'il n'y ait pas de doublon parmi les règles de variable unique et de variable croisée.
Par exemple, si vous dupliquez "CrossVarRule 1", le nom de la première règle dupliquée sera "Copy of
CrossVarRule 1", celui de la deuxième sera "Copy (2) of CrossVarRule 1", etc.
v Supprimer : Supprime la règle sélectionnée.
Définition de règles : Ces contrôles vous permettent d'afficher et de définir les propriétés d'une règle
sélectionnée.
v Nom : Le nom de la règle doit être unique parmi les règles de variable unique et de variable croisée.
v Expression logique : Il s'agit de la définition de règle. Vous pouvez coder l'expression de sorte que les
observations invalides aient pour résultat 1.
Construction d'expressions
1. Pour construire une expression, vous pouvez soit coller les composants dans le champ Expression, soit
les saisir directement depuis le clavier.
v Pour coller des fonctions ou des variables système couramment utilisées, sélectionnez un groupe dans
la liste Groupe de fonctions, puis, dans la liste Fonctions et variables spéciales, double-cliquez sur la
fonction ou la variable voulue (ou sélectionnez-la, puis cliquez sur Insérer). Entrez tous les paramètres
indiqués par un point d'interrogation (cette opération ne concerne que les fonctions). Le groupe de
Exemple : Un analyste de données doit fournir une enquête de satisfaction client à son client tous les
mois. L'analyste doit effectuer une vérification de la qualité des données reçues chaque mois, afin de
contrôler qu'il n'y a pas d'ID client incomplet, de valeurs de variables hors plage, de combinaisons de
valeurs de variable régulièrement saisies par erreur. Avec la boîte de dialogue Valider des données,
l'analyste peut spécifier les variables qui ne servent à identifier que les clients, définir les règles de
variable unique pour les plages de variables valides et enfin définir les règles de variable croisée afin de
repérer les combinaisons impossibles. La procédure renvoie un rapport sur les observations et les
variables posant problèmes. De plus, les données possèdent les mêmes éléments de données chaque mois,
ce qui permet à l'analyste d'appliquer les règles au nouveau fichier de données du mois suivant.
Statistiques : La procédure génère des listes de variables, d'observations et de valeurs de données qui
n'ont pas passé plusieurs contrôles, des effectifs de violation des règles de variable unique et de variable
croisée, ainsi que de simples récapitulatifs descriptifs des variables d'analyse.
L'alerte du niveau de mesure apparaît lorsque le niveau de mesure d'une ou plusieurs variables (champs)
du jeu de données est inconnu. Le niveau de mesure ayant une incidence sur le calcul des résultats de
cette procédure, toutes les variables doivent avoir un niveau de mesure défini.
Analyser les données : Lit les données dans le jeu de données actifs et attribue le niveau de mesure par
défaut à tous les champs ayant un niveau de mesure inconnu. Si le jeu de données est important, cette
action peut prendre un certain temps.
Le niveau de mesure étant important pour cette procédure, vous ne pouvez pas accéder à la boîte de
dialogue d'exécution de cette procédure avant que tous les champs n'aient des niveaux de mesure définis.
Variables d'analyse : Si vous avez sélectionné des variables d'analyse dans l'onglet Variables, vous
pouvez sélectionner la ou les vérifications suivantes correspondant à leur validité. La case à cocher vous
permet d'activer ou de désactiver les vérifications.
v Pourcentage maximal de valeurs manquantes : Répertorie les variables d'analyse dont le pourcentage
de valeurs manquantes est supérieur à la valeur indiquée. La valeur indiquée doit être un nombre
positif inférieur ou égal à 100.
v Pourcentage maximal d'observations dans une catégorie unique : Lorsque des variables d'analyse sont
catégorielles, cette option répertorie alors les variables d'analyse catégorielles dont le pourcentage
d'observations représentant une catégorie unique non manquante est supérieur à la valeur indiquée. La
valeur indiquée doit être un nombre positif inférieur ou égal à 100. Le pourcentage est basé sur des
observations n'ayant pas de valeur manquante de la variable.
v Pourcentage maximal de catégories dont l'effectif est 1 : Lorsque des variables d'analyse sont
catégorielles, cette option répertorie alors les variables d'analyse catégorielles dont le pourcentage des
catégories des variables contenant une seule observation est supérieur à la valeur indiquée. La valeur
indiquée doit être un nombre positif inférieur ou égal à 100.
v Coefficient de variation minimum : Lorsque des variables d'analyse sont mesurées sur une échelle,
cette option répertorie les variables d'analyse d'échelle dont la valeur absolue du coefficient de
variation est inférieure à la valeur indiquée. Cette option ne s'applique qu'aux variables dont la
moyenne n'est pas nulle. La valeur indiquée doit être un nombre non-négatif. Pour désactiver le
coefficient de vérification de la variation, tapez 0.
v Ecart type minimum : Lorsque des variables d'analyse sont mesurées sur une échelle, cette option
répertorie les variables d'analyse d'échelle dont l'écart type est inférieur à la valeur indiquée. La valeur
indiquée doit être un nombre non-négatif. Pour désactiver la vérification de l'écart type, tapez 0.
Repérer les observations vides : Cette option répertorie les observations dont toutes les variables sont
vides ou nulles. Pour identifier des observations vides, vous pouvez utiliser toutes les variables du fichier
(à l'exception des variables ID) ou seulement les variables d'analyse définies sur l'onglet Variables.
Variables d'analyse : La liste affiche les variables d'analyse, récapitule leurs distributions et indique
également le nombre de règles appliqué à chaque variable. Notez que les valeurs manquantes définies
par l'utilisateur et par le système ne sont pas incluses dans les récapitulatifs. La liste déroulante Afficher
contrôle l'affichage des variables. Vous pouvez sélectionner les affichages suivants : Toutes les variables,
Variables numériques, Variables de chaîne et Variables de date.
Règles : Pour appliquer des règles à des variables d'analyse, sélectionnez une ou plusieurs variables et
vérifiez toutes les règles que vous voulez appliquer dans la liste Règles. La liste Règles n'affiche que les
règles appropriées aux variables d'analyse sélectionnées. Si, par exemple, vous sélectionnez des variables
d'analyse numériques, seules les règles numériques s'affichent. Si vous sélectionnez une variable de
chaîne, seules les règles chaîne s'affichent. Si vous n'avez sélectionné aucune variable d'analyse ou si les
types de données ont été mélangés, aucune règle ne s'affiche.
Distributions de variables : Les récapitulatifs de distribution affichés dans la liste Variables d'analyse
peuvent être basés sur l'ensemble des observations ou sur une analyse des premières observations n,
comme indiqué dans la zone de texte Observations. Pour mettre à jour les récapitulatifs de distribution,
cliquez sur Réanalyser.
Règles de validation de variable unique : Si vous avez appliqué des règles de validation de variable
unique, vous pouvez sélectionner le mode d'affichage et les résultats à afficher.
v Récapituler les violations par variable d'analyse : Pour chaque variable d'analyse, cette option affiche
toutes les règles de validation de variable unique violées et le nombre de valeurs ayant violé chaque
règle. Elle répertorie également le nombre total de violations de règles de variable unique pour chaque
variable.
v Récapituler les violations par règles : Pour chaque règle de validation de variable unique, cette
option affiche les variables ayant violé la règle et le nombre de valeurs non valides par variable. Elle
répertorie également le nombre total de valeurs ayant violé chaque règle dans l'ensemble des variables.
Afficher les statistiques descriptives pour les variables d'analyse : Cette option vous permet de
demander les statistiques descriptives pour les variables d'analyse. Une table de fréquences est généré
pour chaque variable catégorielle. Un tableau de statistiques récapitulatives, comprenant la moyenne,
l'écart type, les valeurs minimum et maximum, est généré pour les variables d'échelle.
Variables récapitulatives : Ces variables individuelles peuvent être enregistrées. Cochez une case pour
enregistrer la variable. Les noms des variables par défaut sont fournis, vous pouvez les modifier.
v Indicateur d'observations vides : La valeur 1 est attribuée aux observations vides. Toutes les autres
observations sont codées 0. Les valeurs de la variable reflètent le champ d'application indiqué sur
l'onglet Vérifications de base.
v Dupliquer le groupe ID : Le même numéro de groupe est attribué aux observations disposant du
même identificateur d'observations (sauf les observations possédant des identificateurs incomplets) Les
observations disposant d'identificateurs uniques ou incomplets sont codées 0.
v Indicateur ID incomplet : La valeur 1 est attribuée aux observations disposant d'identificateurs vides
ou incomplets. Toutes les autres observations sont codées 0.
v Violations d'une règle de validation : Il s'agit de l'effectif total par observation de violations des règles
de validation de variable unique et de variable croisée.
Remplacer les variables récapitulatives existantes : Les variables enregistrées dans un fichier de données
doivent avoir des noms identiques ou remplacer les variables de même nom.
Enregistrer les variables indicateur : Cette option vous permet d'effectuer un enregistrement complet des
violations des règles de validation. Chaque variable correspond à l'application d'une règle de validation
et dispose d'une valeur de 1 si l'observation viole la règle et d'une valeur de 0 dans le cas contraire.
L'utilisation de l'ADP vous permet de préparer facilement et rapidement vos données pour la génération
de modèle, sans qu'il soit nécessaire de maîtriser les concepts de statistiques utilisés. Les modèles seront
alors créés et les scores déterminés plus rapidement ; de plus, l'utilisation de l'ADP améliore la robustesse
des processus de modélisation automatique.
Remarque : Lorsque la préparation automatique des données prépare un champ pour l'analyse, elle crée
un nouveau champ contenant les ajustements ou les transformations, au lieu de remplacer les valeurs et
les propriétés existantes de l'ancien champ. L'ancien champ n'est pas utilisé pour l'analyse, son rôle est
défini sur Aucun. Veuillez aussi noter que toute information de valeur manquante de l'utilisateur n'est
pas transférée dans ces champs nouvellement créés, et que toutes les valeurs manquantes du nouveau
champ sont système manquantes.
Exemple. Une compagnie d'assurances disposant de ressources restreintes pour enquêter sur les
demandes de remboursement des propriétaires de biens immobiliers, souhaite construire un modèle pour
signaler des réclamations suspectes et potentiellement frauduleuses. Avant de construire le modèle, il est
Un groupe automobile suit les ventes de véhicules automobiles personnels divers. Afin d'être en mesure
d'identifier les modèles dont les ventes sont très satisfaisantes et ceux pour lesquels elles le sont moins,
des responsables du groupe souhaitent établir une relation entre les ventes de véhicules et les
caractéristiques des véhicules. Ils utilisent la préparation automatique des données pour cette analyse afin
de construire des modèles à l'aide des données " avant" et " après " la préparation et de pouvoir en
comparer les résultats.
La préparation automatique des données recommande des étapes de préparation de données qui
amélioreront la vitesse de création de modèles par les autres algorithmes et la capacité de prédiction de
ces modèles. Cela peut comprendre la transformation, la construction et la sélection de fonctions. La cible
peut également être transformée. Vous pouvez spécifier les priorités de création de modèle sur lesquelles
le processus de préparation des données doit se concentrer.
v Équilibrer la vitesse et la précision : Cette option prépare les données à accorder la même importance
à la vitesse à laquelle les données sont traitées par les algorithmes de création de modèle et à la
précision des prévisions.
v Optimiser la vitesse. Cette option prépare les données à accorder la priorité à la vitesse à laquelle les
données sont traitées par les algorithmes de création de modèle. Lorsque vous travaillez avec de très
grands jeux de données ou que vous recherchez une réponse rapide, sélectionnez cette option.
v Optimiser la précision. Cette option prépare les données à accorder la priorité à la précision des
prédictions produites par les algorithmes de création de modèle.
v Analyse personnalisée : Lorsque vous souhaitez modifier manuellement l'algorithme dans l'onglet
Paramètres, sélectionnez cette option. Veuillez noter que ce paramètre est automatiquement sélectionné
si vous modifiez ensuite des options dans l'onglet Paramètres qui ne sont pas compatibles avec l'un
des autres objectifs.
Pour plus d'informations sur les calculs effectués avec le noeud de préparation automatique des données,
voir la section Algorithmes de préparation automatique des données dans le manuel Guide des algorithmes
d'IBM SPSS Modeler. Ce guide est disponible sua format PDF sous le répertoire \Documentation du disque
d'installation, en téléchargement avec votre produit, ou sur le Web.
Onglet Champs
L'onglet Champs indique les champs à préparer pour une analyse ultérieure.
Utiliser des rôles prédéfinis : Cette option utilise des informations sur des champs existants. S'il n'existe
qu'un champ avec le rôle Cible, il sera utilisé comme cible ; dans le cas contraire, il n'y aura pas de cible.
Tous les champs avec un rôle prédéfini d'Entrée seront utilisés comme entrées. Au moins un champ
d'entrée est requis.
Utiliser des affectations de champ personnalisées : Lorsque vous remplacez des rôles de champs en les
déplaçant de leur listes par défaut, la boîte de dialogue sélectionne automatiquement cette option. Lors
des affectations personnalisées, spécifiez les champs suivants :
v Cible (facultative) : Si vous souhaitez créer des modèles nécessitant une cible, sélectionnez le champ
cible. Il s'agit de la même action que lorsque l'on définit le rôle du champ sur Cible.
v Entrées : Sélectionnez un ou plusieurs champs d'entrée. Il s'agit de la même action que lorsque l'on
définit le rôle du champ sur Entrée.
Onglet Paramètres
L'onglet Paramètres contient plusieurs groupes de paramètres différents que vous pouvez modifier pour
affiner le traitement des données par l'algorithme. Si vous modifiez les paramètres par défaut et que ces
modifications sont incompatibles avec les autres objectifs, l'onglet Objectif est automatiquement mis à jour
pour sélectionner l'option Personnaliser l'analyse.
Préparer les dates et les heures pour la modélisation : En désélectionnant cette option, vous désactivez
tous les autres contrôles Préparer les dates et les heures, tout en conservant les sélections.
Calculer la durée écoulée jusqu'à la date de référence : Cette option génère le nombre
d'années/mois/jours depuis une date de référence pour chaque variable qui contient des dates.
v Date de référence : Spécifiez la date à partir de laquelle la durée sera calculée en fonction des
informations sur la date dans les données d'entrée. Si vous sélectionnez la Date d'aujourd'hui, la date
du système actuelle est toujours utilisée lors de l'exécution de l'ADP. Pour utiliser une date spécifique,
sélectionnez Date fixe et saisissez la date désirée.
v Unités de la durée Date : Indiquez si l'ADP doit décider automatiquement de l'unité de la durée Date
ou choisissez dans les unités fixes des Années, Mois ou Jours.
Préparation des données 9
Calculer la durée écoulée jusqu'à l'heure de référence : Cette option génère le nombre
d'heures/minutes/secondes depuis une heure de référence pour chaque variable qui contient des heures.
v Heure de référence : Spécifiez l'heure à partir de laquelle la durée sera calculée en fonction des
informations sur l'heure dans les données d'entrée. Si vous sélectionnez Heure actuelle, cela signifie
que l'heure du système actuelle est toujours utilisée lorsque l'ADP est exécuté. Pour utiliser une heure
spécifique, sélectionnez Heure fixe et saisissez l'heure désirée.
v Unités de la durée Heure : Indiquez si l'ADP doit décider automatiquement de l'unité de la durée
Heure ou choisissez dans les unités fixes des Heures, Minutes ou Secondes.
Extraire les éléments de temps cycliques : Utilisez ces paramètres pour scinder un champ de date ou
d'heure en un ou plusieurs autres champs. Par exemple, si vous sélectionnez les trois cases de date, le
champ de date d'entrée "1954-05-23" est divisé en trois champs : 1954, 5 et 23, chacun utilisant le suffixe
défini dans le panneau Noms de champs et le champ de date d'origine est ignoré.
v Extraire des dates : Pour chaque entrée de date, spécifiez si vous souhaitez extraire des années, des
mois, des jours ou une des combinaisons possibles.
v Extraire des heures : Pour chaque entrée de date, spécifiez si vous souhaitez extraire des heures, des
minutes ou des secondes ou une des combinaisons possibles.
Exclure les champs d'entrée de mauvaise qualité : En désélectionnant cette option, vous désactivez tous
les autres contrôles Exclure les champs, tout en conservant les sélections.
Exclure les champs avec trop de valeurs manquantes : Les champs ayant plus que le pourcentage
spécifié de valeurs manquantes sont supprimés de l'analyse. Définissez une valeur supérieure ou égale à
0, ce qui revient à désélectionner cette option, et inférieure ou égale à 100, puisque les champs qui ne
contiennent que des valeurs manquantes sont exclus automatiquement. La valeur par défaut est 50.
Exclure les champs nominaux avec trop de catégories uniques : Les champs nominaux ayant plus que le
nombre spécifié de catégories sont supprimés de l'analyse. Spécifiez un nombre entier positif. La valeur
par défaut est 100. Cette option est utile pour supprimer automatiquement de la modélisation les champs
contenant des informations d'enregistrement unique, tels que l'ID, l'adresse ou le nom.
Exclure les champs catégoriels avec trop de valeurs dans une seule catégorie : Les champs ordinaux et
nominaux avec une catégorie contenant plus que le pourcentage spécifié d'enregistrements sont
supprimés de l'analyse. Définissez une valeur supérieure ou égale à 0, ce qui revient à désélectionner
cette option, et inférieure ou égale à 100, puisque les champs constants sont exclus automatiquement. La
valeur par défaut est 95.
Niveau de mesure : Indiquez si le niveau de mesure des champs continus avec "trop peu" de valeurs
peut être réglé sur ordinal et si les champs ordinaux avec "trop" de valeurs peuvent être réglés sur
continu.
v Le nombre maximum de valeurs pour les champs ordinaux : Les champs ordinaux ayant plus que le
nombre spécifié de catégories sont reconvertis en champs continus. Spécifiez un nombre entier positif.
La valeur par défaut est 10. Cette valeur doit être supérieure ou égale au nombre minimum de valeurs
pour les champs continus.
Traitement des valeurs extrêmes : Spécifier s'il faut remplacer les valeurs extrêmes des entrées et des
cibles. Si oui, spécifier un critère de limite des valeurs extrêmes, mesuré en écarts types et une méthode
de remplacement des valeurs extrêmes. Les valeurs extrêmes peuvent être remplacées soit en les
tronquant (définies sur la valeur de césure) ou en les définissant comme valeurs manquantes. Les valeurs
extrêmes définies comme valeurs manquantes suivent les paramètres de traitement des valeurs
manquantes sélectionnées ci-dessous.
Remplacer les valeurs manquantes : Spécifier s'il faut remplacer les valeurs manquantes des champs
continus, nominaux ou ordinaux.
Réorganiser les champs nominaux : Sélectionner cette option pour recoder les valeurs des champs
nominaux (ensemble) de la plus petite catégorie (la moins utilisée) à la plus grande (la plus utilisée). Les
valeurs des nouveaux champs démarrent à 0, 0 étant la catégorie la moins fréquente. Remarque : le
nouveau champ doit être numérique même si le champ d'origine est une chaîne. Par exemple, si les
valeurs d'un champ nominal sont "A", "A", "A", "B", "C", "C", la préparation automatique des données
recodent "B" en 0, "C" en 1, et "A" en 2.
Rééchelonnement de champs
Rééchelonner les champs : En désélectionnant cette option, vous désactivez tous les autres contrôles
Rééchelonner les champs, tout en conservant les sélections.
Pondération d'analyse : Cette variable contient des pondérations (de régression ou d'échantillon)
d'analyse. Les pondérations d'analyse sont utilisées pour représenter les différences de variance dans les
niveaux du champ cible. Sélectionnez un champ continu.
Champs d'entrée continus : Cela normalisera les champs d'entrée continus avec une transformation en
score z ou une transformation min/max. Le rééchelonnement des entrées est particulièrement utile
lorsque vous sélectionnez l'option Exécuter la construction des fonctions dans les paramètres
Sélectionner et Construire.
v Transformation en score z : Avec la moyenne et l'écart type observés utilisés comme estimations des
paramètres de population, les champs sont standardisés puis les scores z sont mappés aux valeurs
correspondantes d'une distribution normale avec la moyenne finale et l'écart type final spécifiés.
Spécifiez un nombre pour la moyenne finale et un nombre positif pour l'écart type final. Les valeurs
par défaut sont 0 et 1 respectivement, ce qui correspond au rééchelonnement standardisé.
v Transformation min/max : Avec la transformation minimum et maximum observée qui est utilisée
comme estimations des paramètres de population, les champs sont mappés aux valeurs
correspondantes d'une distribution uniforme avec la transformation Minimum et Maximum spécifiée.
Spécifiez les nombres avec la transformation Maximum supérieure à la transformation Minimum.
Cible continue : Transforme une cible continue utilisant la transformation de Box-Cox en un champ
ayant une distribution à peu près normale avec la moyenne finale et l'écart type final spécifiés. Spécifiez
un nombre pour la moyenne finale et un nombre positif pour l'écart type final. Les valeurs par défaut
sont 0 et 1 respectivement.
Remarque : Si une cible a été transformée par l'ADP, les modèles en résultant créés à l'aide de la cible
transformée évaluent les unités transformées. Afin d'interpréter et d'utiliser les résultats, vous devez
Transformer le champ pour la modélisation : En désélectionnant cette option, vous désactivez tous les
autres contrôles Transformer les champs, tout en conservant les sélections.
Champs d'entrée continus : Si le jeu de données comprend une cible catégorielle, vous pouvez regrouper
les entrées continues ayant de fortes associations pour améliorer les performances du traitement. Les
casiers sont créés en fonction des propriétés des "sous-ensembles homogènes" qui sont identifiés avec la
méthode de Scheffé qui utilise la valeur de p comme valeur alpha de la valeur critique pour déterminer
les sous-ensembles homogènes. Définissez une valeur supérieure à 0 et inférieure ou égale à 1. La valeur
par défaut est 0,05. Si l'opération de regroupement génère un regroupement unique pour un champ
spécifique, les versions d'origine et regroupées du champ sont exclues car elles n'ont pas de valeur de
prédicteur.
Remarque : Le regroupement dans l'ADP est différent du regroupement optimal. Le regroupement optimal
utilise des informations d'entropie pour convertir un champ continu en un champ catégoriel ; il doit trier
les données et les stocker dans la mémoire. L'ADP utilise des sous-ensembles homogènes pour regrouper
un champ continu. Cela signifie que le regroupement ADP n'a pas besoin de trier les données et ne
stocke pas toutes les données dans une mémoire. L'utilisation de la méthode des sous-ensembles
homogènes pour regrouper un champ continu signifie que le nombre de catégories après le regroupement
est toujours inférieur ou égal au nombre de catégories dans la cible.
Sélection et construction
Pour améliorer le pouvoir prédictif de vos données, vous pouvez construire de nouveaux champs basés
sur les champs existants.
Exécuter la sélection des fonctions : Une entrée continue est supprimée de l'analyse si la valeur de p
pour sa corrélation avec la cible est supérieure à la valeur de p spécifiée.
Exécuter la construction des fonctions : Sélectionnez cette option pour dériver de nouvelles fonctions
d'une combinaison de plusieurs fonctions existantes. Les anciennes fonctions ne sont pas utilisées dans
l'analyse ultérieure. Cette option s'applique uniquement aux fonctions d'entrée continues où la cible est
continue ou lorsqu'il n'y a pas de cible.
Champs transformés et construits : Spécifiez les extensions de nom à appliquer aux champs cibles et
d'entrées transformés.
En outre, spécifiez le nom du préfixe à appliquer aux fonctions construites à l'aide des paramètres
Sélectionner et Construire. Le nouveau nom est créé en ajoutant un suffixe numérique à ce nom de racine
du préfixe. Le format du nombre dépend du nombre de nouvelles fonctions dérivées, par exemple :
v si 1 à 9 fonctions sont construites, elles seront nommées : fonction1 à fonction9.
v si 10 à 99 fonctions sont construites, elles seront nommées : fonction01 à fonction 99.
v si 100 à 999 fonctions sont construites, elles seront nommées : fonction001 à fonction999, etc.
Cela permet que les fonctions construites soient triées dans un ordre cohérent quel que soit leur nombre.
Durée calculée à partir des dates et des heures : Spécifiez les extensions de nom à appliquer aux durées
calculées à partir des dates et des heures.
Éléments cycliques extraits de dates et des heures : Spécifiez les extensions de nom à appliquer aux
éléments cycliques extraits des dates et des heures.
Le groupe des données transformées est le même que celui de la préparation interactive des données. Les
options supplémentaires suivantes sont disponibles pour la préparation automatique des données :
Appliquer les transformations. Dans les boîtes de dialogue de la Préparation automatique des données,
désélectionner cette option revient à désactiver tous les autres contrôles Appliquer et Enregistrer, tout en
conservant les sélections.
Enregistrer les transformations comme syntaxe. Cette option enregistre les transformations
recommandées comme syntaxe de commande dans un fichier externe. La boîte de dialogue Préparation
Enregistrer les transformations comme XML. Cette option enregistre les transformations recommandées
au format XML dans un fichier externe, qui peut être fusionné avec le modèle PMML à l'aide de la
commande TMS MERGE ou appliqué à un autre jeu de données à l'aide de la commande TMS IMPORT. La
boîte de dialogue Préparation interactive des données ne contient pas ce contrôle car elle enregistrera les
transformations au format XML si vous cliquez sur Enregistrer XML dans la barre d'outils au-dessus de
la boîte de dialogue.
Onglet Analyse
Remarque : L'onglet Analyse est utilisé dans la boîte de dialogue Préparation interactive des données pour
vous permettre de passer en revue les transformations. La boîte de dialogue de préparation automatique
des données ne comprend pas cette étape.
1. Lorsque les paramètres d'ADP vous conviennent, y compris les modifications effectuées dans les
onglets Objectif, Champs et Paramètres, cliquez sur Analyser les données. L'algorithme applique les
paramètres aux entrées de données et affiche les résultats dans l'onglet Analyse.
L'onglet Analyse contient à la fois des sorties en tableaux et des sorties graphiques qui résument le
traitement de vos données et affichent les recommandations sur la façon de modifier ou d'améliorer les
données pour l'évaluation. Vous pouvez ensuite revoir puis accepter ou refuser ces recommandations.
L'onglet Analyse est composé de deux panneaux, la vue principale à gauche et la vue liée, ou auxiliaire, à
droite. Il existe trois vues principales :
v Récapitulatif de traitement des champs (par défaut). Pour plus d'informations, voir «Récapitulatif de
traitement des champs».
v Champs. Pour plus d'informations, voir «Champs», à la page 15.
v Récapitulatif des actions. Pour plus d'informations, voir «Récapitulatif des actions», à la page 16.
Dans la vue principale, le texte souligné dans les tableaux contrôle ce qui apparaît dans la vue liée. Si
vous cliquez sur ces parties de texte, vous obtenez des détails sur un champ, un ensemble de champs ou
une étape de traitement spécifique. Le lien que vous avez sélectionné en dernier apparaît en une couleur
plus foncée qui permet d'identifier la connexion entre les contenus des deux panneaux de la vue.
Pour afficher de nouveau les recommandations d'analyse d'origine et abandonner les modifications
effectuées sur les vues Analyse, cliquez sur Réinitialiser au bas du panneau de la vue principale.
Lorsque des informations sur les champs sont soulignées, cliquez pour afficher plus de détails dans une
vue liée. Les détails de la Cible, des Fonctions d'entrée, et des Fonctions d'entrée non utilisées
apparaissent dans la vue liée Tableau des champs. Pour plus d'informations, voir «Tableau des champs»,
à la page 17. L'option Fonctions recommandées pour l'analyse s'affiche dans la vue liée Pouvoir
prédictif. Pour plus d'informations, voir «Pouvoir prédictif», à la page 16.
Champs
La vue principale Champs affiche les champs traités et si l'ADP recommande de les utiliser dans les
modèles en aval. Vous pouvez ignorer les recommandations pour n'importe quel champ ; par exemple,
exclure les fonctions construites ou inclure les fonctions que l'ADP recommande d'exclure. Si un champ a
été transformé, vous pouvez décider d'accepter ou non la transformation suggérée ou d'utiliser ou non la
version d'origine.
La vue Champs est composée de deux tableaux, un pour la cible et un pour les prédicteurs qui ont été
traités ou créés.
Tableau Cible
Le tableau Cible n'apparaît que si une cible est définie dans les données.
Le tableau Prédicteurs est affiché en permanence. Chaque ligne du tableau représente un champ. Les
lignes sont triées par défaut dans l'ordre décroissant du pouvoir prédictif.
Pour les fonctions ordinaires, le nom d'origine est toujours utilisé comme nom de ligne. Les versions
d'origine et dérivée des champs date/heure apparaissent dans le tableau (dans des lignes séparées) ; le
tableau contient également les prédicteurs construits.
Par défaut, seuls les champs recommandés sont affichés dans le tableau des prédicteurs. Pour afficher les
champs restants, sélectionnez la boîte de dialogue Inclure les champs non recommandés dans le tableau
au-dessus du tableau ; ces champs sont ensuite affichés au bas du tableau.
Le Récapitulatif des actions est un simple tableau qui répertorie les actions effectuées par l'ADP.
Lorsqu'une Action est soulignée, vous pouvez cliquer dessus pour afficher plus de détails sur les actions
effectuées dans une vue liée. Pour plus d'informations, voir «Détails des actions», à la page 18.
Remarque : Seules les versions d'origine et transformées finales de chaque champ sont affichées, et pas les
versions intermédiaires utilisées pendant l'analyse.
Pouvoir prédictif
Affiché par défaut au début de l'analyse ou lorsque vous sélectionnez Prédicteurs recommandés pour
l'analyse dans la vue principale Récapitulatif du traitement des champs, le graphique affiche le pouvoir
prédictif des prédicteurs recommandés. Les champs sont triés par pouvoir prédictif, avec le champ ayant
la plus haute valeur apparaissant en premier.
Pour les versions transformées des prédicteurs ordinaires, le nom des champs reflète votre choix de
suffixe dans le panneau Noms de champ de l'onglet Paramètres ; par exemple : _transformed.
Les icônes de niveau de mesure sont affichées après les noms de champ individuels.
Pour chaque ensemble de graphiques, deux versions apparaissent côte à côte pour comparer le champ
avec et sans transformations appliquées ; si aucune version transformée du champ n'existe, un graphique
apparaît pour la version d'origine uniquement. Pour les champs de date ou d'heure dérivés et les
prédicteurs construits, les graphiques n'apparaissent que pour le nouveau prédicteur.
Remarque : Si un champ est exclu parce qu'il contient trop de catégories, seul l'historique de traitement
apparaît.
Graphique de distribution
La distribution des champs continus apparaît dans un histogramme, avec une courbe normale superposée
et une ligne de référence verticale pour la valeur moyenne ; les champs catégoriels apparaissent sous
forme de graphique à barres.
Les histogrammes sont libellés pour montrer l'écart type et l'asymétrie, toutefois l'asymétrie n'apparaît
pas si le nombre des valeurs est inférieur ou égal à 2 ou si la variance du champ d'origine est inférieure à
10-20.
Passez la souris sur le graphique pour afficher la moyenne des histogrammes ou le nombre et le
pourcentage du nombre total d'enregistrements des catégories dans les graphiques à barres.
Les graphiques circulaires comparent le pourcentage des valeurs manquantes avec et sans transformations
appliquées ; les libellés de graphique indiquent le pourcentage.
Si l'ADP traite les valeurs manquantes, le graphique circulaire après la transformation comprend la valeur
de remplacement comme libellé, c'est-à-dire la valeur utilisée à la place des valeurs manquantes.
Pour les champs recommandés, les graphiques à barres affichent le pouvoir prédictif avant et après la
transformation. Si la cible a été transformée, le pouvoir prédictif calculé tient compte de la cible
transformée.
Remarque : Les graphiques de pouvoir prédictif ne sont pas affichés si aucune cible n'est définie, ou si la
cible est atteinte depuis le panneau de la vue principale.
Ce tableau indique la façon dont la version transformée d'un champ a été dérivée. Les actions entreprises
par l'ADP sont répertoriées dans l'ordre dans lequel elles ont été exécutées ; mais, pour certaines étapes,
plusieurs actions ont pu être exécutées pour un champ particulier.
Remarque : Ce tableau n'apparaît pas pour les champs qui n'ont pas été transformés.
La description de chaque action est utilisée comme titre en haut de la vue liée. Les détails relatifs à
chaque action sont affichés sous le titre, et peuvent contenir des détails sur le nombre de prédicteurs
dérivés, de champs reconvertis, de transformations de cible, de catégories fusionnées ou réorganisées et
de prédicteurs construits ou exclus.
Au cours du traitement des actions, le nombre de prédicteurs utilisés pour le traitement peut varier, par
exemple lorsque des prédicteurs sont exclus ou fusionnés.
Remarque : Si une action est désactivée ou qu'aucune cible n'est spécifiée, un message d'erreur apparaît à
la place des détails de l'action lorsque vous cliquez sur l'action dans la vue principale Récapitulatif des
actions.
Il existe neuf actions possibles, toutefois, toutes ne sont pas nécessairement actives pour chaque analyse.
La date ou heure de référence est affichée comme note de bas de page si des durées de date ont été
calculées.
Ce tableau affiche le nombre de champs reconvertis, répartis selon les catégories suivantes :
v Champs ordinaux (ensembles ordonnés) reconvertis en champs continus.
v Champs continus reconvertis en champs ordinaux.
v Nombre total des champs reconvertis.
Si aucun champ d'entrée (cible ou de prédicteurs) n'est un ensemble continu ou ordinal, cela apparaît en
note de bas de page.
Une note de bas de page indique la valeur de césure des valeurs extrêmes et une autre note de bas de
page apparaît si aucun champ d'entrée (cible ou de prédicteurs) n'est continu.
Ce tableau affiche le nombre de champs qui contenaient des valeurs manquantes remplacées, selon les
catégories suivantes :
v Cible. Cette ligne n'apparaît pas si aucune cible n'est spécifiée.
v Prédicteurs. Elles sont divisées en nombre de champs nominaux (ensemble), ordinaux (ensemble
ordonné) et continus.
v Le nombre total de valeurs manquantes remplacées.
Tableau Cible
Le deuxième tableau affiche les détails de construction de l'espace des prédicteurs, sous la forme du
nombre de prédicteurs :
v construites.
v exclues en raison d'une faible association avec la cible.
v exclues parce qu'elles étaient constantes après le regroupement.
v exclues parce qu'elles étaient constantes après la construction.
Une note de bas de page apparaît si aucun prédicteur continu n'a été saisi.
Exemple : Un analyste de données employé pour construire des modèles capables de prédire les résultats
obtenus suite au traitement d'attaques cardiaques cherche des données de qualité, car de tels modèles
sont sensibles aux observations inhabituelles. Certaines de ces observations éloignées sont des
observations tout à fait uniques et s'avèrent donc inexploitables en matière de prédiction, alors que
d'autres sont dues à des erreurs de saisie de données dans lesquelles les valeurs sont techniquement
« correctes » sans pouvoir toutefois être prises en compte par les procédures de validation de données.
La procédure d'identification des observations inhabituelles sert à identifier ces valeurs extrêmes et à en
dresser la liste afin que l'analyste puisse décider de la manière de les traiter.
Statistiques : La procédure génère des groupes d'homologues, des normes de groupes d'homologues
pour des variables continues et catégorielles, des indices d'anomalies basés sur les écarts par rapport aux
normes de groupes d'homologues, ainsi que des valeurs d'impact de variables pour les variables
contribuant le plus à une observation considérée comme inhabituelle.
Données : Cette procédure fonctionne avec des variables continues et catégorielles. Chaque ligne
représente une observation distincte tandis que chaque colonne représente une variable différente sur
laquelle les groupes d'homologues sont basés. Une variable d'identification d'observations est disponible
dans le fichier de données pour marquer les sorties, mais elle ne sera pas utilisée dans l'analyse. Les
valeurs manquantes sont autorisées. La variable de pondération est ignorée, si indiquée auparavant.
Le modèle de détection peut être appliqué à un nouveau fichier de données de test. Les éléments des
données du test doivent être identiques aux éléments contenus dans les données de formation. Et, en
fonction des paramètres d'algorithme, le traitement de la valeur manquante utilisé pour créer le modèle
doit être appliqué au fichier de données de test avant d'effectuer une évaluation.
Tri par observation : Notez que la solution peut dépendre de l'ordre des observations. Pour réduire les
effets de tri, classez les observations de manière aléatoire. Pour vérifier la stabilité d'une solution donnée,
vous pouvez obtenir différentes solutions dans lesquelles les observations sont triées de différentes
manières aléatoires. Si les fichiers sont très volumineux, vous pouvez effectuer plusieurs fois l'opération
sur un échantillon des observations triées de différentes manières aléatoires.
Hypothèses : L'algorithme suppose que toutes les variables sont non constantes et indépendantes, et
qu'aucune observation ne possède de valeur manquante pour les variables d'entrée. Chaque variable
continue est considérée comme ayant une distribution normale (gaussienne) et chaque variable
catégorielle comme ayant une distribution multinomiale. Des tests internes empiriques indiquent que la
procédure est assez résistante aux violations de l'hypothèse d'indépendance et des hypothèses de
distribution, mais vous devez savoir comment ces hypothèses sont vérifiées.
L'alerte du niveau de mesure apparaît lorsque le niveau de mesure d'une ou plusieurs variables (champs)
du jeu de données est inconnu. Le niveau de mesure ayant une incidence sur le calcul des résultats de
cette procédure, toutes les variables doivent avoir un niveau de mesure défini.
Analyser les données : Lit les données dans le jeu de données actifs et attribue le niveau de mesure par
défaut à tous les champs ayant un niveau de mesure inconnu. Si le jeu de données est important, cette
action peut prendre un certain temps.
Affecter manuellement : Ouvre une boîte de dialogue qui répertorie tous les champs ayant un niveau de
mesure inconnu. Vous pouvez utiliser cette boîte de dialogue pour attribuer un niveau de mesure à ces
champs. Vous pouvez également attribuer un niveau de mesure dans la vue de variable de l'éditeur de
données.
Le niveau de mesure étant important pour cette procédure, vous ne pouvez pas accéder à la boîte de
dialogue d'exécution de cette procédure avant que tous les champs n'aient des niveaux de mesure définis.
Tous les tableaux sont triés par index d'anomalie en ordre décroissant. De plus, les ID des observations
ne sont affichés que si la variable d'identificateur de l'observation est indiquée dans l'onglet Variables.
Exporter un fichier de modèle : Cette option vous permet d'enregistrer le modèle au format XML.
Remarque : En fonction de la variance de vos données, il peut arriver que le nombre de groupes
d'homologues pris en charge par les données soit inférieur au nombre spécifié comme valeur minimum.
Dans une telle situation; la procédure risque d'engendrer un nombre de groupes d'homologues plus petit.
Nombre maximum de raisons : Une raison est constituée de la mesure de l'impact d'une variable, du
nom de la variable pour cette raison, de la valeur de la variable et de la valeur du groupe d'homologues
correspondant. Spécifiez un nombre entier non-négatif. Si cette valeur égale ou dépasse le nombre de
variables traitées qui sont ensuite utilisées dans l'analyse, les variables sont alors affichées.
Reportez-vous au manuel Command Syntax Reference pour plus d'informations sur la syntaxe.
Exemples : La réduction du nombre de valeurs distinctes que prend une variable a un certain nombre
d'utilisations :
v Les données requises d'autres procédures. Les variables discrétisées peuvent être traitées comme
catégorielles lors d'une utilisation dans des procédures faisant appel à ce type de variable. Par exemple,
la procédure Tableaux croisés nécessite que toutes les variables soient catégorielles.
v Confidentialité des données. Signaler des valeurs regroupées par casiers au lieu des valeurs réelles aide
à protéger la confidentialité de vos sources de données. La procédure Regroupement optimal peut
guider le choix des casiers.
v Performances en matière de vitesse. Certaines procédures sont plus efficaces lorsque vous travaillez
avec un nombre réduit de valeurs distinctes. Par exemple, la vitesse de la régression logistique
multinomiale peut être améliorée grâce à l'utilisation de variables discrétisées.
v Révélation de la séparation complète ou quasi complète des données.
Recodage supervisé optimal et regroupement visuel : Les boîtes de dialogue Regroupement visuel
proposent plusieurs méthodes automatiques de création de casiers sans utiliser de variable guide. Ces
règles "non supervisées" sont utiles pour générer des statistiques descriptives, telles que des tables de
fréquences, mais le recodage supervisé optimal donne de meilleurs résultats si votre objectif final est de
générer un modèle de prévision.
Sortie : La procédure génère des tableaux de divisions pour les casiers et les statistiques descriptives de
chaque variable d'entrée de regroupement. En outre, vous pouvez enregistrer de nouvelles variables dans
le jeu de données actif contenant les valeurs regroupées par casiers des variables d'entrée de
regroupement et enregistrer les règles de regroupement comme syntaxe de commande pour les utiliser
dans la discrétisation de nouvelles données.
Données : Cette procédure exige que les variables d'entrée de regroupement soient des variables d'échelle
numériques. La variable guide doit être catégorielle et peut être chaîne ou numérique.
Les variables contenant les valeurs des données regroupées par casiers ne sont pas générées par défaut.
Utilisez l'onglet Enregistrer pour enregistrer ces variables.
Enregistrer les règles de regroupement en tant que syntaxe : Génère une syntaxe de commande qui peut
être utilisée pour regrouper d'autres jeux de données par casiers. Les règles de recodage sont basées sur
les divisions déterminées par l'algorithme de regroupement par casiers.
Casiers faiblement remplis : La procédure génère parfois des casiers avec très peu d'observations. La
stratégie suivante supprime ces pseudo-divisions :
Pour une variable donnée, supposons que l'algorithme ait trouvé n divisions finales et donc n+1 casiers
finaux. Pour les casiers i = 2, ..., n final (compris entre le deuxième casier avec la plus faible valeur et le
deuxième casier avec la valeur la plus élevée), calculez
Lorsque cette valeur est inférieure au seuil de fusion spécifié, b i est considéré comme faiblement peuplé
et fusionné avec b i-1 ou b i+1, en fonction de la valeur possédant la plus faible entropie d'informations de
classe.
Points finaux des casiers : Cette option indique comment la limite inférieure d'un intervalle est définie.
Puisque la procédure détermine automatiquement les valeurs des divisions, il s'agit surtout d'une
question de préférence.
Premier casier (le moins élevé)/Dernier casier (le plus élevé) : Ces options spécifient comment les
divisions minimal et maximal de chaque variable d'entrée de regroupement sont définis. Généralement, la
procédure suppose que les variables d'entrée de regroupement peuvent prendre n'importe quelle valeur
sur la ligne des nombres réels, mais si vous avez une raison théorique ou pratique de limiter la plage,
vous pouvez le faire sur la base des valeurs les plus faibles/les plus élevées.
Reportez-vous au manuel Command Syntax Reference pour plus d'informations sur la syntaxe.
Le présent document peut contenir des informations ou des références concernant certains produits,
logiciels ou services IBM non annoncés dans ce pays. Pour plus de détails, référez-vous aux documents
d'annonce disponibles dans votre pays, ou adressez-vous à votre partenaire commercial IBM. Toute
référence à un produit, logiciel ou service IBM n'implique pas que seul ce produit, logiciel ou service
puisse être utilisé. Tout autre élément fonctionnellement équivalent peut être utilisé, s'il n'enfreint aucun
droit d'IBM. Il est de la responsabilité de l'utilisateur d'évaluer et de vérifier lui-même les installations et
applications réalisées avec des produits, logiciels ou services non expressément référencés par IBM.
IBM peut détenir des brevets ou des demandes de brevet couvrant les produits mentionnés dans le
présent document. La remise de ce document ne vous donne aucun droit de licence sur ces brevets ou
demandes de brevet. Si vous désirez recevoir des informations concernant l'acquisition de licences,
veuillez en faire la demande par écrit à l'adresse suivante :
Les informations sur les licences concernant les produits utilisant un jeu de caractères double octet
peuvent être obtenues par écrit à l'adresse suivante :
Le présent document peut contenir des inexactitudes ou des coquilles. Ce document est mis à jour
périodiquement. Chaque nouvelle édition inclut les mises à jour. IBM peut, à tout moment et sans
préavis, modifier les produits et logiciels décrits dans ce document.
27
Les références à des sites Web non IBM sont fournies à titre d'information uniquement et n'impliquent en
aucun cas une adhésion aux données qu'ils contiennent. Les éléments figurant sur ces sites Web ne font
pas partie des éléments du présent produit IBM et l'utilisation de ces sites relève de votre seule
responsabilité.
IBM pourra utiliser ou diffuser, de toute manière qu'elle jugera appropriée et sans aucune obligation de
sa part, tout ou partie des informations qui lui seront fournies.
Les licenciés souhaitant obtenir des informations permettant : (i) l'échange des données entre des logiciels
créés de façon indépendante et d'autres logiciels (dont celui-ci), et (ii) l'utilisation mutuelle des données
ainsi échangées, doivent adresser leur demande à :
Ces informations peuvent être soumises à des conditions particulières, prévoyant notamment le paiement
d'une redevance.
Le logiciel sous licence décrit dans ce document et tous les éléments sous licence disponibles s'y
rapportant sont fournis par IBM conformément aux dispositions du Livret Contractuel IBM, des
Conditions Internationales d'Utilisation de Logiciels IBM, des Conditions d'Utilisation du Code Machine
ou de tout autre contrat équivalent.
Les données de performances et les exemples de clients sont fournis à titre d'exemple uniquement. Les
performances réelles peuvent varier en fonction des configurations et des conditions d'exploitation
spécifiques.
Les informations concernant des produits non IBM ont été obtenues auprès des fournisseurs de ces
produits, par l'intermédiaire d'annonces publiques ou via d'autres sources disponibles. IBM n'a pas testé
ces produits et ne peut confirmer l'exactitude de leurs performances ni leur compatibilité. Elle ne peut
recevoir aucune réclamation concernant des produits non IBM. Toute question concernant les
performances de produits non IBM doit être adressée aux fournisseurs de ces produits.
Toute instruction relative aux intentions d'IBM pour ses opérations à venir est susceptible d'être modifiée
ou annulée sans préavis, et doit être considérée uniquement comme un objectif.
Le présent document peut contenir des exemples de données et de rapports utilisés couramment dans
l'environnement professionnel. Ces exemples mentionnent des noms fictifs de personnes, de sociétés, de
marques ou de produits à des fins illustratives ou explicatives uniquement. Toute ressemblance avec des
noms de personnes, de sociétés ou des données réelles serait purement fortuite.
LICENCE DE COPYRIGHT :
Le présent logiciel contient des exemples de programmes d'application en langage source destinés à
illustrer les techniques de programmation sur différentes plateformes d'exploitation. Vous avez le droit de
copier, de modifier et de distribuer ces exemples de programmes sous quelque forme que ce soit et sans
paiement d'aucune redevance à IBM, à des fins de développement, d'utilisation, de vente ou de
distribution de programmes d'application conformes aux interfaces de programmation des plateformes
pour lesquels ils ont été écrits ou aux interfaces de programmation IBM. Ces exemples de programmes
n'ont pas été rigoureusement testés dans toutes les conditions. Par conséquent, IBM ne peut garantir
expressément ou implicitement la fiabilité, la maintenabilité ou le fonctionnement de ces programmes. Les
exemples de programmes sont fournis "EN L'ETAT", sans garantie d'aucune sorte. IBM ne sera en aucun
cas responsable des dommages liés à l'utilisation des exemples de programmes.
© (nom de votre société) (année). Des segments de code sont dérivés des Programmes exemples d'IBM
Corp.
© Copyright IBM Corp. _entrez l'année ou les années_. Tous droits réservés.
Marques
IBM, le logo IBM et ibm.com sont des marques d'International Business Machines Corp. dans de
nombreux pays. Les autres noms de produits et de services peuvent être des marques d'IBM ou d'autres
sociétés. La liste actualisée de toutes les marques d'IBM est disponible sur la page Web "Copyright and
trademark information" à l'adresse www.ibm.com/legal/copytrade.shtml.
Adobe, le logo Adobe, PostScript et le logo PostScript sont des marques d'Adobe Systems Incorporated
aux Etats-Unis et/ou dans certains autres pays.
Intel, le logo Intel, Intel Inside, le logo Intel Inside, Intel Centrino, le logo Intel Centrino, Celeron, Intel
Xeon, Intel SpeedStep, Itanium et Pentium sont des marques d'Intel Corporation ou de ses filiales aux
Etats-Unis et/ou dans certains autres pays.
Linux est une marque de Linus Torvalds aux Etats-Unis et/ou dans certains autres pays.
Microsoft, Windows, Windows NT et le logo Windows sont des marques de Microsoft Corporation aux
Etats-Unis et/ou dans certains autres pays.
UNIX est une marque enregistrée de The Open Group aux Etats-Unis et/ou dans certains autres pays.
Java ainsi que toutes les marques et tous les logos incluant Java sont des marques d'Oracle et/ou de ses
sociétés affiliées.
Remarques 29
30 IBM SPSS Data Preparation 25
Index
C O règles de validation de variable croisée
dans Définir des règles de
calcul des durées observations vides validation 3
préparation automatique des dans Valider des données 7 dans Valider des données 6
données 9 règles de validation de variable unique
calculer les durées dans Définir des règles de
préparation automatique des
données 9
P validation 2
points finaux des casiers dans Valider des données 6
Construction des fonctions
Recodage supervisé optimal 25
dans la préparation automatique des
pondération d'analyse
données 12
dans la préparation automatique des S
données 11 sélection des fonctions
pré-regroupement
D Recodage supervisé optimal 25
dans la préparation automatique des
données 12
Définition des règles de validation 2 préparation automatique des données
règles de variable croisée 3 améliorer la qualité des données 11
règles de variable unique 2 analyse des champs 15
appliquer les transformations 13 T
champs 9 Transformation de Box-Cox
E Construction des fonctions 12
détails des actions 18
dans la préparation automatique des
données 11
éléments de temps cycliques
détails des champs 17
préparation automatique des
exclure les champs 10
données 9
liens entre les vues 14 V
nommer les champs 13 valeurs manquantes
normaliser la cible continue 11
G objectifs 7
dans Identification des observations
inhabituelles 23
groupes d'homologues pouvoir prédictif 16 validation des données
dans Identification des observations préparer les dates et les heures 9 dans Valider des données 4
inhabituelles 22, 23 récapitulatif de traitement des Validation des données 4
champs 14 enregistrement de variables 7
récapitulatif des actions 16 règles de variable croisée 6
I rééchelonner les champs 11
régler le niveau de mesure 10
règles de variable unique 6
identificateurs d'observations dupliqués sortie 6
réinitialiser les vues 14 vérifications de base 5
dans Valider des données 7
rétablissement des scores 20 violations d'une règle de validation
identificateurs d'observations incomplets
sélection des fonctions 12 dans Valider des données 7
dans Valider des données 7
tableau des champs 17 violations de règles de validation
Identification des observations
transformer les champs 12 dans Valider des données 7
inhabituelles 21
vue du modèle 14 vue du modèle
enregistrement de variables 23
Préparation automatique des données 7 dans la préparation automatique des
exporter le fichier de modèle 23
Préparation interactive des données 7 données 14
Options 23
sortie 22
valeurs manquantes 23
indices d'anomalies R
dans Identification des observations raisons
inhabituelles 22, 23 dans Identification des observations
inhabituelles 22, 23
recodage non supervisé
M recodage supervisé 24
recodage supervisé
MDLP
recodage non supervisé 24
Recodage supervisé optimal 24
Recodage supervisé optimal 24
Recodage supervisé optimal 24
enregistrement 25
N Options 25
normaliser la cible continue 11 sortie 25
valeurs manquantes 25
règles de regroupement
Recodage supervisé optimal 25
règles de validation 1
31
32 IBM SPSS Data Preparation 25
IBM®