IBM SPSS Statistics Base 24
IBM SPSS Statistics Base 24
IBM SPSS Statistics Base 24
IBM
Nota
Antes de utilizar esta informacin y el producto al que da soporte, lea la informacin que se incluye en el apartado
Avisos en la pgina 211.
Informacin de producto
Esta edicin se aplica a la versin 24, release 0, modificacin 0 de IBM SPSS Statistics y a todas las versiones y
modificaciones posteriores hasta que se indique lo contrario en nuevas ediciones.
Contenido
Captulo 1. Libro de cdigos . . . . . . 1 Prueba T para una muestra: Opciones . . . . 36
Pestaa Resultados de libro de cdigos . . . . . 1 Caractersticas adicionales del comando T-TEST 36
Pestaa Estadsticos del libro de cdigos . . . . . 4 Caractersticas adicionales del comando T-TEST . . 36
iii
Preparacin automtica de datos . . . . . . . 65 Resumen de error . . . . . . . . . . . 95
Importancia de predictor . . . . . . . . . . 65
Predicho por observado . . . . . . . . . . 65 Captulo 21. Anlisis discriminante . . 97
Residuos . . . . . . . . . . . . . . . 65 Anlisis discriminante: Definir rango . . . . . . 98
Valores atpicos . . . . . . . . . . . . . 66 Anlisis discriminante: Seleccionar casos. . . . . 98
Efectos . . . . . . . . . . . . . . . . 66 Anlisis discriminante: Estadsticos . . . . . . 98
Coeficientes . . . . . . . . . . . . . . 66 Anlisis discriminante: Mtodo de inclusin por
Medias estimadas . . . . . . . . . . . . 67 pasos . . . . . . . . . . . . . . . . 99
Resumen de generacin de modelos . . . . . . 67 Anlisis discriminante: Clasificar . . . . . . . 100
Anlisis discriminante: Guardar . . . . . . . 100
Captulo 16. Regresin lineal . . . . . 69 Caractersticas adicionales del comando
Mtodos de seleccin de variables en el anlisis de DISCRIMINANT . . . . . . . . . . . . 101
regresin lineal . . . . . . . . . . . . . 70
Regresin lineal: Establecer regla . . . . . . . 71 Captulo 22. Anlisis factorial . . . . 103
Regresin lineal: Grficos . . . . . . . . . . 71 Seleccin de casos en el anlisis factorial . . . . 104
Regresin lineal: almacenamiento de variables Anlisis factorial: Descriptivos. . . . . . . . 104
nuevas . . . . . . . . . . . . . . . . 71 Anlisis factorial: Extraccin . . . . . . . . 104
Regresin lineal: Estadsticos . . . . . . . . 73 Anlisis factorial: Rotacin . . . . . . . . . 105
Regresin lineal: Opciones . . . . . . . . . 74 Anlisis factorial: Puntuaciones factoriales . . . . 106
Caractersticas adicionales del comando Anlisis factorial: Opciones . . . . . . . . . 106
REGRESSION . . . . . . . . . . . . . 74 Caractersticas adicionales del comando FACTOR 106
Contenido v
Datos y asociacin de mapas . . . . . . . 202 Agregacin . . . . . . . . . . . . . 208
Validar claves . . . . . . . . . . . . 202 Resultado . . . . . . . . . . . . . 208
Reglas asociacin geoespacial . . . . . . . . 202 Opciones de modelo . . . . . . . . . . 209
Definir campos de datos de eventos . . . . . 203 Guardar . . . . . . . . . . . . . . 209
Seleccionar campos . . . . . . . . . . 203 Avanzado . . . . . . . . . . . . . 210
Resultado . . . . . . . . . . . . . 203 Finalizar . . . . . . . . . . . . . . . 210
Guardar . . . . . . . . . . . . . . 204
Creacin de reglas . . . . . . . . . . . 205 Avisos . . . . . . . . . . . . . . 211
Agrupacin y agregacin . . . . . . . . 206 Marcas comerciales . . . . . . . . . . . 213
Prediccin temporal espacial . . . . . . . . 206
Seleccionar campos . . . . . . . . . . 207
ndice. . . . . . . . . . . . . . . 215
Intervalos de tiempo . . . . . . . . . . 207
Nota: el libro de cdigos ignora el estado del archivo segmentado. Esto incluye los grupos de archivos
segmentados para imputaciones mltiples de valores perdidos (disponible en la opcin adicional Valores
perdidos).
Si lo desea, puede:
v Controlar la informacin de variable que aparece.
v Controlar los estadsticos que aparecen (o excluir todos los estadsticos de resumen).
v Controlar el orden en que aparecen las variables y los conjuntos de respuestas mltiples.
v Cambiar el nivel de medicin de cualquier variable en la lista de origen para modificar los estadsticos
de resumen que aparecen. Consulte el tema Pestaa Estadsticos del libro de cdigos en la pgina 4
para obtener ms informacin.
Puede cambiar temporalmente el nivel de medicin de variables. (No puede modificar el nivel de
medicin de conjuntos de respuestas mltiples. Se tratarn siempre como nominales.)
1. En la lista de origen, pulse con el botn derecho del ratn en una variable.
2. Seleccione un nivel de medicin del men emergente.
Se modificar el nivel de medicin temporalmente. En trminos prcticos, esto slo es til para variables
numricas. El nivel de medicin de las variables de cadena est restringido a nominal u ordinal, los
cuales reciben el mismo tratamiento por parte del procedimiento del libro de cdigos.
Informacin de variable
Posicin. Un entero que representa la posicin de la variable en el orden de archivo. No est disponible
para conjuntos de respuestas mltiples.
Tipo. Tipos de datos fundamentales. Puede ser Numrico, Cadena o Conjunto de respuesta mltiple.
Formato. El formato de visualizacin de la variable, como A4, F8.2 o DATE11. No est disponible para
conjuntos de respuestas mltiples.
Nivel de medicin. Los valores posibles son Nominal, Ordinal, Escala y Desconocido. El valor que aparece
es el nivel de medicin guardado en el diccionario y no se ve afectado por ninguna sustitucin de
medicin temporal especificada al modificar el nivel de medicin en la lista de variables de origen de la
pestaa Variables. No est disponible para conjuntos de respuestas mltiples.
Nota: el nivel de medicin de las variables numricas puede ser "desconocido" antes de la primera lectura
de datos si el nivel de medicin no se ha definido de forma explcita, como lecturas de datos de un
origen externo o nuevas variables creadas. Consulte el tema para obtener ms informacin.
Papel. Algunos cuadros de dilogo permiten preseleccionar variables para su anlisis en funcin de
papeles definidos.
Valores perdidos. Valores perdidos del usuario. Si selecciona Recuento o Porcentaje en la pestaa
Estadsticos, las etiquetas de valor definidas se incluyen en la distribucin de los resultados incluso si no
selecciona los valores perdidos aqu. No est disponible para conjuntos de respuestas mltiples.
Atributos personalizados. Atributos de variable personalizados definidos por el usuario. Los resultados
incluyen los nombres y valores de cualquier atributo de variable personalizado asociado con cada
variable. Consulte el tema para obtener ms informacin. No est disponible para conjuntos de respuestas
mltiples.
Atributos reservados. Atributos de variable de sistema reservados. Puede mostrar atributos del sistema,
pero no debe modificarlas. Los nombres de atributos del sistema comienzan por un signo de dlar ($).
No se incluyen los atributos que no se muestran, cuyo nombre comienza por "@" o "$@". Los resultados
incluyen los nombres y valores de cualquier atributo de sistema asociado con cada variable. No est
disponible para conjuntos de respuestas mltiples.
Informacin de archivo
La tabla de informacin del archivo opcional puede incluir cualquiera de los atributos de archivos
siguientes:
Nombre de archivo. Nombre del archivo de datos de IBM SPSS Statistics. Si el conjunto de datos no se
ha guardado nunca en formato de IBM SPSS Statistics, no existe un nombre de archivo de datos. (Si no
aparece un nombre de archivo en la barra de ttulo de la ventana del Editor de datos, el conjunto de
datos activo no tiene un nombre de archivo.)
Posicin. Ubicacin del directorio (carpeta) del archivo de datos de IBM SPSS Statistics. Si el conjunto de
datos no se ha guardado nunca en formato de IBM SPSS Statistics, no existe una ubicacin.
Etiqueta. Es la etiqueta del archivo (si tiene alguna) que define el comando FILE LABEL.
Atributos reservados. Atributos de archivo de datos de sistema reservados. Puede mostrar atributos del
sistema, pero no debe modificarlas. Los nombres de atributos del sistema comienzan por un signo de
dlar ($). No se incluyen los atributos que no se muestran, cuyo nombre comienza por "@" o "$@". Los
resultados incluyen los nombres y valores de los atributos del archivo de datos del sistema.
Las siguientes alternativas estn disponibles para controlar el orden en que aparecen las variables y los
conjuntos de respuestas mltiples.
Archivo. El orden en que aparecen las variables en el conjunto de datos (el orden en que aparecen en el
editor de datos). En orden ascendente, los conjuntos de respuestas mltiples aparecen en ltimo lugar,
despus de todas las variables seleccionadas.
Nivel de medicin. Ordenar por nivel de medicin. nominal, ordinal, escala y desconocido. Los
conjuntos de respuestas mltiples se consideran nominales.
Nota: el nivel de medicin de las variables numricas puede ser "desconocido" antes de la primera lectura
de datos si el nivel de medicin no se ha definido de forma explcita, como lecturas de datos de un
origen externo o nuevas variables creadas.
Lista de variables. El orden en que aparecen las variables y conjuntos de respuestas mltiples en la lista
de variables seleccionadas en la pestaa Variables.
Nombre de atributo personalizado. La lista de opciones de orden de clasificacin tambin incluye los
nombres de cualquier atributo de variables personalizadas definidas por el usuario. En orden ascendente,
las variables que no tienen la opcin de clasificacin de atributos al principio, seguidas de las variables
que tienen el atributo pero no los valores definidos del atributo, seguidas de las variables con valores
definidos para el atributo en orden alfabtico de los valores.
Si el resultado incluye etiquetas de valor, los recuentos o porcentajes de cada valor exclusivo, puede
eliminar esta informacin de la tabla si el nmero de los valores excede el valor especificado. De forma
predeterminada, esta informacin se elimina si el nmero de valores exclusivos de la variable es superior
a 200.
Recuentos y porcentajes
Para las variables nominales y ordinales, conjuntos de respuestas mltiples y valores de etiquetas de
variables de escala, los estadsticos disponibles son:
Recuento. El recuento o nmero de casos que tienen cada valor (o el rango de valores) de una variable.
Media. Una medida de tendencia central. El promedio aritmtico, la suma dividida por el nmero de
casos.
Desviacin estndar. Una medida de dispersin sobre la media. En una distribucin normal, el 68% de los
casos se encuentra dentro de una desviacin estndar de la media y el 95% queda entre dos desviaciones
estndar. Por ejemplo, si la edad media es de 45 aos, con una desviacin estndar de 10, el 95% de los
casos estara entre los 25 y 65 en una distribucin normal.
Nota: puede modificar de forma temporal el nivel de medicin asociado con una variable (y por lo tanto,
modificar los estadsticos de resumen de la variable) en la lista de variables de origen de la pestaa
Variables.
Para los informes de frecuencias y los grficos de barras, puede organizar los valores distintos en orden
ascendente o descendente u ordenar las categoras por sus frecuencias. Es posible suprimir el informe de
frecuencias cuando una variable posee muchos valores distintos. Puede etiquetar los grficos con las
frecuencias (la opcin predeterminada) o con los porcentajes.
Ejemplo. Cul es la distribucin de los clientes de una empresa por tipo de industria? En los resultados
podra observar que el 37,5% de sus clientes pertenece a agencias gubernamentales, el 24,9% a
corporaciones, el 28,1% a instituciones acadmicas, y el 9,4% a la industria sanitaria. Con respecto a los
datos continuos, cuantitativos, como los ingresos por ventas, podra comprobar que el promedio de
ventas de productos es de 3.576 dlares con una desviacin estndar de 1.078 dlares.
Estadsticos y grficos. Frecuencias, porcentajes, porcentajes acumulados, media, mediana, moda, suma,
desviacin estndar, varianza, amplitud, valores mnimo y mximo, error estndar de la media, asimetra
y curtosis (ambos con sus errores estndar), cuartiles, percentiles especificados por el usuario, grficos de
barras, grficos circulares e histogramas.
Datos. Utilice cdigos numricos o cadenas para codificar las variables categricas (mediciones de nivel
nominal u ordinal).
Supuestos. Las tabulaciones y los porcentajes proporcionan una descripcin til para los datos de
cualquier distribucin, especialmente para las variables con categoras ordenadas o desordenadas.
Muchos de los estadsticos de resumen optativos, tales como la media y la desviacin estndar, se basan
en la teora normal y son apropiados para las variables cuantitativas con distribuciones simtricas. Los
estadsticos robustos, tales como la mediana, los cuartiles y los percentiles son apropiados para las
variables cuantitativas que pueden o no cumplir el supuesto de normalidad.
Si lo desea, puede:
v Pulsar en Estadsticos para obtener estadsticos descriptivos para las variables cuantitativas.
v Pulsar en Grficos para obtener grficos de barras, grficos circulares e histogramas.
v Pulsar en Formato para determinar el orden en el que se muestran los resultados.
Frecuencias: Estadsticos
Valores percentiles. Los valores de una variable cuantitativa que dividen los datos ordenados en grupos,
de forma que un porcentaje de los casos se encuentre por encima y otro porcentaje se encuentre por
debajo. Los cuartiles (los percentiles 25, 50 y 75) dividen las observaciones en cuatro grupos de igual
tamao. Si desea un nmero igual de grupos que no sea cuatro, seleccione Puntos de corte para n grup
Tendencia central. Los estadsticos que describen la localizacin de la distribucin, incluyen: Media,
Mediana, Moda y Suma de todos los valores.
v Media. Una medida de tendencia central. El promedio aritmtico, la suma dividida por el nmero de
casos.
v Mediana. Es el valor por encima y por debajo del cual se encuentran la mitad de los casos, el percentil
50. Si hay un nmero par de casos, la mediana es la media de los dos valores centrales, cuando los
casos se ordenan en orden ascendente o descendente. La mediana es una medida de tendencia central
que no es sensible a los valores atpicos (a diferencia de la media, que puede resultar afectada por unos
pocos valores extremadamente altos o bajos).
v Moda. El valor que ocurre con mayor frecuencia. Si varios valores comparten la mayor frecuencia de
aparicin, cada uno de ellos es un modo. El procedimiento de frecuencias devuelve slo el modo ms
pequeo de los modos mltiples.
v Suma. Suma o total de todos los valores, a lo largo de todos los casos con valores no perdidos.
Dispersin. Los estadsticos que miden la cantidad de variacin o de dispersin en los datos, incluyen:
Desviacin estndar, Varianza, Rango, Mnimo, Mximo y Error estndar de la media.
v Desv. estndar. Una medida de dispersin sobre la media. En una distribucin normal, el 68% de los
casos se encuentra dentro de una desviacin estndar de la media y el 95% queda entre dos
desviaciones estndar. Por ejemplo, si la edad media es de 45 aos, con una desviacin estndar de 10,
el 95% de los casos estara entre los 25 y 65 en una distribucin normal.
v Varianza. Medida de dispersin sobre la media, igual a la suma de las desviaciones al cuadrado de la
media divida por el nmero de casos menos uno. La varianza se mide en unidades que son el
cuadrado de las de la variable en cuestin.
v Rango. Diferencia entre los valores mayor y menor de una variable numrica; el mximo menos el
mnimo.
v Mnimo. Se trata del valor menor de una variable numrica.
v Mximo. Se trata del valor mayor de una variable numrica.
v E. T. media. Medida de cunto puede variar el valor de la media de una muestra a otra, extradas stas
de la misma distribucin. Puede utilizarse para comparar de forma aproximada la media observada
respecto a un valor hipotetizado (es decir, se puede concluir que los dos valores son distintos si la
diferencia entre ellos, dividida por el error estndar, es menor que -2 o mayor que +2).
Distribucin. Asimetra y curtosis son estadsticos que describen la forma y la simetra de la distribucin.
Estos estadsticos se muestran con sus errores estndar.
v Asimetra. Medida de la asimetra de una distribucin. La distribucin normal es simtrica y tiene un
valor de asimetra igual a 0. Una distribucin que tenga una asimetra positiva significativa tiene una
cola derecha larga. Una distribucin que tenga una asimetra negativa significativa tiene una cola
izquierda larga. Como regla aproximada, un valor de la asimetra mayor que el doble de su error
estndar se asume que indica una desviacin de la simetra.
v Curtosis. Es una medida del grado en que las observaciones se agrupan en torno a un punto central.
Para una distribucin normal, el valor del estadstico de curtosis es 0. Una curtosis positiva indica que,
con respecto a una distribucin normal, las observaciones se concentran ms en el centro de la
distribucin y presentan colas ms estrechas hasta los valores extremos de la distribucin, en cuyo
punto las colas de la distribucin leptocrtica son ms gruesas con respecto a una distribucin normal.
Una curtosis negativa indica que, con respecto a una distribucin normal, las observaciones se
concentran menos y presentan colas ms gruesas hasta los valores extremos de la distribucin, en cuyo
punto las colas de la distribucin platicrtica son ms estrechas con respecto a una distribucin
normal.
Frecuencias: Grficos
Tipo de grfico. Los grficos circulares muestran la contribucin de las partes a un todo. Cada porcin de
un grfico circular corresponde a un grupo, definido por una nica variable de agrupacin. Los grficos
de barras muestran el recuento de cada valor o categora distinta como una barra diferente, permitiendo
comparar las categoras de forma visual. Los histogramas tambin cuentan con barras, pero se
representan a lo largo de una escala de intervalos iguales. La altura de cada barra es el recuento de los
valores que estn dentro del intervalo para una variable cuantitativa. Los histogramas muestran la forma,
el centro y la dispersin de la distribucin. Una curva normal superpuesta en un histograma ayuda a
juzgar si los datos estn normalmente distribuidos.
Valores del grfico. Para los grficos de barras, puede etiquetar el eje de escala con las frecuencias o los
porcentajes.
Frecuencias: Formato
Ordenar por. La tabla de frecuencias se puede organizar respecto a los valores actuales de los datos o
respecto al recuento (frecuencia de aparicin) de esos valores y la tabla puede organizarse en orden
ascendente o descendente. Sin embargo, si solicita un histograma o percentiles, Frecuencias asumir que
la variable es cuantitativa y mostrar sus valores en orden ascendente.
Mltiples variables. Si desea generar tablas de estadsticos para mltiples variables, podr mostrar todas
las variables en una sola tabla (Comparar variables), o bien mostrar una tabla de estadsticos
independiente para cada variable (Organizar resultados segn variables).
Suprimir tablas con varias categoras. Esta opcin impide que se muestren tablas que contengan ms
valores que el nmero especificado.
Captulo 2. Frecuencias 7
8 IBM SPSS Statistics Base 24
Captulo 3. Descriptivos
El procedimiento Descriptivos muestra estadsticos de resumen univariados para varias variables en una
nica tabla y calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar por el tamao
de sus medias (en orden ascendente o descendente), alfabticamente o por el orden en el que se
seleccionen las variables (el valor predeterminado).
Cuando se guardan las puntuaciones z, stas se aaden a los datos del Editor de datos y quedan
disponibles para los grficos, el listado de los datos y los anlisis. Cuando las variables se registran en
unidades diferentes (por ejemplo, producto interior bruto per cpita y porcentaje de alfabetizacin), una
transformacin de puntuacin z pondr las variables en una escala comn para poder compararlas
visualmente con ms facilidad.
Ejemplo. Si cada caso de los datos contiene los totales de ventas diarias de cada vendedor (por ejemplo,
una entrada para Bob, una para Kim y una para Brian) recogidas cada da durante varios meses, el
procedimiento Descriptivos puede calcular la media diaria de ventas para cada vendedor y ordenar los
resultados del promedio de ventas de mayor a menor.
Estadsticos. Tamao de la muestra, media, mnimo, mximo, desviacin estndar, varianza, rango, suma,
error estndar de la media, curtosis y asimetra con sus errores estndar.
Datos. Utilice variables numricas despus de haberlas inspeccionado grficamente para registrar errores,
valores atpicos y anomalas de distribucin. El procedimiento Descriptivos es muy eficaz para archivos
grandes (de miles de casos).
Si lo desea, puede:
v Seleccionar Guardar valores tipificados como variables para guardar las puntuaciones z como nuevas
variables.
v Pulsar en Opciones para seleccionar estadsticos opcionales y el orden de presentacin.
Descriptivos: Opciones
Media y suma. Se muestra de forma predeterminada la media o promedio aritmtico.
Dispersin. Los estadsticos que miden la dispersin o variacin en los datos incluyen la desviacin
estndar, la varianza, el rango, el mnimo, el mximo y el error estndar de la media.
v Desv. estndar. Una medida de dispersin sobre la media. En una distribucin normal, el 68% de los
casos se encuentra dentro de una desviacin estndar de la media y el 95% queda entre dos
Distribucin. La curtosis y la asimetra son los estadsticos que caracterizan la forma y simetra de la
distribucin. Estos estadsticos se muestran con sus errores estndar.
v Curtosis. Es una medida del grado en que las observaciones se agrupan en torno a un punto central.
Para una distribucin normal, el valor del estadstico de curtosis es 0. Una curtosis positiva indica que,
con respecto a una distribucin normal, las observaciones se concentran ms en el centro de la
distribucin y presentan colas ms estrechas hasta los valores extremos de la distribucin, en cuyo
punto las colas de la distribucin leptocrtica son ms gruesas con respecto a una distribucin normal.
Una curtosis negativa indica que, con respecto a una distribucin normal, las observaciones se
concentran menos y presentan colas ms gruesas hasta los valores extremos de la distribucin, en cuyo
punto las colas de la distribucin platicrtica son ms estrechas con respecto a una distribucin
normal.
v Asimetra. Medida de la asimetra de una distribucin. La distribucin normal es simtrica y tiene un
valor de asimetra igual a 0. Una distribucin que tenga una asimetra positiva significativa tiene una
cola derecha larga. Una distribucin que tenga una asimetra negativa significativa tiene una cola
izquierda larga. Como regla aproximada, un valor de la asimetra mayor que el doble de su error
estndar se asume que indica una desviacin de la simetra.
Orden de presentacin. De forma predeterminada, las variables se muestran en el orden en que se hayan
seleccionado. Si lo desea, se pueden mostrar las variables alfabticamente, por medias ascendentes o por
medias descendentes.
Ejemplo. Observe la distribucin de los tiempos de aprendizaje de laberintos de una serie de ratas
sometidas a cuatro programas de refuerzo diferentes. Para cada uno de los cuatro grupos, se puede
observar si la distribucin de tiempos es aproximadamente normal y si las cuatro varianzas son iguales.
Tambin se pueden identificar los casos con los cinco valores de tiempo mayores y los cinco menores. Los
diagramas de caja y los grficos de tallo y hojas resumen grficamente la distribucin del tiempo de
aprendizaje de cada uno de los grupos.
Estadsticos y grficos. Media, mediana, media recortada al 5%, error estndar, varianza, desviacin
estndar, mnimo, mximo, rango, rango intercuartil, asimetra y curtosis y sus errores estndar, intervalo
de confianza para la media (y el nivel de confianza especificado), percentiles, estimador-M de Huber,
estimador en onda de Andrews, estimador-M redescendente de Hampel, estimador biponderado de
Tukey, cinco valores mayores y cinco menores, estadstico de Kolmogorov-Smirnov con el nivel de
significacin de Lilliefors para contrastar la normalidad y estadstico de Shapiro-Wilk. Diagramas de caja,
grficos de tallo y hojas, histogramas, diagramas de normalidad y diagramas de dispersin por nivel con
pruebas de Levene y transformaciones.
Datos. El procedimiento Explorar se puede utilizar para las variables cuantitativas (nivel de medicin de
razn o de intervalo). Una variable de factor (utilizada para dividir los datos en grupos de casos) debe
tener un nmero razonable de valores distintivos (categoras). Estos valores pueden ser de cadena corta o
numricos. La variable de etiquetas de caso, utilizada para etiquetar valores atpicos en los diagramas de
caja, puede ser de cadena corta, de cadena larga (los 15 primeros bytes) o numrica.
Si lo desea, puede:
v Seleccionar una o ms variables de factor, cuyos valores definirn grupos de casos.
v Seleccionar una variable de identificacin para etiquetar los casos.
v Pulse en Estadsticos para obtener estimadores robustos, valores atpicos, percentiles y tablas de
frecuencias.
v Pulse en Grficos para obtener histogramas, pruebas y grficos de probabilidad normal y diagramas
de dispersin por nivel con estadsticos de Levene.
v Pulse en Opciones para manipular los valores perdidos.
Estimadores robustos centrales. Alternativas robustas a la mediana y a la media muestral para estimar la
localizacin. Los estimadores calculados se diferencian por las ponderaciones que aplican a los casos. Se
muestran los siguientes: el estimador-M de Huber, el estimador en onda de Andrew, el estimador-M
redescendente de Hampel y el estimador biponderado de Tukey.
Valores atpicos. Muestra los cinco valores mayores y los cinco menores con las etiquetas de caso.
Percentiles. Muestra los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
Explorar: Grficos
Diagramas de caja. Estas alternativas controlan la presentacin de los diagramas de caja cuando existe
ms de una variable dependiente. Niveles de los factores juntos genera una presentacin para cada
variable dependiente. En cada una se muestran diagramas de caja para cada uno de los grupos definidos
por una variable de factor. Dependientes juntas genera una presentacin para cada grupo definido por
una variable de factor. En cada una se muestran juntos los diagramas de caja de cada variable
dependiente. Esta disposicin es de gran utilidad cuando las variables representan una misma
caracterstica medida en momentos distintos.
Grficos con pruebas de normalidad. Muestra los diagramas de probabilidad normal y de probabilidad
sin tendencia. Se muestra el estadstico de Kolmogorov-Smirnov con un nivel de significacin de Lilliefors
para contrastar la normalidad. Si se especifican ponderaciones no enteras, se calcular el estadstico de
Shapiro-Wilk cuando el tamao de la muestra ponderada est entre 3 y 50. Si no hay ponderaciones o
stas son enteras, se calcular el estadstico cuando el tamao de la muestra est entre 3 y 5.000.
Dispersin por nivel con prueba de Levene. Controla la transformacin de los datos para los diagramas
de dispersin por nivel. Para todos los diagramas de dispersin por nivel se muestra la inclinacin de la
lnea de regresin y las pruebas robustas de Levene sobre la homogeneidad de varianza. Si selecciona
una transformacin, las pruebas de Levene se basarn en los datos transformados. Si no selecciona
ninguna variable de factor, no se generar ningn diagrama de dispersin por nivel. Estimacin de
potencia produce un grfico de los logaritmos naturales de los rangos intercuartiles respecto a los
logaritmos naturales de las medianas de todas las casillas, as como una estimacin de la transformacin
de potencia necesaria para conseguir varianzas iguales en las casillas. Un diagrama de dispersin por
nivel ayuda a determinar la potencia que precisa una transformacin para estabilizar (igualar) las
varianzas de los grupos. Transformados permite seleccionar una de las alternativas de potencia, quizs
siguiendo las recomendaciones de la estimacin de potencia, y genera grficos de los datos
transformados. Se trazan el rango intercuartil y la mediana de los datos transformados. No
transformados genera grficos de los datos en bruto. Es equivalente a una transformacin con una
potencia de 1.
Explorar: Opciones
Valores perdidos. Controla el tratamiento de los valores perdidos.
v Excluir casos segn lista. Los casos con valores perdidos para cualquier variable de factor o variable
dependiente se excluyen de todos los anlisis. Este es el mtodo predeterminado.
v Excluir casos segn pareja. Los casos con valores no perdidos para las variables de un grupo (casilla)
se incluyen en el anlisis de ese grupo. El caso puede tener valores perdidos para las variables
utilizadas en otros grupos.
v Mostrar los valores. Los valores perdidos para las variables de factor se tratan como una categora
diferente. Todos los resultados se generan para esta categora adicional. Las tablas de frecuencias
incluyen categoras para los valores perdidos. Los valores perdidos para una variable de factor se
incluyen pero se etiquetan como perdidos.
Captulo 4. Explorar 13
14 IBM SPSS Statistics Base 24
Captulo 5. Tablas cruzadas
El procedimiento Tablas cruzadas crea tablas bidimensionales y multidimensionales y, adems,
proporciona una serie de pruebas y medidas de asociacin para las tablas bidimensionales. La estructura
de la tabla y el hecho de que las categoras estn ordenadas o no determinan las pruebas o medidas que
se utilizaban.
Los estadsticos de tablas cruzadas y las medidas de asociacin slo se calculan para las tablas
bidimensionales. Si especifica una fila, una columna y un factor de capa (variable de control), el
procedimiento Tablas cruzadas crea un panel de medidas y estadsticos asociados para cada valor del
factor de capa (o una combinacin de valores para dos o ms variables de control). Por ejemplo, si sexo es
un factor de capa para una tabla de casado (s, no) en funcin de vida (vida emocionante, rutinaria o
aburrida), los resultados para una tabla bidimensional para las mujeres se calculan de forma
independiente de los resultados de los hombres y se imprimen en paneles uno detrs del otro.
Ejemplo. Es ms probable que los clientes de las empresas pequeas sean ms rentables en la venta de
servicios (por ejemplo, formacin y asesoramiento) que los clientes de las empresas grandes? A partir de
una tabulacin cruzada podra deducir que la prestacin de servicios a la mayora de las empresas
pequeas (con menos de 500 empleados) produce considerables beneficios, mientras que con la mayora
de las empresas de gran tamao (con ms de 2.500 empleados), los beneficios obtenidos son mucho
menores.
Datos. Para definir las categoras de cada variable, utilice valores de una variable numrica o de cadena
(ocho bytes o menos). Por ejemplo, para sexo, podra codificar los datos como 1 y 2 o como varn y mujer.
Supuestos. En algunos estadsticos y medidas se asume que hay unas categoras ordenadas (datos
ordinales) o unos valores cuantitativos (datos de intervalos o de proporciones), como se explica en la
seccin sobre los estadsticos. Otros estadsticos son vlidos cuando las variables de la tabla tienen
categoras no ordenadas (datos nominales). Para los estadsticos basados en chi-cuadrado (phi, V de
Cramr y coeficiente de contingencia), los datos deben ser una muestra aleatoria de una distribucin
multinomial.
Nota: las variables ordinales pueden ser cdigos numricos que representen categoras (por ejemplo, 1 =
bajo, 2 = medio, 3 = alto) o valores de cadena. Sin embargo, se supone que el orden alfabtico de los
valores de cadena indica el orden correcto de las categoras. Por ejemplo, en una variable de cadena
cuyos valores sean bajo, medio, alto, se interpreta el orden de las categoras como alto, bajo, medio (orden
que no es el correcto). Por norma general, se puede indicar que es ms fiable utilizar cdigos numricos
para representar datos ordinales.
A continuacin se muestra un ejemplo que utiliza el archivo de datos demo.sav (disponible en el directorio
Samples del directorio de instalacin) y que se ha obtenido de la siguiente forma:
1. Seleccione Categora de ingresos en miles (cating) como la variable de fila, Tiene PDA (pda) como la
variable de columna y Nivel educativo (educ) como la variable de capa.
2. Seleccione Mostrar variables de capa en capas de tabla.
3. Seleccione Columna en el cuadro de dilogo subordinado Mostrar en las casillas.
4. Ejecute el procedimiento de Tablas cruzadas, pulse dos veces en la tabla de tabulacin cruzada y
seleccione Titulacin universitaria de la lista desplegable Nivel de estudios.
La vista seleccionada de la tabla de tabulacin cruzada muestra los estadsticos de encuestados que tienen
un ttulo universitario.
Correlaciones. Para las tablas en las que tanto las columnas como las filas contienen valores ordenados,
Correlaciones da como resultado rho, el coeficiente de correlacin de Spearman (slo datos numricos).
La rho de Spearman es una medida de asociacin entre rdenes de rangos. Cuando ambas variables de
tabla (factores) son cuantitativas, Correlaciones da como resultado r, el coeficiente de correlacin de
Pearson, una medida de asociacin lineal entre las variables.
Nominal. Para los datos nominales (sin orden intrnseco, como catlico, protestante o judo), puede
seleccionar el Coeficiente de contingencia, Phi (coeficiente) y V de Cramr, Lambda (lambdas simtricas
y asimtricas y tau de Kruskal y Goodman) y el Coeficiente de incertidumbre.
v Coeficiente de contingencia. Medida de asociacin basada en chi-cuadrado. El valor vara entre 0 y 1. El
valor 0 indica que no hay asociacin entre las variables de fila y de columna. Los valores cercanos a 1
indican que hay gran relacin entre las variables. El valor mximo posible depende del nmero de filas
y columnas de la tabla.
v Phi y V de Cramer. Phi es una medida de asociacin basada en chi-cuadrado que conlleva dividir el
estadstico de chi-cuadrado por el tamao de la muestra y extraer la raz cuadrada del resultado. V de
Cramer es una medida de asociacin basada en chi-cuadradro.
v Lambda. Medida de asociacin que refleja la reduccin proporcional en el error cuando se utilizan los
valores de la variable independiente para pronosticar los valores de la variable dependiente. Un valor
igual a 1 significa que la variable independiente pronostica perfectamente la variable dependiente. Un
valor igual a 0 significa que la variable independiente no ayuda a pronosticar la variable dependiente.
v Coeficiente de incertidumbre. Medida de asociacin que refleja la reduccin proporcional en el error
cuando se utilizan los valores de una variable para pronosticar los valores de la otra variable. Por
ejemplo, un valor de 0,83 indica que el conocimiento de una variable reduce en un 83% el error al
pronosticar los valores de la otra variable. El programa calcula tanto la versin simtrica como la
asimtrica del coeficiente de incertidumbre.
Ordinal. Para las tablas en las que tanto las filas como las columnas contienen valores ordenados,
seleccione Gamma (orden cero para tablas bidimensionales y condicional para tablas cuyo factor de
clasificacin va de 3 a 10), Tau-b de Kendall y Tau-c de Kendall. Para pronosticar las categoras de
columna de las categoras de fila, seleccione d de Somers.
v Gamma. Medida de asociacin simtrica entre dos variables ordinales cuyo valor siempre est
comprendido entre -1 y 1. Los valores prximos a 1, en valor absoluto, indican una fuerte relacin
entre las dos variables. Los valores prximos a cero indican que hay poca o ninguna relacin entre las
dos variables. Para las tablas bidimensionales, se muestran las gammas de orden cero. Para las tablas
de tres o ms factores de clasificacin, se muestran las gammas condicionales.
v d de Somers. Medida de asociacin entre dos variables ordinales que toma un valor comprendido entre
-1 y 1. Los valores prximos a 1, en valor absoluto, indican una fuerte relacin entre las dos variables.
Los valores prximos a cero indican que hay poca o ninguna relacin entre las dos variables. La d de
Somers es una extensin asimtrica de gamma que difiere slo en la inclusin del nmero de pares no
empatados en la variable independiente. Tambin se calcula una versin no simtrica de este
estadstico.
v Tau-b de Kendall. Medida no paramtrica de la correlacin para variables ordinales o de rangos que
tiene en consideracin los empates. El signo del coeficiente indica la direccin de la relacin y su valor
absoluto indica la fuerza de la relacin. Los valores mayores indican que la relacin es ms estrecha.
Los valores posibles van de -1 a 1, pero un valor de -1 o +1 slo se puede obtener a partir de tablas
cuadradas.
v Tau-c de Kendall. Medida no paramtrica de asociacin para variables ordinales que ignora los empates.
El signo del coeficiente indica la direccin de la relacin y su valor absoluto indica la fuerza de la
relacin. Los valores mayores indican que la relacin es ms estrecha. Los valores posibles van de -1 a
1, pero un valor de -1 o +1 slo se puede obtener a partir de tablas cuadradas.
Kappa. La kappa de Cohen mide el acuerdo entre las evaluaciones de dos jueces cuando ambos estn
valorando el mismo objeto. Un valor igual a 1 indica un acuerdo perfecto. Un valor igual a 0 indica que
el acuerdo no es mejor que el que se obtendra por azar. Kappa se basa en una tabla cuadrada en la que
los valores de filas y columnas representan la misma escala. Cualquier casilla que tenga valores
observados para una variable pero no para la otra se le asigna un recuento de 0. No se calcula Kappa si
el tipo de almacenamiento de datos (cadena o numrico) no es el mismo para las dos variables. Para una
variable de cadena, ambas variables deben tener la misma longitud definida.
Riesgo. Para tablas 2x2, una medida del grado de asociacin entre la presencia de un factor y la
ocurrencia de un evento. Si el intervalo de confianza para el estadstico incluye un valor de 1, no se
podr asumir que el factor est asociado con el evento. Cuando la ocurrencia del factor es poco comn,
se puede utilizar la razn de las ventajas como estimacin o riesgo relativo.
McNemar. Prueba no paramtrica para dos variables dicotmicas relacionadas. Contrasta los cambios de
respuesta utilizando una distribucin chi-cuadrado. Es til para detectar cambios en las respuestas
causadas por la intervencin experimental en los diseos del tipo "antes-despus". Para las tablas
cuadradas de mayor orden se informa de la prueba de simetra de McNemar-Bowker.
Recuentos. El nmero de casos realmente observados y el nmero de casos esperados si las variables de
fila y columna son independientes entre s. Puede optar por ocultar recuentos inferiores un nmero
entero especificado. Los valores ocultos se mostrarn como <N, donde N es el nmero entero
especificado. El entero especificado debe ser mayor o igual a 2, aunque se permite el valor 0 y especifica
que no se hay recuentos ocultos.
Comparar las proporciones de columna. Esta opcin calcula comparaciones por pares de proporciones de
columnas e indica los pares de columnas (de una fila concreta) que son significativamente diferentes. Las
diferencias significativas se indican en la tabla de tabulacin cruzada con formato de estilo APA
utilizando subndices de letras y se calculan con un nivel de significacin de 0,05. Nota: si se especifica
esta opcin sin seleccionar recuentos observados o porcentajes de columnas, se incluirn los recuentos
observados en la tabla de tabulacin cruzada, con subndices de estilo APA indicando los resultados de
las pruebas de proporciones de columnas.
Porcentajes. Los porcentajes se pueden sumar a travs de las filas o a lo largo de las columnas. Tambin
se encuentran disponibles los porcentajes del nmero total de casos representados en la tabla (una capa).
Nota: si Ocultar recuentos pequeos est seleccionado en el grupo Recuentos, se ocultarn tambin los
porcentajes asociados con recuentos ocultos.
Residuos. Los residuos brutos no tipificados presentan la diferencia entre los valores observados y los
esperados. Tambin se encuentran disponibles los residuos tipificados y tipificados corregidos.
v No tipificados. La diferencia entre un valor observado y el valor esperado. El valor esperado es el
nmero de casos que se esperara encontrar en la casilla si no hubiera relacin entre las dos variables.
Un residuo positivo indica que hay ms casos en la casilla de los que habra en ella si las variables de
fila y columna fueran independientes.
v Tipificados. El residuo dividido por una estimacin de su error estndar. Los residuos tipificados, que
son conocidos tambin como los residuos de Pearson o residuos estandarizados, tienen una media de 0
y una desviacin estndar de 1.
v Tipificados corregidos. El residuo de una casilla (el valor observado menos el valor esperado) dividido
por una estimacin de su error estndar. El residuo estandarizado resultante viene expresado en
unidades de desviacin estndar, por encima o por debajo de la media.
Ponderaciones no enteras. Los recuentos de las casillas suelen ser valores enteros, ya que representan el
nmero de casos de cada casilla. Sin embargo, si el archivo de datos est ponderado en un momento
determinado por una variable de ponderacin con valores fraccionarios (por ejemplo, 1,25), los recuentos
de las casillas pueden que tambin sean valores fraccionarios. Puede truncar o redondear estos valores
antes o despus de calcular los recuentos de las casillas o bien utilizar recuentos de casillas fraccionarios
en la presentacin de las tablas y los clculos de los estadsticos.
v Redondear recuentos de casillas. Las ponderaciones de los casos se utilizan tal cual, pero las
ponderaciones acumuladas en las casillas se redondean antes de calcular cualquiera de los estadsticos.
v Truncar recuentos de casillas. Las ponderaciones de los casos se utilizan tal cual, pero las ponderaciones
acumuladas en las casillas se truncan antes de calcular cualquiera de los estadsticos.
v Redondear ponderaciones de casos. Se redondean las ponderaciones de los casos antes de utilizarlas.
v Truncar ponderaciones de casos. Se truncan las ponderaciones de los casos antes de utilizarlas.
v No efectuar correcciones. Las ponderaciones de los casos se utilizan tal cual y se utilizan los recuentos de
casillas fraccionales. Sin embargo, cuando se solicitan Estadsticos exactos (disponibles slo con la
opcin Pruebas exactas), las ponderaciones acumuladas en las casillas se truncan o redondean antes de
calcular los estadsticos de las Pruebas exactas.
Ejemplo. Cul es la media de las ventas por regiones o por tipo de cliente? Podr descubrir que el
importe medio de las ventas es ligeramente superior en la regin occidental respecto a las dems
regiones, y que la media ms alta se da entre los clientes de empresas privadas de la zona occidental .
Estadsticos. Suma, nmero de casos, media, mediana, mediana agrupada, error estndar de la media,
mnimo, mximo, rango, valor de la variable para la primera categora de la variable de agrupacin, valor
de la variable para la ltima categora de la variable de agrupacin, desviacin estndar, varianza,
curtosis, error estndar de curtosis, asimetra, error estndar de asimetra, porcentaje de la suma total,
porcentaje del N total, porcentaje de la suma en, porcentaje de N en, media geomtrica y media armnica.
Datos. Las variables de agrupacin son variables categricas cuyos valores pueden ser numricos o de
cadena. El nmero de categoras debe ser razonablemente pequeo. Las otras variables deben poder
ordenarse mediante rangos.
Supuestos. Algunos de los estadsticos opcionales de subgrupo, como la media y la desviacin estndar,
se basan en la teora normal y son adecuados para variables cuantitativas con distribuciones simtricas.
Los estadsticos robustos, tales como la mediana y el rango, son adecuados para las variables
cuantitativas que pueden o no cumplir el supuesto de normalidad.
Si lo desea, puede:
v Seleccionar una o ms variables de agrupacin para dividir los datos en subgrupos.
v Pulsar en Opciones para cambiar el ttulo de los resultados, aadir un texto al pie debajo de los
resultados o excluir los casos con valores perdidos.
v Pulsar en Estadsticos para acceder a estadsticos adicionales.
v Seleccionar Mostrar los casos para listar los casos en cada subgrupo. De forma predeterminada, el
sistema enumera slo los 100 primeros casos del archivo. Puede aumentar o disminuir el valor de
Limitar los casos a los primeros n o desactivar ese elemento para enumerar todos los casos.
Resumir: Opciones
Resumir permite cambiar el ttulo de los resultados o aadir un texto que aparecer debajo de la tabla de
resultados. Puede controlar el ajuste de las lneas en los ttulos y textos escribiendo \n en el lugar donde
desee insertar una lnea de separacin.
Resumir: Estadsticos
Puede elegir uno o ms de los siguientes estadsticos de subgrupo para las variables dentro de cada
categora de cada variable de agrupacin: suma, nmero de casos, media, mediana, mediana agrupada,
error estndar de la media, mnimo, mximo, rango, valor de la variable para la primera categora de la
variable de agrupacin, valor de la variable para la ltima categora de la variable de agrupacin,
desviacin estndar, varianza, curtosis, error estndar de curtosis, asimetra, error estndar de asimetra,
porcentaje de la suma total, porcentaje del N total, porcentaje de la suma en, porcentaje de N en, media
geomtrica y media armnica. El orden en el que aparecen los estadsticos en la lista Estadsticos de
casilla es el orden en el que se mostrarn en los resultados. Tambin se muestran estadsticos de resumen
para cada variable a travs de todas las categoras.
Media geomtrica. La raz ensima del producto de los valores de los datos, donde n representa el nmero
de casos.
Mediana agrupada. La mediana calculada para los datos que se codifican en grupos. Por ejemplo, con
datos de edades, si cada valor de los 30 se ha codificado como 35, cada valor de los 40 como 45 y as
sucesivamente, la mediana agrupada es la mediana calculada a partir de los datos codificados.
Media armnica. Se utiliza para estimar el tamao promedio de un grupo cuando los tamaos de las
muestras de los grupos no son iguales. La media armnica es el nmero total de muestras divido por la
suma de los inversos de los tamaos de las muestras.
Curtosis. Es una medida del grado en que las observaciones se agrupan en torno a un punto central. Para
una distribucin normal, el valor del estadstico de curtosis es 0. Una curtosis positiva indica que, con
respecto a una distribucin normal, las observaciones se concentran ms en el centro de la distribucin y
presentan colas ms estrechas hasta los valores extremos de la distribucin, en cuyo punto las colas de la
distribucin leptocrtica son ms gruesas con respecto a una distribucin normal. Una curtosis negativa
indica que, con respecto a una distribucin normal, las observaciones se concentran menos y presentan
colas ms gruesas hasta los valores extremos de la distribucin, en cuyo punto las colas de la distribucin
platicrtica son ms estrechas con respecto a una distribucin normal.
Media. Una medida de tendencia central. El promedio aritmtico, la suma dividida por el nmero de
casos.
Mediana. Es el valor por encima y por debajo del cual se encuentran la mitad de los casos, el percentil 50.
Si hay un nmero par de casos, la mediana es la media de los dos valores centrales, cuando los casos se
ordenan en orden ascendente o descendente. La mediana es una medida de tendencia central que no es
sensible a los valores atpicos (a diferencia de la media, que puede resultar afectada por unos pocos
valores extremadamente altos o bajos).
Rango. Diferencia entre los valores mayor y menor de una variable numrica; el mximo menos el
mnimo.
Desviacin estndar. Una medida de dispersin sobre la media. En una distribucin normal, el 68% de los
casos se encuentra dentro de una desviacin estndar de la media y el 95% queda entre dos desviaciones
estndar. Por ejemplo, si la edad media es de 45 aos, con una desviacin estndar de 10, el 95% de los
casos estara entre los 25 y 65 en una distribucin normal.
Error estndar de curtosis. La razn de la curtosis sobre su error estndar puede utilizarse como prueba de
normalidad (es decir, se puede rechazar la normalidad si la razn es menor que -2 o mayor que +2). Un
valor grande y positivo para la curtosis indica que las colas son ms largas que las de una distribucin
normal; por el contrario, un valor extremo y negativo indica que las colas son ms cortas (llegando a
tener forma de caja como en la distribucin uniforme).
Error estndar de la media. Medida de cunto puede variar el valor de la media de una muestra a otra,
extradas stas de la misma distribucin. Puede utilizarse para comparar de forma aproximada la media
observada respecto a un valor hipotetizado (es decir, se puede concluir que los dos valores son distintos
si la diferencia entre ellos, dividida por el error estndar, es menor que -2 o mayor que +2).
Error estndar de asimetra. La razn de la asimetra sobre su error estndar puede utilizarse como una
prueba de normalidad (es decir, se puede rechazar la normalidad si la razn es menor que -2 o mayor
que +2). Un valor grande y positivo para la asimetra indica una cola larga a la derecha; un valor extremo
y negativo indica una cola larga por la izquierda
Suma. Suma o total de todos los valores, a lo largo de todos los casos con valores no perdidos.
Varianza. Medida de dispersin sobre la media, igual a la suma de las desviaciones al cuadrado de la
media divida por el nmero de casos menos uno. La varianza se mide en unidades que son el cuadrado
de las de la variable en cuestin.
Captulo 6. Resumir 23
24 IBM SPSS Statistics Base 24
Captulo 7. Medias
El procedimiento Medias calcula medias de subgrupo y estadsticos univariados relacionados para
variables dependientes dentro de las categoras de una o ms variables independientes. Si lo desea, puede
obtener el anlisis de varianza de un factor, la eta y pruebas de linealidad.
Ejemplo. Mida la cantidad media de grasa absorbida en funcin de tres tipos distintos de aceite
comestible y realice un anlisis de varianza de un factor para comprobar si difieren las medias.
Estadsticos. Suma, nmero de casos, media, mediana, mediana agrupada, error estndar de la media,
mnimo, mximo, rango, valor de la variable para la primera categora de la variable de agrupacin, valor
de la variable para la ltima categora de la variable de agrupacin, desviacin estndar, varianza,
curtosis, error estndar de curtosis, asimetra, error estndar de asimetra, porcentaje de la suma total,
porcentaje del N total, porcentaje de la suma en, porcentaje de N en, media geomtrica y media armnica.
Las opciones incluyen: anlisis de varianza, eta, eta cuadrado y pruebas de linealidad de R y R 2.
Datos. Las variables dependientes son cuantitativas y las independientes son categricas. Los valores de
las variables categricas pueden ser numricos o de cadena.
Supuestos. Algunos de los estadsticos opcionales de subgrupo, como la media y la desviacin estndar,
se basan en la teora normal y son adecuados para variables cuantitativas con distribuciones simtricas.
Los estadsticos robustos, tales como la mediana son adecuados para las variables cuantitativas que
pueden o no cumplir el supuesto de normalidad. El anlisis de varianza es robusto a las desviaciones de
la normalidad, aunque los datos de cada casilla deberan ser simtricos. El anlisis de varianza tambin
supone que los grupos proceden de poblaciones con la misma varianza. Para comprobar este supuesto,
utilice la prueba de homogeneidad de las varianzas de Levene, disponible en el procedimiento ANOVA
de un factor.
Medias: Opciones
You can choose one or more of the following subgroup statistics for the variables within each category of
each grouping variable: suma, nmero de casos, media, mediana, mediana agrupada, error estndar de la
media, mnimo, mximo, rango, valor de la variable para la primera categora de la variable de
agrupacin, valor de la variable para la ltima categora de la variable de agrupacin, desviacin
estndar, varianza, curtosis, error estndar de curtosis, asimetra, error estndar de asimetra, porcentaje
Media geomtrica. La raz ensima del producto de los valores de los datos, donde n representa el nmero
de casos.
Mediana agrupada. La mediana calculada para los datos que se codifican en grupos. Por ejemplo, con
datos de edades, si cada valor de los 30 se ha codificado como 35, cada valor de los 40 como 45 y as
sucesivamente, la mediana agrupada es la mediana calculada a partir de los datos codificados.
Media armnica. Se utiliza para estimar el tamao promedio de un grupo cuando los tamaos de las
muestras de los grupos no son iguales. La media armnica es el nmero total de muestras divido por la
suma de los inversos de los tamaos de las muestras.
Curtosis. Es una medida del grado en que las observaciones se agrupan en torno a un punto central. Para
una distribucin normal, el valor del estadstico de curtosis es 0. Una curtosis positiva indica que, con
respecto a una distribucin normal, las observaciones se concentran ms en el centro de la distribucin y
presentan colas ms estrechas hasta los valores extremos de la distribucin, en cuyo punto las colas de la
distribucin leptocrtica son ms gruesas con respecto a una distribucin normal. Una curtosis negativa
indica que, con respecto a una distribucin normal, las observaciones se concentran menos y presentan
colas ms gruesas hasta los valores extremos de la distribucin, en cuyo punto las colas de la distribucin
platicrtica son ms estrechas con respecto a una distribucin normal.
Media. Una medida de tendencia central. El promedio aritmtico, la suma dividida por el nmero de
casos.
Mediana. Es el valor por encima y por debajo del cual se encuentran la mitad de los casos, el percentil 50.
Si hay un nmero par de casos, la mediana es la media de los dos valores centrales, cuando los casos se
ordenan en orden ascendente o descendente. La mediana es una medida de tendencia central que no es
sensible a los valores atpicos (a diferencia de la media, que puede resultar afectada por unos pocos
valores extremadamente altos o bajos).
Porcentaje del N total. Porcentaje del nmero total de casos en cada categora.
Rango. Diferencia entre los valores mayor y menor de una variable numrica; el mximo menos el
mnimo.
Error estndar de curtosis. La razn de la curtosis sobre su error estndar puede utilizarse como prueba de
normalidad (es decir, se puede rechazar la normalidad si la razn es menor que -2 o mayor que +2). Un
valor grande y positivo para la curtosis indica que las colas son ms largas que las de una distribucin
normal; por el contrario, un valor extremo y negativo indica que las colas son ms cortas (llegando a
tener forma de caja como en la distribucin uniforme).
Error estndar de la media. Medida de cunto puede variar el valor de la media de una muestra a otra,
extradas stas de la misma distribucin. Puede utilizarse para comparar de forma aproximada la media
observada respecto a un valor hipotetizado (es decir, se puede concluir que los dos valores son distintos
si la diferencia entre ellos, dividida por el error estndar, es menor que -2 o mayor que +2).
Error estndar de asimetra. La razn de la asimetra sobre su error estndar puede utilizarse como una
prueba de normalidad (es decir, se puede rechazar la normalidad si la razn es menor que -2 o mayor
que +2). Un valor grande y positivo para la asimetra indica una cola larga a la derecha; un valor extremo
y negativo indica una cola larga por la izquierda
Suma. Suma o total de todos los valores, a lo largo de todos los casos con valores no perdidos.
Varianza. Medida de dispersin sobre la media, igual a la suma de las desviaciones al cuadrado de la
media divida por el nmero de casos menos uno. La varianza se mide en unidades que son el cuadrado
de las de la variable en cuestin.
Tabla de Anova y eta. Muestra una tabla de anlisis de varianza de un factor y calcula la eta y la eta
cuadrado (medidas de asociacin) para cada variable independiente de la primera capa.
Contrastes de linealidad. Calcula la suma de cuadrados, los grados de libertad y la media cuadrtica
asociados a los componentes lineal y no lineal, as como la razn F, la R y la R cuadrado. Si la variable
independiente es una cadena corta entonces la linealidad no se calcula.
Captulo 7. Medias 27
28 IBM SPSS Statistics Base 24
Captulo 8. Cubos OLAP
El procedimiento Cubos OLAP (siglas del ingls On-Line Analytic Processing, Procesamiento analtico
interactivo) calcula totales, medias y otros estadsticos univariantes para variables de resumen continuas
dentro de las categoras de una o ms variables categricas de agrupacin. En la tabla se crear una
nueva capa para cada categora de cada variable de agrupacin.
Ejemplo. El total y el promedio de ventas para diversas regiones y lneas de producto, dentro de las
regiones.
Estadsticos. Suma, nmero de casos, media, mediana, mediana agrupada, error estndar de la media,
mnimo, mximo, rango, valor de la variable para la primera categora de la variable de agrupacin, valor
de la variable para la ltima categora de la variable de agrupacin, desviacin estndar, varianza,
curtosis, error estndar de curtosis, asimetra, error estndar de asimetra, porcentaje de casos totales,
porcentaje de la suma total, porcentaje de casos totales dentro de las variables agrupadas, porcentaje de la
suma total dentro de las variables agrupadas, media geomtrica y media armnica.
Datos. Las variables de resumen son cuantitativas (variables continuas medidas en una escala de
intervalo o de razn) y las variables de agrupacin son categricas. Los valores de las variables
categricas pueden ser numricos o de cadena.
Supuestos. Algunos de los estadsticos opcionales de subgrupo, como la media y la desviacin estndar,
se basan en la teora normal y son adecuados para variables cuantitativas con distribuciones simtricas.
Los estadsticos robustos, tales como la mediana y el rango, son adecuados para las variables
cuantitativas que pueden o no cumplir el supuesto de normalidad.
Si lo desea:
v Seleccionar diferentes estadsticos de resumen (pulse en Estadsticos). Debe seleccionar una o ms
variables de agrupacin para poder seleccionar estadsticos de resumen.
v Calcule las diferencias existentes entre los pares de variables y los pares de grupos definidos por una
variable de agrupacin (pulse en Diferencias).
v Crear ttulos de tabla personalizados (pulse en Ttulo).
v Oculta recuentos que sean inferiores a un entero especificado. Los valores ocultos se mostrarn como
<N, donde N es el nmero entero especificado. El nmero entero especificado debe ser mayor o igual a
2.
Se puede cambiar el orden de aparicin de los estadsticos de subgrupo. El orden en el que aparecen en
la lista Estadsticos de casilla es el mismo orden que presentarn en los resultados. Tambin se muestran
estadsticos de resumen para cada variable a travs de todas las categoras.
Media geomtrica. La raz ensima del producto de los valores de los datos, donde n representa el nmero
de casos.
Mediana agrupada. La mediana calculada para los datos que se codifican en grupos. Por ejemplo, con
datos de edades, si cada valor de los 30 se ha codificado como 35, cada valor de los 40 como 45 y as
sucesivamente, la mediana agrupada es la mediana calculada a partir de los datos codificados.
Media armnica. Se utiliza para estimar el tamao promedio de un grupo cuando los tamaos de las
muestras de los grupos no son iguales. La media armnica es el nmero total de muestras divido por la
suma de los inversos de los tamaos de las muestras.
Curtosis. Es una medida del grado en que las observaciones se agrupan en torno a un punto central. Para
una distribucin normal, el valor del estadstico de curtosis es 0. Una curtosis positiva indica que, con
respecto a una distribucin normal, las observaciones se concentran ms en el centro de la distribucin y
presentan colas ms estrechas hasta los valores extremos de la distribucin, en cuyo punto las colas de la
distribucin leptocrtica son ms gruesas con respecto a una distribucin normal. Una curtosis negativa
indica que, con respecto a una distribucin normal, las observaciones se concentran menos y presentan
colas ms gruesas hasta los valores extremos de la distribucin, en cuyo punto las colas de la distribucin
platicrtica son ms estrechas con respecto a una distribucin normal.
Media. Una medida de tendencia central. El promedio aritmtico, la suma dividida por el nmero de
casos.
Mediana. Es el valor por encima y por debajo del cual se encuentran la mitad de los casos, el percentil 50.
Si hay un nmero par de casos, la mediana es la media de los dos valores centrales, cuando los casos se
ordenan en orden ascendente o descendente. La mediana es una medida de tendencia central que no es
sensible a los valores atpicos (a diferencia de la media, que puede resultar afectada por unos pocos
valores extremadamente altos o bajos).
Porcentaje del N en. Porcentaje del nmero de casos para la variable de agrupacin especificada dentro de
las categoras de otras variables de agrupacin. Si slo tiene una variable de agrupacin, este valor es
idntico al porcentaje del nmero de casos total.
Porcentaje de la suma en. Porcentaje de la suma para la variable de agrupacin especificada dentro de las
categoras de otras variables de agrupacin. Si slo tiene una variable de agrupacin, este valor es
idntico al porcentaje de la suma total.
Porcentaje del N total. Porcentaje del nmero total de casos en cada categora.
Rango. Diferencia entre los valores mayor y menor de una variable numrica; el mximo menos el
mnimo.
Desviacin estndar. Una medida de dispersin sobre la media. En una distribucin normal, el 68% de los
casos se encuentra dentro de una desviacin estndar de la media y el 95% queda entre dos desviaciones
estndar. Por ejemplo, si la edad media es de 45 aos, con una desviacin estndar de 10, el 95% de los
casos estara entre los 25 y 65 en una distribucin normal.
Error estndar de curtosis. La razn de la curtosis sobre su error estndar puede utilizarse como prueba de
normalidad (es decir, se puede rechazar la normalidad si la razn es menor que -2 o mayor que +2). Un
valor grande y positivo para la curtosis indica que las colas son ms largas que las de una distribucin
normal; por el contrario, un valor extremo y negativo indica que las colas son ms cortas (llegando a
tener forma de caja como en la distribucin uniforme).
Error estndar de la media. Medida de cunto puede variar el valor de la media de una muestra a otra,
extradas stas de la misma distribucin. Puede utilizarse para comparar de forma aproximada la media
observada respecto a un valor hipotetizado (es decir, se puede concluir que los dos valores son distintos
si la diferencia entre ellos, dividida por el error estndar, es menor que -2 o mayor que +2).
Error estndar de asimetra. La razn de la asimetra sobre su error estndar puede utilizarse como una
prueba de normalidad (es decir, se puede rechazar la normalidad si la razn es menor que -2 o mayor
que +2). Un valor grande y positivo para la asimetra indica una cola larga a la derecha; un valor extremo
y negativo indica una cola larga por la izquierda
Suma. Suma o total de todos los valores, a lo largo de todos los casos con valores no perdidos.
Varianza. Medida de dispersin sobre la media, igual a la suma de las desviaciones al cuadrado de la
media divida por el nmero de casos menos uno. La varianza se mide en unidades que son el cuadrado
de las de la variable en cuestin.
Diferencias entre variables. Calcula las diferencias entre pares de variables. Los valores de los
estadsticos de resumen para la segunda variable de cada par (la variable Menos) se restan de los valores
de los estadsticos de resumen correspondientes a la primera variable del par. En cuanto a las diferencias
porcentuales, el valor de la variable de resumen para la variable Menos es el que se usa como
denominador. Debe seleccionar al menos dos variables de resumen en el cuadro de dilogo principal para
poder especificar las diferencias entre las variables.
Diferencias entre grupos de casos. Calcula las diferencias entre pares de grupos definidos por una
variable de agrupacin. Los valores de los estadsticos de resumen para la segunda categora de cada par
(la variable Menos) se restan de los valores de los estadsticos de resumen correspondientes a la primera
categora del par. Las diferencias porcentuales utilizan el valor del estadstico de resumen de la categora
Prueba T para muestras independientes (prueba T para dos muestras). Compara las medias de una
variable para dos grupos de casos. Se ofrecen estadsticos descriptivos para cada grupo y la prueba de
Levene sobre la igualdad de las varianzas, as como valores t de igualdad de varianzas y varianzas
desiguales y un intervalo de confianza al 95% para la diferencia entre las medias.
Prueba T para muestras relacionadas (prueba T dependiente). Compara las medias de dos variables en
un solo grupo. Esta prueba tambin se utiliza para pares relacionados o diseos de estudio de control de
casos. El resultado incluye estadsticos descriptivos de las variables que se van a contrastar, la correlacin
entre ellas, estadsticos descriptivos de las diferencias emparejadas, la prueba t y un intervalo de
confianza al 95%.
Prueba t para una muestra. Compara la media de una variable con un valor conocido o hipotetizado. Se
muestran estadsticos descriptivos para las variables de contraste junto con la prueba t. De forma
predeterminada, en los resultados se incluye un intervalo de confianza al 95% para la diferencia entre la
media de la variable de contraste y el valor hipotetizado de la prueba.
Ejemplo. Se asigna aleatoriamente un grupo de pacientes con hipertensin arterial a un grupo con
placebo y otro con tratamiento. Los sujetos con placebo reciben una pastilla inactiva y los sujetos con
tratamiento reciben un nuevo medicamento del cual se espera que reduzca la tensin arterial. Despus de
tratar a los sujetos durante dos meses, se utiliza la prueba t para dos muestras para comparar la tensin
arterial media del grupo con placebo y del grupo con tratamiento. Cada paciente se mide una sola vez y
pertenece a un solo grupo.
Estadsticos. Para cada variable: tamao de la muestra, media, desviacin estndar y error estndar de la
media. Para la diferencia entre las medias: media, error estndar e intervalo de confianza (puede
especificar el nivel de confianza). Pruebas: prueba de Levene sobre la igualdad de varianzas y pruebas t
de varianzas combinadas y separadas sobre la igualdad de las medias.
Datos. Los valores de la variable cuantitativa de inters se hallan en una nica columna del archivo de
datos. El procedimiento utiliza una variable de agrupacin con dos valores para separar los casos en dos
grupos. La variable de agrupacin puede ser numrica (valores como 1 y 2, o 6,25 y 12,5) o de cadena
corta (como s y no). Tambin puede usar una variable cuantitativa, como la edad, para dividir los casos
en dos grupos especificando un punto de corte (el punto de corte 21 divide la edad en un grupo de
menos de 21 aos y otro de ms de 21).
Para las variables de agrupacin de cadena, escriba una cadena para el Grupo 1 y otra para el Grupo 2;
por ejemplo s y no. Los casos con otras cadenas se excluyen del anlisis.
Valores perdidos. Si ha probado varias variables y se han perdido los datos de una o ms de ellas, puede
indicar al procedimiento qu casos desea incluir (o excluir).
v Excluir casos segn anlisis. Cada prueba t utiliza todos los casos que tienen datos vlidos para las
variables contrastadas. Los tamaos muestrales pueden variar de una prueba a otra.
v Excluir casos segn lista. Cada prueba t utiliza slo aquellos casos que contienen datos vlidos para
todas las variables utilizadas en las pruebas t solicitadas. El tamao de la muestra es constante en
todas las pruebas.
Ejemplo. En un estudio sobre la hipertensin sangunea, se toma la tensin a todos los pacientes al
comienzo del estudio, se les aplica un tratamiento y se les toma la tensin otra vez. De esta manera, a
cada sujeto le corresponden dos medidas, normalmente denominadas medidas pre y post. Un diseo
alternativo para el que se utiliza esta prueba consiste en un estudio de pares relacionados o un estudio de
control de casos en el que cada registro en el archivo de datos contiene la respuesta del paciente y de su
Estadsticos. Para cada variable: media, tamao de la muestra, desviacin estndar y error estndar de la
media. Para cada par de variables: correlacin, diferencia promedio entre las medias, prueba t de
intervalo de confianza para la diferencia entre las medias (puede especificarse el nivel de confianza).
Desviacin estndar y error estndar de la diferencia entre las medias.
Datos. Especifique dos variables cuantitativas (nivel de medicin de intervalo o de razn) para cada
prueba de pares. En un estudio de pares relacionados o de control de casos, la respuesta de cada sujeto
de la prueba y su sujeto de control correspondiente debern hallarse en el mismo caso en el archivo de
datos.
Supuestos. Las observaciones de cada par deben hacerse en las mismas condiciones. Las diferencias entre
las medias deben estar normalmente distribuidas. Las varianzas de cada variable pueden ser iguales o
desiguales.
Valores perdidos. Si ha probado varias variables y se han perdido los datos de una o ms de ellas, puede
indicar al procedimiento qu casos desea incluir (o excluir):
v Excluir casos segn anlisis. Cada prueba t utilizar todos los casos que contienen datos vlidos para
la pareja de variables contrastadas. Los tamaos muestrales pueden variar de una prueba a otra.
v Excluir casos segn lista. Cada prueba t utilizar nicamente los casos que contengan datos vlidos
para todas las parejas de variables contrastadas. El tamao de la muestra es constante en todas las
pruebas.
Captulo 9. Pruebas T 35
Ejemplos. Un investigador desea comprobar si la puntuacin media del coeficiente intelectual de un
grupo de alumnos difiere de 100. O bien, un fabricante de copos de cereales puede tomar una muestra de
envases de la lnea de produccin y comprobar si el peso medio de las muestras difiere de 1 kg con un
nivel de confianza al 95%.
Estadsticos. Para cada variable de prueba: media, desviacin estndar y error estndar de la media. La
diferencia promedio entre cada valor de los datos y el valor de contraste hipotetizado, una prueba t que
contrasta que esta diferencia es 0 y un intervalo de confianza para la diferencia promedio (para el que
puede especificarse el nivel de confianza).
Datos. Para contrastar los valores de una variable cuantitativa con un valor de contraste hipotetizado,
elija una variable cuantitativa e introduzca un valor de contraste hipotetizado.
Supuestos. Esta prueba asume que los datos estn normalmente distribuidos; sin embargo, esta prueba es
bastante robusto frente a las desviaciones de la normalidad.
Valores perdidos. Si ha probado varias variables y se han perdido los datos de una o ms de ellas, puede
indicar al procedimiento qu casos desea incluir (o excluir).
v Excluir casos segn anlisis. Cada prueba t utiliza todos los casos que tienen datos vlidos para la
variable contrastada. Los tamaos muestrales pueden variar de una prueba a otra.
v Excluir casos segn lista. Cada prueba t utiliza slo aquellos casos que contienen datos vlidos para
todas las variables utilizadas en las pruebas t solicitadas. El tamao de la muestra es constante en
todas las pruebas.
Captulo 9. Pruebas T 37
38 IBM SPSS Statistics Base 24
Captulo 10. ANOVA de un factor
El procedimiento ANOVA de un factor genera un anlisis de varianza de un factor para una variable
dependiente cuantitativa respecto a una nica variable de factor (la variable independiente). El anlisis de
varianza se utiliza para contrastar la hiptesis de que varias medias son iguales. Esta tcnica es una
extensin de la prueba t para dos muestras.
Adems de determinar que existen diferencias entre las medias, es posible que desee saber qu medias
difieren. Existen dos tipos de contrastes para comparar medias: a priori y post hoc. Los contrastes a priori
se plantean antes de ejecutar el experimento y los contrastes post hoc se realizan despus de haber llevado
a cabo el experimento. Tambin puede contrastar las tendencias existentes a travs de las categoras.
Ejemplo. Las rosquillas absorben diferentes cantidades de grasa cuando se fren. Se plantea un
experimento utilizando tres tipos de grasas: aceite de cacahuete, aceite de maz y manteca de cerdo. El
aceite de cacahuete y el aceite de maz son grasas no saturadas y la manteca es una grasa saturada.
Adems de determinar si la cantidad de grasa absorbida depende del tipo de grasa utilizada, tambin se
podra preparar un contraste a priori para determinar si la cantidad de absorcin de la grasa difiere para
las grasas saturadas y las no saturadas.
Estadsticos. Para cada grupo: nmero de casos, media, desviacin estndar, error estndar de la media,
mnimo, mximo, intervalo de confianza al 95% para la media. Prueba de Levene sobre la homogeneidad
de varianzas, tabla de anlisis de varianza y contrastes robustos de igualdad de medias para cada
variable dependiente, contrastes a priori especificados por el usuario y las pruebas de rango y de
comparaciones mltiples post hoc: Bonferroni, Sidak, diferencia honestamente significativa de Tukey, GT2
de Hochberg, Gabriel, Dunnett, prueba F de Ryan-Einot-Gabriel-Welsch, (R-E-G-W F), prueba de rango de
Ryan-Einot-Gabriel-Welsch (R-E-G-W Q), T2 de Tamhane, T3 de Dunnett, Games-Howell, C, de Dunnett,
prueba de rango mltiple de Duncan, Student-Newman-Keuls (S-N-K), b de Tukey, Waller-Duncan,
Scheff y diferencia menos significativa.
Datos. Los valores de la variable de factor deben ser enteros y la variable dependiente debe ser
cuantitativa (nivel de medicin de intervalo).
Supuestos. Cada grupo es una muestra aleatoria independiente procedente de una poblacin normal. El
anlisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos debern ser
simtricos. Los grupos deben proceder de poblaciones con varianzas iguales. Para contrastar este
supuesto, utilice la prueba de Levene de homogeneidad de varianzas.
Polinmico. Divide las sumas de cuadrados inter-grupos en componentes de tendencia. Puede contrastar
la existencia de tendencia en la variable dependiente a travs de los niveles ordenados de la variable de
Coeficientes. Contrastes a priori especificados por el usuario que sern contrastados mediante el
estadstico t. Introduzca un coeficiente para cada grupo (categora) de la variable factor y pulse en Aadir
despus de cada entrada. Cada nuevo valor se aade al final de la lista de coeficientes. Para especificar
conjuntos de contrastes adicionales, pulse en Siguiente. Utilice Siguiente y Anterior para desplazarse por
los conjuntos de contrastes.
El orden de los coeficientes es importante porque se corresponde con el orden ascendente de los valores
de las categoras de la variable de factor. El primer coeficiente en la lista se corresponde con el menor de
los valores de grupo en la variable de factor y el ltimo coeficiente se corresponde con el valor ms alto.
Por ejemplo, si existen seis categoras en la variable factor, los coeficientes -1, 0, 0, 0, 0,5 y 0,5 contrastan
el primer grupo con los grupos quinto y sexto. Para la mayora de las aplicaciones, la suma de los
coeficientes debera ser 0. Los conjuntos que no sumen 0 tambin se pueden utilizar, pero aparecer un
mensaje de advertencia.
Las pruebas de comparaciones mltiples que no suponen varianzas iguales son T2 de Tamhane, T3 de
Dunnett, Games-Howell y C de Dunnett.
v T2 de Tamhane. Prueba conservadora de comparacin por parejas basada en la prueba t. Esta prueba es
adecuada cuando las varianzas son desiguales.
v T3 de Dunnett. Prueba de comparacin por parejas basada en el mdulo mximo estudentizado. Esta
prueba es adecuada cuando las varianzas son desiguales.
v Games-Howell. Prueba de comparacin por parejas que es en ocasiones liberal. Esta prueba es adecuada
cuando las varianzas son desiguales.
v C de Dunnett. Prueba de comparacin por parejas basada en el rango estudentizado. Esta prueba es
adecuada cuando las varianzas son desiguales.
Nota: posiblemente le resulte ms fcil interpretar el resultado de los contrastes post hoc si desactiva
Ocultar filas y columnas vacas en el cuadro de dilogo Propiedades de tabla (en una tabla dinmica
activada, seleccione Propiedades de tabla en el men Formato).
Grfico de las medias. Muestra un grfico que representa las medias de los subgrupos (las medias para
cada grupo definido por los valores de la variable factor).
Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera que un
diseo est equilibrado si cada casilla del modelo contiene el mismo nmero de casos. Adems de
contrastar hiptesis, MLG Univariante genera estimaciones de los parmetros.
Tambin se encuentran disponibles los contrastes a priori de uso ms habitual para contrastar las
hiptesis. Adems, si una prueba F global ha mostrado cierta significacin, pueden emplearse las pruebas
post hoc para evaluar las diferencias entre las medias especficas. Las medias marginales estimadas
ofrecen estimaciones de valores de las medias pronosticados para las casillas del modelo; los grficos de
perfil (grficos de interacciones) de estas medias permiten observar fcilmente algunas de estas
relaciones.
En su archivo de datos puede guardar residuos, valores pronosticados, distancia de Cook y valores de
influencia como variables nuevas para comprobar los supuestos.
Ponderacin MCP permite especificar una variable usada para aplicar a las observaciones una
ponderacin diferente en un anlisis de mnimos cuadrados ponderados (MCP), por ejemplo para
compensar la distinta precisin de las mediciones.
Ejemplo. Se recogen datos de los corredores individuales en el maratn de Chicago durante varios aos.
El tiempo final de cada corredor es la variable dependiente. Influyen otros factores como el clima (fro,
calor o temperatura agradable), los meses de entrenamiento, el nmero de maratones anteriores y el sexo.
La edad se considera una covariable. Observar que el sexo es un efecto significativo y que la interaccin
del sexo con el clima es significativa.
Mtodos. Las sumas de cuadrados de Tipo I, Tipo II, Tipo III y Tipo IV pueden emplearse para evaluar
las diferentes hiptesis. Tipo III es el valor predeterminado.
Estadsticos. Las pruebas de rango post hoc y las comparaciones mltiples: Diferencia menos significativa
(DMS), Bonferroni, Sidak, Scheff, Mltiples F de Ryan-Einot-Gabriel-Welsch (R-E-G-W-F), Rango mltiple
de Ryan-Einot-Gabriel-Welsch, Student-Newman-Keuls (S-N-K), Diferencia honestamente significativa de
Tukey, b de Tukey, Duncan, GT2 de Hochberg, Gabriel, Pruebas t de Waller Duncan, Dunnett (unilateral y
bilateral), T2 de Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett. Estadsticos descriptivos:
medias observadas, desviaciones estndar y frecuencias de todas las variables dependientes en todas las
casillas. Prueba de Levene para la homogeneidad de varianzas.
Diagramas. Diagramas de dispersin por nivel, grficos de residuos, grficos de perfil (interaccin).
Supuestos. Los datos son una muestra aleatoria de una poblacin normal; en la poblacin, todas las
varianzas de las casillas son iguales. El anlisis de varianza es robusto a las desviaciones de la
normalidad, aunque los datos debern ser simtricos. Para comprobar los supuestos, puede utilizar la
prueba de homogeneidad de varianzas y los grficos de dispersin por nivel. Tambin puede examinar
los residuos y los grficos de residuos.
MLG: Modelo
Especificar modelo. Un modelo factorial completo contiene todos los efectos principales del factor, todos
los efectos principales de las covariables y todas las interacciones factor por factor. No contiene
interacciones de covariable. Seleccione Personalizado para especificar slo un subconjunto de
interacciones o para especificar interacciones factor por covariable. Indique todos los trminos que desee
incluir en el modelo.
Suma de cuadrados Determina el mtodo para calcular las sumas de cuadrados. Para los modelos
equilibrados y no equilibrados sin casillas perdidas, el mtodo de suma de cuadrados ms utilizado es el
de Tipo III.
Generar trminos
Para las covariables y los factores seleccionados:
Interaccin. Crea el trmino de interaccin de mayor nivel con todas las variables seleccionadas. Este es
el mtodo predeterminado.
Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada.
Todas de 2. Crea todas las interacciones bidimensionales posibles de las variables seleccionadas.
Todas de 3. Crea todas las interacciones tridimensionales posibles de las variables seleccionadas.
Todas de 4. Crea todas las interacciones tetradimensionales posibles de las variables seleccionadas.
Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas.
Suma de cuadrados
Para el modelo, puede elegir un tipo de suma de cuadrados. El Tipo III es el ms utilizado y es el tipo
predeterminado.
Tipo I. Este mtodo tambin se conoce como el mtodo de descomposicin jerrquica de la suma de
cuadrados. Cada trmino se corrige slo respecto al trmino que le precede en el modelo. El mtodo Tipo
I para la obtencin de sumas de cuadrados se utiliza normalmente para:
v Un modelo ANOVA equilibrado en el que se especifica cualquier efecto principal antes de cualquier
efecto de interaccin de primer orden, cualquier efecto de interaccin de primer orden se especifica
antes de cualquier efecto de interaccin de segundo orden, y as sucesivamente.
v Un modelo de regresin polinmica en el que se especifica cualquier trmino de orden inferior antes
que cualquier trmino de orden superior.
v Un modelo puramente anidado en el que el primer efecto especificado est anidado dentro del
segundo efecto especificado, el segundo efecto especificado est anidado dentro del tercero, y as
sucesivamente. Esta forma de anidamiento solamente puede especificarse utilizando la sintaxis.
Tipo II. Este mtodo calcula cada suma de cuadrados del modelo considerando slo los efectos
pertinentes. Un efecto pertinente es el que corresponde a todos los efectos que no contienen el que se est
examinando. El mtodo de suma de cuadrados de Tipo II se utiliza normalmente para:
v Un modelo ANOVA equilibrado.
v Cualquier modelo que slo tenga efectos de factor principal.
v Cualquier modelo de regresin.
v Un diseo puramente anidado (esta forma de anidamiento solamente puede especificarse utilizando la
sintaxis).
Tipo III. Es el mtodo predeterminado. Este mtodo calcula las sumas de cuadrados de un efecto de
diseo como las sumas de cuadrados corregidas respecto a cualquier otro efecto que no lo contenga y
Tipo IV. Este mtodo est diseado para una situacin en la que hay casillas perdidas. Para cualquier
efecto F en el diseo, si F no est contenida en cualquier otro efecto, entonces Tipo IV = Tipo III = Tipo II.
Cuando F est contenida en otros efectos, el Tipo IV distribuye equitativamente los contrastes que se
realizan entre los parmetros en F a todos los efectos de nivel superior. El mtodo de suma de cuadrados
de Tipo I se utiliza normalmente para:
v Cualquiera de los modelos que aparecen en los tipos I y II.
v Cualquier modelo equilibrado o no equilibrado con casillas vacas.
MLG: Contrastes
Los contrastes se utilizan para contrastar las diferencias entre los niveles de un factor. Puede especificar
un contraste para cada factor en el modelo (en un modelo de medidas repetidas, para cada factor
inter-sujetos). Los contrastes representan las combinaciones lineales de los parmetros.
Los resultados incluyen un estadstico F para cada conjunto de contrastes. Para el contraste de diferencias
tambin se muestran los intervalos de confianza simultneos de tipo Bonferroni basados en la
distribucin t de Student.
Contrastes disponibles
Tipos de contrastes
Desviacin. Compara la media de cada nivel (excepto una categora de referencia) con la media de todos
los niveles (media global). Los niveles del factor pueden colocarse en cualquier orden.
Simple. Compara la media de cada nivel con la media de un nivel especificado. Este tipo de contraste
resulta til cuando existe un grupo de control. Puede seleccionar la primera o la ltima categora como
referencia.
Diferencia. Compara la media de cada nivel (excepto el primero) con la media de los niveles anteriores (a
veces tambin se denominan contrastes de Helmert inversos). (A veces tambin se denominan contrastes
de Helmert inversos).
Helmert. Compara la media de cada nivel del factor (excepto el ltimo) con la media de los niveles
siguientes.
Repetidas. Compara la media de cada nivel (excepto el ltimo) con la media del nivel siguiente.
Un grfico de perfil de un factor muestra si las medias marginales estimadas aumentan o disminuyen a
travs de los niveles. Para dos o ms factores, las lneas paralelas indican que no existe interaccin entre
los factores, lo que significa que puede investigar los niveles de un nico factor. Las lneas no paralelas
indican una interaccin.
Despus de especificar un grfico mediante la seleccin de los factores del eje horizontal y, de manera
opcional, los factores para distintas lneas y grficos, el grfico deber aadirse a la lista de grficos.
Opciones MLG
Este cuadro de dilogo contiene estadsticos opcionales. Los estadsticos se calculan utilizando un modelo
de efectos fijos.
Medias marginales estimadas. Seleccione los factores e interacciones para los que desee obtener
estimaciones de las medias marginales de la poblacin en las casillas. Estas medias se corrigen respecto a
las covariables, si las hay.
v Comparar los efectos principales. Proporciona comparaciones por parejas no corregidas entre las
medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores
inter-sujetos como para los intra-sujetos. Este elemento slo se encuentra disponible si los efectos
principales estn seleccionados en la lista Mostrar las medias para.
v Ajuste del intervalo de confianza. Seleccione un ajuste de diferencia menor significativa (DMS),
Bonferroni o Sidak para los intervalos de confianza y la significacin. Este elemento slo estar
disponible si se selecciona Comparar los efectos principales.
Las pruebas de homogeneidad producen la prueba de homogeneidad de varianzas de Levene para cada
variable dependiente en todas las combinaciones de nivel de los factores inter-sujetos slo para factores
inter-sujetos. Las opciones de diagramas de dispersin por nivel y grfico de los residuos son tiles para
comprobar los supuestos sobre los datos. Estos elementos no estarn activado si no hay factores.
Seleccione Grficos de los residuos para generar un grfico de los residuos observados respecto a los
pronosticados respecto a los tipificados para cada variable dependiente. Estos grficos son tiles para
investigar el supuesto de varianzas iguales. Seleccione Falta de ajuste para comprobar si el modelo puede
describir de forma adecuada la relacin entre la variable dependiente y las variables independientes. La
funcin estimable general permite construir pruebas de hiptesis personales basadas en la funcin
estimable general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la
funcin estimable general.
Nivel de significacin. Puede que le interese corregir el nivel de significacin usado en las pruebas post
hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado
tambin se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de
significacin, el cuadro de dilogo mostrar el nivel asociado de los intervalos de confianza.
La prueba t de comparacin mltiple por parejas de Dunnett compara un conjunto de tratamientos con
una media de control simple. La ltima categora es la categora de control predeterminada. Si lo desea,
puede seleccionar la primera categora. Asimismo, puede elegir una prueba unilateral o bilateral. Para
comprobar que la media de cualquier nivel del factor (excepto la categora de control) no es igual a la de
la categora de control, utilice una prueba bilateral. Para contrastar si la media en cualquier nivel del
factor es menor que la de la categora de control, seleccione < Control. Asimismo, para contrastar si la
media en cualquier nivel del factor es mayor que la de la categora de control, seleccione > Control.
Ryan, Einot, Gabriel y Welsch (R-E-G-W) desarrollaron dos pruebas de rangos mltiples por pasos. Los
procedimientos mltiples por pasos (por tamao de las distancias) contrastan en primer lugar si todas las
medias son iguales. Si no son iguales, se contrasta la igualdad en los subconjuntos de medias. R-E-G-W F
se basa en una prueba F y R-E-G-W Q se basa en un rango estudentizado. Estas pruebas son ms
potentes que la prueba de rangos mltiples de Duncan y Student-Newman-Keuls (que tambin son
procedimientos mltiples por pasos), pero no se recomiendan para tamaos de casillas desiguales.
Cuando las varianzas son desiguales, utilice T2 de Tamhane (prueba conservadora de comparacin por
parejas basada en una prueba t), T3 de Dunnett (prueba de comparacin por parejas basada en el
mdulo mximo estudentizado), prueba de comparacin por parejas Games-Howell (a veces liberal), o
C de Dunnett (prueba de comparacin por parejas basada en el rango estudentizado). Tenga en cuenta
que estas pruebas no son vlidas y no se realizarn si el modelo tiene mltiples factores.
La prueba t de Waller-Duncan utiliza la aproximacin bayesiana. Esta prueba de rango emplea la media
armnica del tamao de la muestra cuando los tamaos muestrales no son iguales.
El nivel de significacin de la prueba de Scheff est diseado para permitir todas las combinaciones
lineales posibles de las medias de grupo que se van a contrastar, no slo las comparaciones por parejas
disponibles en esta caracterstica. El resultado es que la prueba de Scheff es normalmente ms
conservadora que otras pruebas, lo que significa que se precisa una mayor diferencia entre las medias
para la significacin.
Pruebas mostradas. Se proporcionan comparaciones por parejas para DMS, Sidak, Bonferroni,
Games-Howell, T2 y T3 de Tamhane, C de Dunnett y T3 de Dunnett. Tambin se facilitan subconjuntos
homogneos para S-N-K, b de Tukey, Duncan, R-E-G-W F, R-E-G-W Q y Waller. La prueba de la
diferencia honestamente significativa de Tukey, la GT2 de Hochberg, la prueba de Gabriel y la prueba de
Scheff son pruebas de comparaciones mltiples y pruebas de rango.
Opciones MLG
Este cuadro de dilogo contiene estadsticos opcionales. Los estadsticos se calculan utilizando un modelo
de efectos fijos.
Medias marginales estimadas. Seleccione los factores e interacciones para los que desee obtener
estimaciones de las medias marginales de la poblacin en las casillas. Estas medias se corrigen respecto a
las covariables, si las hay.
v Comparar los efectos principales. Proporciona comparaciones por parejas no corregidas entre las
medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores
inter-sujetos como para los intra-sujetos. Este elemento slo se encuentra disponible si los efectos
principales estn seleccionados en la lista Mostrar las medias para.
v Ajuste del intervalo de confianza. Seleccione un ajuste de diferencia menor significativa (DMS),
Bonferroni o Sidak para los intervalos de confianza y la significacin. Este elemento slo estar
disponible si se selecciona Comparar los efectos principales.
Las pruebas de homogeneidad producen la prueba de homogeneidad de varianzas de Levene para cada
variable dependiente en todas las combinaciones de nivel de los factores inter-sujetos slo para factores
inter-sujetos. Las opciones de diagramas de dispersin por nivel y grfico de los residuos son tiles para
comprobar los supuestos sobre los datos. Estos elementos no estarn activado si no hay factores.
Seleccione Grficos de los residuos para generar un grfico de los residuos observados respecto a los
pronosticados respecto a los tipificados para cada variable dependiente. Estos grficos son tiles para
investigar el supuesto de varianzas iguales. Seleccione Falta de ajuste para comprobar si el modelo puede
describir de forma adecuada la relacin entre la variable dependiente y las variables independientes. La
funcin estimable general permite construir pruebas de hiptesis personales basadas en la funcin
estimable general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la
funcin estimable general.
Nivel de significacin. Puede que le interese corregir el nivel de significacin usado en las pruebas post
hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado
tambin se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de
significacin, el cuadro de dilogo mostrar el nivel asociado de los intervalos de confianza.
MLG: Guardar
Es posible guardar los valores pronosticados por el modelo, los residuos y las medidas relacionadas como
variables nuevas en el Editor de datos. Muchas de estas variables se pueden utilizar para examinar
supuestos sobre los datos. Si desea almacenar los valores para utilizarlos en otra sesin de IBM SPSS
Statistics, gurdelos en el archivo de datos actual.
Valores pronosticados. Son los valores que predice el modelo para cada caso.
v No tipificados. Valor predicho por el modelo para la variable dependiente.
v Ponderados. Los valores pronosticados no tipificados ponderados. Slo estn disponibles si se
seleccion previamente una variable de ponderacin MCP.
v Error estndar. Estimacin de la desviacin estndar del valor promedio de la variable dependiente
para los casos que tengan los mismos valores en las variables independientes.
Diagnsticos. Son medidas para identificar casos con combinaciones poco usuales de valores para los
casos y las variables independientes que puedan tener un gran impacto en el modelo.
v Distancia de Cook. Una medida de cunto cambiaran los residuos de todos los casos si un caso
particular se excluyera del clculo de los coeficientes de regresin. Una Distancia de Cook grande
indica que la exclusin de ese caso del clculo de los estadsticos de regresin har variar
substancialmente los coeficientes.
v Valores de influencia. Los valores de influencia no centrados. La influencia relativa de una observacin
en el ajuste del modelo.
Residuos. Un residuo no tipificado es el valor real de la variable dependiente menos el valor predicho
por el modelo. Tambin se encuentran disponibles residuos eliminados, estudentizados y tipificados. Si ha
seleccionado una variable MCP, contar adems con residuos no tipificados ponderados.
Estadsticos de los coeficientes. Escribe una matriz varianza-covarianza de las estimaciones de los
parmetros del modelo en un nuevo conjunto de datos de la sesin actual o un archivo de datos externo
de IBM SPSS Statistics. Asimismo, para cada variable dependiente habr una fila de estimaciones de los
parmetros, una fila de valores de significacin para los estadsticos t correspondientes a las estimaciones
de los parmetros y una fila de grados de libertad de los residuos. En un modelo multivariante, existen
filas similares para cada variable dependiente. Si lo desea, puede usar este archivo matricial en otros
procedimientos que lean archivos matriciales.
Opciones MLG
Este cuadro de dilogo contiene estadsticos opcionales. Los estadsticos se calculan utilizando un modelo
de efectos fijos.
Medias marginales estimadas. Seleccione los factores e interacciones para los que desee obtener
estimaciones de las medias marginales de la poblacin en las casillas. Estas medias se corrigen respecto a
las covariables, si las hay.
v Comparar los efectos principales. Proporciona comparaciones por parejas no corregidas entre las
medias marginales estimadas para cualquier efecto principal del modelo, tanto para los factores
inter-sujetos como para los intra-sujetos. Este elemento slo se encuentra disponible si los efectos
principales estn seleccionados en la lista Mostrar las medias para.
v Ajuste del intervalo de confianza. Seleccione un ajuste de diferencia menor significativa (DMS),
Bonferroni o Sidak para los intervalos de confianza y la significacin. Este elemento slo estar
disponible si se selecciona Comparar los efectos principales.
Las pruebas de homogeneidad producen la prueba de homogeneidad de varianzas de Levene para cada
variable dependiente en todas las combinaciones de nivel de los factores inter-sujetos slo para factores
inter-sujetos. Las opciones de diagramas de dispersin por nivel y grfico de los residuos son tiles para
comprobar los supuestos sobre los datos. Estos elementos no estarn activado si no hay factores.
Seleccione Grficos de los residuos para generar un grfico de los residuos observados respecto a los
pronosticados respecto a los tipificados para cada variable dependiente. Estos grficos son tiles para
investigar el supuesto de varianzas iguales. Seleccione Falta de ajuste para comprobar si el modelo puede
describir de forma adecuada la relacin entre la variable dependiente y las variables independientes. La
Nivel de significacin. Puede que le interese corregir el nivel de significacin usado en las pruebas post
hoc y el nivel de confianza empleado para construir intervalos de confianza. El valor especificado
tambin se utiliza para calcular la potencia observada para la prueba. Si especifica un nivel de
significacin, el cuadro de dilogo mostrar el nivel asociado de los intervalos de confianza.
Ejemplo. Est el nmero de partidos ganados por un equipo de baloncesto correlacionado con el
nmero medio de puntos anotados por partido? Un diagrama de dispersin indica que existe una
relacin lineal. Al analizar los datos de la temporada 19941995 de la NBA, se descubre que el coeficiente
de correlacin de Pearson (0,581) es significativo al nivel 0,01. Se puede sospechar que cuantos ms
partidos se ganen por temporada, menos puntos habrn anotado los adversarios. Estas variables estn
correlacionadas negativamente (-0,401) y la correlacin es significativa al nivel 0,05.
Estadsticos. Para cada variable: nmero de casos sin valores perdidos, media y desviacin estndar. Para
cada par de variables: coeficiente de correlacin de Pearson, rho de Spearman, tau-b de Kendall,
productos vectoriales de las desviaciones y covarianzas.
Datos. Utilice variables cuantitativas simtricas para el coeficiente de correlacin de Pearson y variables
cuantitativas o variables con categoras ordenadas para la rho de Spearman y la tau-b de Kendall.
Supuestos. El coeficiente de correlacin de Pearson asume que cada pareja de variables es normal
bivariada.
Ejemplo. Existe alguna relacin entre la financiacin sanitaria y las tasas de enfermedad? Aunque cabe
esperar que dicha relacin sea negativa, un estudio describe una correlacin positiva significativa: si la
financiacin sanitaria aumenta, las tasas de enfermedad parecen disminuir. Sin embargo, si se controla la
tasa de visitas de visitadores mdicos, se elimina prcticamente la correlacin positiva observada. La
financiacin sanitaria y las tasas de enfermedad slo parecen estar relacionadas positivamente debido a
que ms personas tienen acceso a la sanidad si la financiacin aumenta, lo que tiene como resultado que
los mdicos y hospitales informen de ms enfermedades.
Estadsticos. Para cada variable: nmero de casos sin valores perdidos, media y desviacin estndar.
Matrices de correlacin de orden cero y parcial, con grados de libertad y niveles de significacin.
Supuestos. El procedimiento Correlaciones parciales supone que cada par de variables es normal
bivariante.
Ejemplo. Es posible medir similaridades entre pares de automviles en funcin de ciertas caractersticas,
como tipo de motor, consumo y potencia? Al calcular las similitudes entre los coches, se puede obtener
una nocin de qu coches son similares entre s y cules son diferentes. Para un anlisis ms formal,
puede considerar la aplicacin de un anlisis jerrquico de clsteres o escalamiento multidimensional a
las similitudes para explorar la estructura subyacente.
Estadsticos. Las medidas de diferencia (distancia) para datos de un intervalo son Distancia eucldea,
Distancia eucldea al cuadrado, Chebychev, bloque, Minkowski o personalizada; para datos de recuento,
medida de chi-cuadrado o phi-cuadrado; para datos binarios, Distancia eucldea, Distancia eucldea al
cuadrado, diferencia de tamao, diferencia de configuracin, varianza, forma o Lance y Williams. Las
medidas de similitud para datos de intervalos son correlacin de Pearson o coseno; para datos binarios,
Russel y Rao, concordancia simple, Jaccard, Dice, Rogers y Tanimoto, Sokal y Sneath 1, Sokal y Sneath 2,
Sokal y Sneath 3, Kulczynski 1, Kulczynski 2, Sokal y Sneath 4, Hamann, Lambda, D de Anderberg, Y de
Yule, Q de Yule, Ochiai, Sokal y Sneath 5, correlacin Phi de 4 puntos o dispersin.
El grupo Transformar valores permite estandarizar los valores de los datos para casos o variables antes de
calcular proximidades. Estas transformaciones no se pueden aplicar a los datos binarios. Los mtodos
disponibles de estandarizacin son: Puntuaciones z, Rango -1 a 1, Rango 0 a 1, Magnitud mxima de 1,
Media de 1 o Desviacin estndar 1.
El grupo Transformar medidas permite transformar los valores generados por la medida de distancia. Se
aplican despus de calcular la medida de distancia. Las opciones disponibles son: Valores absolutos,
Cambiar el signo y Cambiar la escala al rango 01.
El grupo Transformar valores permite estandarizar los valores de los datos para casos o variables antes
de calcular proximidades. Estas transformaciones no se pueden aplicar a los datos binarios. Los mtodos
disponibles de estandarizacin son: Puntuaciones z, Rango -1 a 1, Rango 0 a 1, Magnitud mxima de 1,
Media de 1 y Desviacin estndar 1.
El grupo Transformar medidas permite transformar los valores generados por la medida de distancia. Se
aplican despus de calcular la medida de distancia. Las opciones disponibles son: Valores absolutos,
Cambiar el signo y Cambiar la escala al rango 01.
Los modelos lineales son relativamente simples y proporcionan una frmula matemtica fcil de
interpretar para la puntuacin. Las propiedades de estos modelos se comprenden bien y se pueden crear
rpidamente en comparacin con el resto de tipos de modelos (como redes neuronales o rboles de
decisin) en el mismo conjunto de datos.
Ejemplo. Una corredura de seguros con recursos limitados para investigar las reclamaciones de seguros
de los asegurados desea crear un modelo para estimar los costes de las reclamaciones. Al desplegar este
modelo a los centros de servicio, los representantes pueden introducir informacin de la reclamacin
mientras estn al telfono con un cliente y obtener inmediatamente el coste "esperado" de la reclamacin
en funcin de datos de archivo.
Requisitos de campo. Debe haber un objetivo y al menos una entrada. De forma predeterminada, los
campos con las funciones predefinidas de Ambos o Ninguno no se utilizan. El objetivo debe ser continuo
(escala). No hay ninguna restriccin de nivel de medicin en los predictores (entradas); los campos
categricos (nominal y ordinal) se utilizan como factores en el modelo y los campos continuos se utilizan
como covariables.
Objetivos
Cul es su objetivo principal? Seleccione el objetivo adecuado.
v Crear un modelo estndar. El mtodo crea un nico modelo para pronosticar el objetivo utilizando los
predictores. Por lo general, los modelos estndar son ms fciles de interpretar y pueden ser ms
rpidos de puntuar que conjuntos de datos potenciados, empaquetados o grandes.
v Mejorar la precisin de modelos (boosting). El mtodo crea un modelo de conjunto utilizando
potenciacin, que genera una secuencia de modelos para obtener predicciones ms precisas. Los
conjuntos pueden tardar ms en generarse y puntuarse que un modelo estndar.
La potenciacin produce una sucesin de "modelos de componente", cada uno creado con el conjunto
de datos al completo. Antes de crear cada modelo de componente, los archivos se ponderan basndose
en los residuos de los anteriores modelos de componente. Los casos con muchos residuos reciben
ponderaciones de anlisis relativamente mayores para que el prximo modelo de componente se centre
Consulte Conjuntos en la pgina 64 para ver la informacin de configuracin relacionada con boosting,
bagging y conjuntos de datos de gran tamao.
Conceptos bsicos
Preparar automticamente datos. Esta opcin permite el procedimiento de transformar de forma interna
el destino y predictores para maximizar el poder predictivo del modelo; las transformaciones se guardan
con el modelo y se aplican a los nuevos datos para su puntuacin. Las versiones originales de los campos
transformados se excluyen del modelo. De forma predeterminada, se realiza la siguiente preparacin
automtica de datos.
v Fecha y hora. Cada predictor de fecha se transforma en un nuevo predictor continuo que contiene el
tiempo transcurrido desde una fecha de referencia (01-01-1970). Cada predictor de hora se transforma
en un nuevo predictor continuo que contiene el tiempo transcurrido desde una hora de referencia
(00:00:00).
v Ajustar nivel de medicin. Los predictores continuos con menos de 5 valores distintos se reestructuran
como predictores ordinales. Los predictores ordinales con ms de 10 valores distintos se reestructuran
como predictores continuos.
v Tratamiento de valores atpicos. Los valores de los predictores continuos que recaen ms all de un
valor de corte (3 desviaciones estndar de la media) se establecen con el valor de corte.
v Manejo de valores perdidos. Los valores perdidos de los predictores nominales se sustituyen por el
modo de la particin de entrenamiento. Los valores perdidos de los predictores ordinales se sustituyen
por la mediana de la particin de entrenamiento. Los valores perdidos de los predictores continuos se
sustituyen por la media de la particin de entrenamiento.
v Fusin supervisada. Hace un modelo ms parsimonioso reduciendo el nmero de campos que deben
procesarse junto con el destino. Las categoras similares se identifican en funcin de la relacin entre la
entrada y destino. Las categoras que no son significativamente diferentes (es decir, que tienen un valor
p superior al valor 0,1) se fusionan. Tenga en cuenta que si todas las categoras se combinan en una, las
versiones original y derivada del campo se excluyen del modelo porque no tienen ningn valor como
predictor.
Nivel de confianza. ste es el nivel de confianza que se utiliza para calcular las estimaciones de
intervalos de los coeficientes de modelos en la vista Coeficientes. Especifique un valor mayor que 0 y
menor que 100. El valor predeterminado es 95.
Seleccin de Pasos sucesivos hacia adelante. Comienza sin efectos en el modelo y aade y elimina
efectos paso por paso hasta que ya no se puedan aadir o eliminar segn los criterios de los pasos
sucesivos.
v Criterios para entrada/eliminacin. ste es el estadstico utilizado para determinar si debe aadirse o
eliminarse un efecto del modelo. Criterio de informacin (AICC) se basa en la similitud del conjunto
de entrenamiento que se le da al modelo, y se ajusta para penalizar modelos excesivamente complejos.
Estadsticos de F se utiliza en una prueba estadstica de la mejora en el error de modelo. R cuadrado
corregida se basa en el ajuste del conjunto de entrenamiento, y se ajusta para penalizar modelos
excesivamente complejos. Criterio de prevencin sobreajustado (ASE) se basa en el ajuste (error
cuadrado medio o ASE) del conjunto de prevencin sobreajustado. El conjunto de prevencin
sobreajustado es una submuestra aleatoria de aproximadamente el 30% del conjunto de datos original
que no se utiliza para ensear el modelo.
Si se selecciona otro criterio que no sea Estadsticos de F, se aadir al modelo cada paso del efecto
que se corresponda con el aumento positivo mayor en el criterio. Se eliminar cualquier efecto en el
modelo que se corresponda con una disminucin en el criterio.
Si se selecciona Estadsticos de F como criterio, cada paso en el efecto que tenga el valor p ms
pequeo inferior al umbral especificado, se aadir Incluir efectos con valores p inferiores a al
modelo. El valor predeterminado es 0.05. Cualquier efecto en el modelo con un valor p superior al
umbral especificado, Eliminar efectos con valores p mayores que, ser eliminado. El valor
predeterminado es 0.10.
v Personalizar nmero mximo de efectos en el modelo final. De forma predeterminada, pueden
introducirse todos los efectos disponibles en el modelo. Del mismo modo, si el algoritmo por pasos
sucesivos termina con un paso con el nmero mximo de efectos especificado, el algoritmo se detiene
con el conjunto actual de efectos.
v Personalizar nmero mximo de pasos. El algoritmo por pasos sucesivos termina tras un cierto
nmero de pasos. De forma predeterminada, es 3 veces el nmero de efectos disponibles. Del mismo
modo, especifique un entero positivo para el nmero mximo de pasos.
Seleccin de mejores subconjuntos. Comprueba "todos los modelos posibles", o al menos el subconjunto
ms grande de los modelos posibles que los pasos sucesivos hacia adelante, para seleccionar el mejor
segn el criterio de mejores subconjuntos. Criterio de informacin (AICC) se basa en la similitud del
conjunto de entrenamiento que se le da al modelo, y se ajusta para penalizar modelos excesivamente
complejos. R cuadrado corregida se basa en el ajuste del conjunto de entrenamiento, y se ajusta para
penalizar modelos excesivamente complejos. Criterio de prevencin sobreajustado (ASE) se basa en el
ajuste (error cuadrado medio o ASE) del conjunto de prevencin sobreajustado. El conjunto de prevencin
sobreajustado es una submuestra aleatoria de aproximadamente el 30% del conjunto de datos original que
no se utiliza para ensear el modelo.
Se selecciona el modelo con el valor mayor del criterio como el mejor modelo.
Nota: La seleccin de mejores subconjuntos requiere ms trabajo computacional que la seleccin por
pasos sucesivos hacia adelante. Cuando los mejores subconjuntos se procesan junto con boosting, bagging
y conjuntos de datos de gran tamao, la generacin de un modelo estndar generado mediante una
seleccin por pasos sucesivos hacia delante puede tardar considerablemente ms tiempo.
Bagging y conjuntos de datos muy grandes. Al puntuar un conjunto, sta es la regla utilizada para
combinar los valores pronosticados a partir de los modelos bsicos para calcular el valor de puntuacin
del conjunto.
v Regla de combinacin predeterminada para objetivos continuos. Los valores pronosticados de
conjunto para objetivos continuos pueden combinarse mediante la media o mediana de los valores
pronosticados a partir de los modelos bsicos.
Tenga en cuenta que cuando el objetivo es mejorar la precisin del modelo, se ignoran las selecciones de
reglas de combinacin. El boosting siempre utiliza un voto de mayora ponderada para puntuar objetivos
categricos y una mediana ponderada para puntuar objetivos continuos.
Boosting y bagging. Especifique el nmero de modelos bsicos que debe generarse cuando el objetivo es
mejorar la precisin o estabilidad del modelo; en el caso del bagging, se trata del nmero de muestras de
simulacin de muestreo. Debe ser un nmero entero positivo.
Avanzado
Replicar resultados. Al establecer una semilla aleatoria podr replicar anlisis. El generador de nmeros
aleatorios se utiliza para seleccionar qu registros estn en el conjunto de prevencin sobreajustado.
Especifique un entero o pulse en Generar, lo que crear un entero pseudo-aleatorio entre 1 y 2147483647,
ambos inclusive. El valor predeterminado es 54752075.
Opciones de modelos
Guardar valores predichos en el conjunto de datos. El nombre de variable predeterminado es
PredictedValue.
Exportar modelo. Escribe el modelo en un archivo .zip externo. Puede utilizar este archivo de modelo
para aplicar la informacin del modelo a otros archivos de datos para puntuarlo. Especifique un nombre
de archivo exclusivo vlido. Si la especificacin de archivo hace referencia a un archivo existente, se
sobrescribir el archivo.
Grfico. El grfico muestra la precisin del modelo final, que se presenta en el formato mayor es mejor.
El valor es 100 R 2 ajustado para el modelo final.
Importancia de predictor
Normalmente, desea centrar sus esfuerzos de modelado en los campos del predictor que importan ms y
considera eliminar o ignorar las que importan menos. El predictor de importancia de la variable le ayuda
a hacerlo indicando la importancia relativa de cada predictor en la estimacin del modelo. Como los
valores son relativos, la suma de los valores de todos los predictor de la visualizacin es 1.0. La
importancia del predictor no est relacionada con la precisin del modelo. Slo est relacionada con la
importancia de cada predictor para realizar una prediccin, independientemente de si sta es precisa o
no.
Residuos
Muestra un grfico de diagnosis de los residuos del modelo.
Estilos de grfico. Existen varios estilos de visualizacin diferentes, que son accesibles desde la lista
desplegable Estilo.
v Histograma. Se trata de un histograma en intervalos de los residuos estudentizados de una
superposicin de la distribucin normal. Los modelos lineales asumen que los residuos tienen una
distribucin normal, de forma que el histograma debera estar muy cercano a la lnea continua.
v Grfico p-p. Se trata de un grfico probabilidad-probabilidad en intervalos que compara los residuos
estudentizados con una distribucin normal. Si la curva de los puntos representados es menos
Captulo 15. Modelos lineales 65
pronunciada que la lnea normal, los residuos muestran una variabilidad mayor que una distribucin
normal; si la curva es ms pronunciada, los residuos muestran una variabilidad inferior que una
distribucin normal. Si los puntos representados tienen una curva con forma en S, la distribucin de
los residuos es asimtrica.
Valores atpicos
Esta tabla enumera los registros que ejercen una influencia excesiva sobre el modelo, y muestra el ID de
registro (si se especifica en la pestaa Campos), el valor objetivo y la distancia de Cook. La distancia de
Cook es una medida de cunto cambiaran los residuos de todos los registros si un registro en particular
se excluyera del clculo de los coeficientes del modelo. Una distancia de Cook grande indica que la
exclusin de un registro cambia sustancialmente los coeficientes, y por lo tanto debe considerarse
relevante.
Los registros relevantes deben examinarse cuidadosamente para determinar si puede darles menos
importancia en la estimacin del modelo, truncar los valores atpicos a algn umbral aceptable o eliminar
los registros relevantes completamente.
Efectos
Esta vista muestra el tamao de cada efecto en el modelo.
Estilos. Existen varios estilos de visualizacin diferentes, que son accesibles desde la lista desplegable
Estilo.
v Diagrama. Es un grfico en el que los efectos se clasifican desde arriba hacia abajo con una
importancia de predictores descendente. Las lneas de conexin del diagrama se ponderan tomando
como base la significacin del efecto, con un grosor de lnea mayor co rrespondiente a efectos con
mayor significacin (valores p inferiores). Al pasar el ratn sobre una lnea de conexin se muestra una
ayuda contextual que muestra el valor p y la importancia del efecto. Este es el valor predeterminado.
v Tabla. Se trata de una tabla ANOVA para el modelo completo y los efectos de modelo individuales.
Los efectos individuales se clasifican desde arriba hacia abajo con una importancia de predictores
descendente. Tenga en cuenta que, de forma predeterminada, la tabla se contrae para mostrar
nicamente los resultados del modelo general. Para ver los resultados de los efectos de modelo
individuales, pulse en la casilla Modelo corregido de la tabla.
Importancia del predictor. Existe un control deslizante Importancia del predictor que controla qu
predictores se muestran en la vista. Esto no cambia el modelo, simplemente le permite centrarse en los
predictores ms importantes. De forma predeterminada, se muestran los 10 efectos ms importantes.
Coeficientes
Esta vista muestra el valor de cada coeficiente en el modelo. Tenga en cuenta que los factores (predictores
categricos) tienen codificacin de indicador dentro del modelo, de modo que los efectos que contienen
los factores generalmente tendrn mltiples coeficientes asociados: uno por cada categora exceptuando
la categora que corresponde al parmetro (referencia) redundante.
Estilos. Existen varios estilos de visualizacin diferentes, que son accesibles desde la lista desplegable
Estilo.
Importancia del predictor. Existe un control deslizante Importancia del predictor que controla qu
predictores se muestran en la vista. Esto no cambia el modelo, simplemente le permite centrarse en los
predictores ms importantes. De forma predeterminada, se muestran los 10 efectos ms importantes.
Medias estimadas
Son grficos representados para predictores significativos. El grfico muestra el valor estimado de modelo
del objetivo en el eje vertical de cada valor del predictor en el eje horizontal, que alberga el resto de los
predictores constantes. Proporciona una visualizacin til de los efectos de los coeficientes de cada
predictor en el objetivo.
Pasos sucesivos hacia adelante. Cuando la seleccin por pasos hacia adelante es el algoritmo de
seleccin, la tabla muestra los ltimos 10 pasos en el algoritmo de seleccin por pasos hacia adelante.
Para cada paso, se muestran el valor del criterio de seleccin y los efectos en el modelo en ese paso. Esto
ofrece el sentido del grado de contribucin de cada paso al modelo. Cada columna le permite clasificar
las filas, de modo que es posible ver con mayor facilidad qu efectos hay en un paso en particular.
Mejores subconjuntos. Cuando Mejores subconjuntos es el algoritmo de seleccin, la tabla muestra los 10
modelos principales. Para cada modelo, se muestran el valor del criterio de seleccin y los efectos en el
modelo. Esto ofrece un sentido de la estabilidad de los modelos principales; si tienden a tener muchos
efectos similares con pocas diferencias, puede tenerse una confianza casi completa en el modelo
"principal"; si tienden a tener muchos efectos diferentes, algunos efectos pueden ser demasiado parecidos
Ejemplo. Estn relacionados el nmero de partidos ganados por un equipo de baloncesto en una
temporada con la media de puntos que el equipo marca por partido? Un diagrama de dispersin indica
que estas variables estn relacionadas linealmente. El nmero de partidos ganados y la media de puntos
marcados por el equipo adversario tambin estn relacionados linealmente. Estas variables tienen una
relacin negativa. A medida que el nmero de partidos ganados aumenta, la media de puntos marcados
por el equipo adversario disminuye. Con la regresin lineal es posible modelar la relacin entre estas
variables. Puede utilizarse un buen modelo para predecir cuntos partidos ganarn los equipos.
Estadsticos. Para cada variable: nmero de casos vlidos, media y desviacin estndar. Para cada
modelo: coeficientes de regresin, matriz de correlaciones, correlaciones parciales y semiparciales, R
multiple, R cuadrado, R cuadrado corregida, cambio en R cuadrado, error estndar de la estimacin, tabla de
anlisis de varianza, valores pronosticados y residuos. Adems, intervalos de confianza al 95% para cada
coeficiente de regresin, matriz de varianzas-covarianzas, factor de inflacin de la varianza, tolerancia,
prueba de Durbin-Watson, medidas de distancia (Mahalanobis, Cook y valores de influencia), DfBeta,
DfAjuste, intervalos de prediccin e informacin de diagnstico por caso. Grficos: diagramas de
dispersin, grficos parciales, histogramas y grficos de probabilidad normal.
Datos. Las variables dependiente e independientes deben ser cuantitativas. Las variables categricas,
como la religin, estudios principales o el lugar de residencia, han de recodificarse como variables
binarias (dummy) o como otros tipos de variables de contraste.
Supuestos. Para cada valor de la variable independiente, la distribucin de la variable dependiente debe
ser normal. La varianza de distribucin de la variable dependiente debe ser constante para todos los
valores de la variable independiente. La relacin entre la variable dependiente y cada variable
independiente debe ser lineal y todas las observaciones deben ser independientes.
Si lo desea, puede:
v Agrupar variables independientes en bloques y especificar distintos mtodos de entrada para diferentes
subconjuntos de variables.
v Elegir una variable de seleccin para limitar el anlisis a un subconjunto de casos que tengan valores
particulares para esta variable.
v Seleccionar una variable de identificacin de casos para identificar los puntos en los diagramas.
v Seleccione una variable numrica de Ponderacin MCP para el anlisis de mnimos cuadrados
ponderados.
Los valores de significacin de los resultados se basan en el ajuste de un nico modelo. Por ello, estos
valores de significacin no suelen ser vlidos cuando se emplea un mtodo por pasos (pasos sucesivos,
hacia adelante o hacia atrs).
Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la
ecuacin, independientemente del mtodo de entrada especificado. El nivel de tolerancia predeterminado
es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya presente en el
modelo se site por debajo del criterio de tolerancia.
Todas las variables independientes seleccionadas se aaden a un mismo modelo de regresin. Sin
embargo, puede especificar distintos mtodos de introduccin para diferentes subconjuntos de variables.
Por ejemplo, puede introducir en el modelo de regresin un bloque de variables que utilice la seleccin
por pasos sucesivos, y un segundo bloque que emplee la seleccin hacia adelante. Para aadir un
segundo bloque de variables al modelo de regresin, pulse en Siguiente.
Diagramas de dispersin. Puede representar cualquier combinacin por parejas de la lista siguiente: la
variable dependiente, los valores pronosticados tipificados, los residuos tipificados, los residuos
eliminados, los valores pronosticados corregidos, los residuos estudentizados o los residuos eliminados
estudentizados. Represente los residuos tipificados frente a los valores pronosticados tipificados para
contrastar la linealidad y la igualdad de las varianzas.
Lista de variables de origen. Lista la variable dependiente (DEPENDNT) y las siguientes variables
pronosticadas y de residuos: Valores pronosticados tipificados (*ZPRED), Residuos tipificados (*ZRESID),
Residuos eliminados (*DRESID), Valores pronosticados corregidos (*ADJPRED), Residuos estudentizados
(*SRESID) y Residuos estudentizados eliminados (*SDRESID).
Generar todos los grficos parciales. Muestra los diagramas de dispersin de los residuos de cada
variable independiente y los residuos de la variable dependiente cuando se regresan ambas variables por
separado sobre las restantes variables independientes. En la ecuacin debe haber al menos dos variables
independientes para que se generen los grficos parciales.
Grficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y grficos de
probabilidad normal que comparen la distribucin de los residuos tipificados con una distribucin
normal.
Si se solicita cualquier grfico, se muestran los estadsticos de resumen para los valores pronosticados
tipificados y los residuos tipificados (*ZPRED y *ZRESID).
Valores pronosticados. Son los valores que el modelo de regresin pronostica para cada caso.
v No tipificados. Valor predicho por el modelo para la variable dependiente.
v Tipificados. Transformacin de cada valor predicho a su forma tipificada. Es decir, se sustrae el valor
predicho medio al valor predicho y el resultado se divide por la desviacin estndar de los valores
pronosticados. Los valores pronosticados tipificados tienen una media de 0 y una desviacin estndar
de 1.
v Corregidos. Valor predicho para un caso cuando dicho caso no se incluye en los clculos de los
coeficientes de regresin.
v E.T. del prediccin promedio. Error estndar de los valores pronosticados. Estimacin de la desviacin
estndar del valor promedio de la variable dependiente para los casos que tengan los mismos valores
en las variables independientes.
Intervalos de prediccin. Los lmites superior e inferior para los intervalos de prediccin individual y
promedio.
v Media. Lmites inferior y superior (dos variables) para el intervalo de prediccin de la respuesta
pronosticada promedio.
v Individual. Lmites superior e inferior (dos variables) del intervalo de prediccin para la variable
dependiente para un caso individual.
v Intervalo de confianza. Introduzca un valor entre 1 y 99,99 para especificar el nivel de confianza para los
dos intervalos de prediccin. Debe seleccionar Media o Individuos antes de introducir este valor. Los
valores habituales de los intervalos de confianza son 90, 95 y 99.
Residuos. El valor actual de la variable dependiente menos el valor predicho por la ecuacin de
regresin.
v No tipificados. Diferencia entre un valor observado y el valor predicho por el modelo.
v Tipificados. El residuo dividido por una estimacin de su error estndar. Los residuos tipificados, que
son conocidos tambin como los residuos de Pearson o residuos estandarizados, tienen una media de 0
y una desviacin estndar de 1.
v Estudentizado. Residuo dividido por una estimacin de su desviacin estndar que vara de caso en
caso, dependiendo de la distancia de los valores de cada caso en las variables independientes respecto
a las medias en las variables independientes.
v Eliminado. Residuo para un caso cuando ste se excluye del clculo de los coeficientes de la regresin.
Es igual a la diferencia entre el valor de la variable dependiente y el valor predicho corregido.
v Eliminados estudentizados. Residuo eliminado para un caso dividido por su error estndar. La diferencia
entre un residuo eliminado estudentizado y su residuo estudentizado asociado indica la diferencia que
implica el eliminar un caso sobre su propia prediccin.
Exportar informacin del modelo a un archivo XML. Las estimaciones de los parmetros y (si lo desea)
sus covarianzas se exportan al archivo especificado en formato XML (PMML). Puede utilizar este archivo
de modelo para aplicar la informacin del modelo a otros archivos de datos para puntuarlo.
Ajuste del modelo. Presenta una lista de las variables introducidas y eliminadas del modelo y muestra
los siguientes estadsticos de bondad de ajuste: R mltiple, R cuadrado y R cuadrado corregida, error estndar
de la estimacin y tabla de anlisis de la varianza.
Descriptivos. Proporciona el nmero de casos vlidos, la media y la desviacin estndar para cada
variable en el anlisis. Tambin muestra una matriz de correlaciones con el nivel de significacin
unilateral y el nmero de casos para cada correlacin.
Correlacin parcial. La correlacin remanente entre dos variables despus de haber eliminado la correlacin
debida a su asociacin mutua con otras variables. La correlacin entre una variable dependiente y una
variable independiente cuando se han eliminado de ambas los efectos lineales de las otras variables
independientes del modelo.
Criterios del mtodo por pasos. Estas opciones son aplicables si se ha especificado el mtodo de
seleccin de variables hacia adelante, hacia atrs o por pasos. Las variables se pueden introducir o
eliminar del modelo dependiendo de la significacin (probabilidad) del valor de F o del propio valor de
F.
v Usar probabilidad de F. Una variable se introduce en el modelo si el nivel de significacin de su valor
de F es menor que el valor de entrada, y se elimina si el nivel de significacin de su valor de F es
mayor que el valor de Eliminacin. La entrada debe ser menor que la eliminacin y ambos valores
deben ser positivos. Para introducir ms variables en el modelo, aumente el valor de entrada. Para
eliminar ms variables del modelo, disminuya el valor de eliminacin.
v Usar valor de F. Una variable se introduce en el modelo si su valor de F es mayor que el valor de
entrada, y se elimina si su valor de F es menor que el valor de Eliminacin. La entrada debe ser mayor
que la eliminacin y ambos valores deben ser positivos. Para introducir ms variables en el modelo,
disminuya el valor de entrada. Para eliminar ms variables del modelo, eleve el valor de eliminacin.
El anlisis de regresin lineal ordinario implica minimizar las diferencias de la suma de los cuadrados
entre una variable de respuesta (la dependiente) y una combinacin ponderada de las variables
predictoras (las independientes). Los coeficientes estimados reflejan cmo los cambios en los predictores
afectan a la respuesta. Se considera que la respuesta es numrica, en el sentido en que los cambios en el
nivel de la respuesta son equivalentes en todo el rango de la respuesta. Por ejemplo, la diferencia de
altura entre una persona que mide 150 cm y una que mide 140 cm es de 10 cm, que tiene el mismo
significado que la diferencia de altura entre una persona que mide 210 cm y una que mide 200 cm. Estas
relaciones no se mantienen necesariamente con las variables ordinales, en las que la eleccin y el nmero
de categoras de respuesta pueden ser bastante arbitrarios.
Ejemplo. La regresin ordinal podra utilizarse para estudiar la reaccin de los pacientes con respecto a
una dosis de un frmaco. Las reacciones posibles podran clasificarse como ninguna, ligera, moderada o
grave. La diferencia entre una reaccin ligera y una moderada es difcil o imposible de cuantificar y se
basa en la apreciacin. Adems, la diferencia entre una respuesta ligera y una moderada podra ser
superior o inferior a la diferencia entre una respuesta moderada y una grave.
Datos. Se asume que la variable dependiente es ordinal y puede ser numrica o de cadena. El orden se
determina al clasificar los valores de la variable dependiente en orden ascendente. El valor inferior define
la primera categora. Se asume que las variables de factor son categricas. Las covariables deben ser
numricas. Observe que al usar ms de una covariable continua, se puede llegar a crear una tabla de
probabilidades de casilla muy grande.
Supuestos. Slo se permite una variable de respuesta y debe especificarse. Adems, para cada patrn
distinto de valores en las variables independientes, se supone que las respuestas son variables
multinomiales independientes.
Procedimientos relacionados. La regresin logstica nominal utiliza modelos similares para las variables
dependientes nominales.
Delta. El valor aadido a las frecuencias de casilla de cero. Especifique un valor no negativo inferior a 1.
Tolerancia para la singularidad. Utilizada para comprobar los predictores con alta dependencia.
Seleccione un valor en la lista de opciones.
Funcin de enlace. La funcin de enlace es una transformacin de las probabilidades acumuladas que
permiten la estimacin del modelo. Se encuentran disponibles las cinco funciones de enlace siguientes.
v Logit. f(x)=log(x/(1x) ). Se utiliza tpicamente para categoras uniformemente distribuidas.
v Log-log complementario. f(x)=log(log(1x)). Se utiliza normalmente cuando las categoras ms altas
son ms probables.
v Log-log negativo. f(x)=log(log(x)). Se utiliza normalmente cuando las categoras ms bajas son ms
probables.
v Probit. f(x)=1(x). Se utiliza normalmente cuando la variable latente sigue una distribucin normal.
v Cauchit (Cauchy inversa). f(x)=tan((x0.5)). Se utiliza normalmente cuando la variable latente tiene
muchos valores extremos.
Especificar modelo. Un modelo de efectos principales contiene los efectos principales de las covariables y
los factores, pero no contiene efectos de interaccin. Puede crear un modelo personalizado para
especificar subconjuntos de interacciones entre los factores o bien interacciones entre las covariables.
Modelo de ubicacin. El modelo depende de los efectos principales y de los de interaccin que
seleccione.
Generar trminos
Para las covariables y los factores seleccionados:
Interaccin. Crea el trmino de interaccin de mayor nivel con todas las variables seleccionadas. Este es
el mtodo predeterminado.
Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada.
Todas de 2. Crea todas las interacciones bidimensionales posibles de las variables seleccionadas.
Todas de 3. Crea todas las interacciones tridimensionales posibles de las variables seleccionadas.
Todas de 4. Crea todas las interacciones tetradimensionales posibles de las variables seleccionadas.
Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas.
Modelo de escala. El modelo depende de los efectos principales y de los de interaccin que seleccione.
Generar trminos
Para las covariables y los factores seleccionados:
Interaccin. Crea el trmino de interaccin de mayor nivel con todas las variables seleccionadas. Este es
el mtodo predeterminado.
Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada.
Todas de 2. Crea todas las interacciones bidimensionales posibles de las variables seleccionadas.
Todas de 3. Crea todas las interacciones tridimensionales posibles de las variables seleccionadas.
Todas de 4. Crea todas las interacciones tetradimensionales posibles de las variables seleccionadas.
Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas.
Ejemplo. Un proveedor de servicios de Internet realiza un seguimiento del porcentaje de trfico de correo
electrnico infectado de virus en la red a lo largo del tiempo. Un diagrama de dispersin revela que la
relacin es no lineal. Se puede ajustar un modelo lineal a los datos y comprobar la validez de los
supuestos y la bondad de ajuste del modelo.
Estadsticos. Para cada modelo: coeficientes de regresin, R mltiple, R cuadrado, R cuadrado corregida, error
estndar de la estimacin, tabla de anlisis de varianza, valores pronosticados, residuos e intervalos de
prediccin. Modelos: lineal, logartmico, inverso, cuadrtico, cbico, de potencia, compuesto, curva-S,
logstico, de crecimiento y exponencial.
Datos. Las variables dependiente e independientes deben ser cuantitativas. Si selecciona Tiempo del
conjunto de datos activo como variable independiente (en lugar de una variable), el procedimiento
Estimacin curvilnea generar una variable de tiempo en la que la distancia temporal entre los casos es
uniforme. Si se selecciona Tiempo, la variable dependiente debe ser una medida de serie temporal. El
anlisis de series temporales requiere una estructura particular para los archivos de datos, de manera que
cada caso (cada fila) represente un conjunto de observaciones en un momento determinado del tiempo y
que la distancia temporal entre los casos sea uniforme.
Supuestos. Represente los datos grficamente para determinar cmo se relacionan las variables
dependientes e independiente (linealmente, exponencialmente, etc.). Los residuos de un buen modelo
deben distribuirse de forma aleatoria y normal. Si se utiliza un modelo lineal, se deben cumplir los
siguientes supuestos: para cada valor de la variable independiente, la distribucin de la variable
dependiente debe ser normal. La varianza de distribucin de la variable dependiente debe ser constante
para todos los valores de la variable independiente. La relacin entre la variable dependiente y la variable
independiente debe ser lineal y todas las observaciones deben ser independientes.
Lineal. Modelo cuya ecuacin es Y = b0 + (b1 * t). Los valores de la serie se modelan como una funcin
lineal del tiempo.
Cuadrtico. Modelo cuya ecuacin es Y = b0 + (b1 * t) + (b2 * t**2). El modelo cuadrtico puede utilizarse
para modelar una serie que "despega" o una serie que se amortigua.
Cbico. Modelo definido por la ecuacin Y = b0 + (b1 * t) + (b2 * t**2) + (b3 * t**3).
Logstica. Modelo cuya ecuacin es Y = 1 / (1/u + (b0 * (b1**t))) o ln(1/y-1/u) = ln (b0) + (ln(b1) * t)
donde u es el valor del lmite superior. Despus de seleccionar Logstico, especifique un valor para el
lmite superior que se utilizar en la ecuacin de regresin. El valor debe ser un nmero positivo mayor
que el valor mximo de la variable dependiente.
Crecimiento. Modelo cuya ecuacin es Y = e**(b0 + (b1 * t)) ln(Y) = b0 + (b1 * t).
Exponencial. Modelo cuya ecuacin es Y = b0 * (e**(b1 * t)) ln(Y) = ln(b0) + (b1 * t).
Pronosticar casos. En el conjunto de datos activo, si se selecciona Tiempo como variable independiente
en lugar de una variable, se puede especificar un perodo de prediccin que vaya ms all del final de la
serie temporal. Puede elegir una de las siguientes alternativas:
Utilice la opcin de Definir fechas en el men Datos para crear las variables de fecha.
La PLS combina las caractersticas del anlisis de componentes principales y la regresin mltiple. En
primer lugar, extrae un conjunto de factores latentes que explica en la mayor medida posible la
covarianza entre las variables dependientes e independientes. A continuacin, un paso de regresin
pronostica los valores de las variables dependientes mediante la descomposicin de las variables
independientes.
Tablas. La proporcin de la varianza explicada (por factor latente), las ponderaciones y las cargas de los
factores latentes, la importancia de la variable independiente en proyeccin (VIP) y las estimaciones de
los parmetros de la regresin (por variable dependiente) se generan de forma predeterminada.
Grficos. La variable independiente en proyeccin (VIP), las puntuaciones factoriales, las ponderaciones
factoriales de los tres primeros factores latentes y la distancia al modelo se generan desde la pestaa
Options.
Nivel de medicin. Las variables (predictoras) dependientes e independientes pueden ser de escala,
nominales u ordinales. El procedimiento supone que se ha asignado el nivel de medicin adecuado a
todas las variables, aunque puede cambiar temporalmente el nivel de medicin de una variable pulsando
el botn derecho la variable en la lista de variables de origen y seleccionando un nivel de medicin en el
men emergente. El procedimiento trata por igual las variables categricas (nominales u ordinales).
Valores perdidos. Los valores perdidos del usuario y del sistema se consideran no vlidos.
Cambio de escala. Todas las variables del modelo se centran y tipifican, incluidas las variables indicador
que representan variables categricas.
Si lo desea, puede:
v Especificar una categora de referencia para las variables dependientes categricas (nominales u
ordinales).
v Especificar la variable que se utilizar como identificador exclusivo para los resultados por casos y los
conjuntos de datos guardados.
v Especificar un lmite mximo para el nmero de factores latentes que se extraern.
Requisitos
Nota: Para los usuarios que trabajen en modo de anlisis distribuido (requiere IBM SPSS Statistics
Server), NumPy y SciPy deben estar instalados en el servidor. Pngase en contacto con el administrador
del sistema para obtener ayuda.
Usuarios de Windows y Mac
Para Windows y Mac, NumPy y SciPy deben instalarse en una versin diferente de Python 2.7
disntinta de la versin que se instala con IBM SPSS Statistics. Si no tiene una versin diferente de
Python 2.7, puede descargarla desde http://www.python.org. A continuacin, instale NumPy y
SciPy para Python versin 2.7. Los instaladores estn disponibles desde http://www.scipy.org/
Download.
Para habilitar el uso de NumPy y SciPy, debe establecer la ubicacin de Python en la versin de
Python 2.7 donde ha instalado NumPy y SciPy. La ubicacin de Python se establece desde la
pestaa Ubicaciones de archivos en el dilogo Opciones (Editar > Opciones).
Usuarios de Linux
Se recomienda que el usuario descargue el origen y genere NumPy y SciPy. El origen est
disponible desde http://www.scipy.org/Download. Puede instalar NumPy y SciPy en la versin
de Python 2.7 que se ha instalado con IBM SPSS Statistics. Se encuentra en el directorio Python
bajo la ubicacin donde se ha instalado IBM SPSS Statistics.
Si elige instalar NumPy y SciPy en una versin de Python 2.7 distinta de la versin que se ha
instalado con IBM SPSS Statistics, debe establecer la ubicacin de Python para que indique dicha
versin. La ubicacin de Python se establece desde la pestaa Ubicaciones de archivos en el
dilogo Opciones (Editar > Opciones).
Servidor de Windows y Unix
NumPy y SciPy deben estar instalada en el servidor en una versin diferente de Python 2.7 de la
versin que se instala con IBM SPSS Statistics. Si no hay una versin diferente de Python 2.7 en el
servidor, entonces se puede descargar desde http://www.python.org. NumPy y SciPy para
Python 2.7 estn disponibles en http://www.scipy.org/Download. Para habilitar el uso de
NumPy y SciPy, la ubicacin de Python para el servidor debe establecerse en la versin de
Python 2.7 en la que se han instalado NumPy y SciPy. La ubicacin de Python se establece desde
IBM SPSS Statistics Administration Console.
Modelo. El modelo depende de la naturaleza de los datos. Despus de seleccionar Personalizado, puede
elegir los efectos principales y las interacciones que sean de inters para el anlisis.
Generar trminos
Interaccin. Crea el trmino de interaccin de mayor nivel con todas las variables seleccionadas. Este es
el mtodo predeterminado.
Efectos principales. Crea un trmino de efectos principales para cada variable seleccionada.
Todas de 2. Crea todas las interacciones bidimensionales posibles de las variables seleccionadas.
Todas de 3. Crea todas las interacciones tridimensionales posibles de las variables seleccionadas.
Todas de 4. Crea todas las interacciones tetradimensionales posibles de las variables seleccionadas.
Todas de 5. Crea todas las interacciones quntuples posibles de las variables seleccionadas.
Opciones
La pestaa Opciones permite al usuario guardar y representar las estimaciones de los modelos para los
determinados casos, factores latentes y predictores.
Para cada tipo de datos, especifique el nombre del conjunto de datos. Los nombres de los conjuntos de
datos deben ser exclusivos. Si introduce el nombre de un conjunto de datos ya existente, se reemplazarn
los contenidos. En otro caso, se crear un nuevo conjunto de datos.
v Guardar estimaciones para casos individuales. Guarda las siguientes estimaciones de modelos por
casos: valores pronosticados, residuos, distancia respecto al modelo del factor latente y puntuaciones de
los factores latentes. Tambin representa las puntuaciones de los factores latentes.
v Guardar estimaciones para factores latentes. Guarda las cargas y las ponderaciones de los factores
latentes. Tambin representa las ponderaciones de factores latentes.
v Guardar estimaciones para variables independientes. Guarda las estimaciones de los parmetros de
regresin y la importancia de la variable en la proyeccin (VIP). Tambin representa la VIP por factor
latente.
Los casos prximos entre s se denominan vecinos. Cuando se presenta un nuevo caso (reserva), se
calcula su distancia con respecto a los casos del modelo. Las clasificaciones de los casos ms parecidos
(los vecinos ms prximos) se cuadran y el nuevo caso se incluye en la categora que contiene el mayor
nmero de vecinos ms prximos.
Puede especificar el nmero de vecinos ms prximos que deben examinarse; este valor se denomina k.
El mtodo Anlisis de vecinos ms prximos tambin puede utilizarse para calcular valores para un
destino continuo. En esta situacin, la media o el valor objetivo medio de los vecinos ms prximos se
utiliza para obtener el valor predicho del nuevo caso.
Un icono situado junto a cada variable de la lista de variables identifica el nivel de medicin y el tipo de
datos.
Tabla 1. Iconos de nivel de medicin
Numrico Cadena Fecha Hora
Escala (Continuo) n/a
Ordinal
87
Tabla 1. Iconos de nivel de medicin (continuacin)
Numrico Cadena Fecha Hora
Nominal
Toda codificacin "una de c" se basa en los datos de entrenamiento, incluso si se define una muestra
reservada (consulte Particiones en la pgina 90). De este modo, si las muestras reservadas contienen
casos con categoras de predictores que no estn presentes en los datos de entrenamiento, esos casos no
se puntan. Si las muestras reservadas contienen casos con categoras de variables dependientes que no
estn presentes en los datos de entrenamiento, esos casos se puntan.
Cambio de escala. Fe forma predeterminada, las caractersticas de escala se normalizan. Todo cambio de
escala se realiza basndose en los datos de entrenamiento, incluso si se define una muestra reservada
(consulte Particiones en la pgina 90). Si especifica una variable para definir particiones, es importante
que las funcaractersticasciones tengan distribuciones similares en todas las muestras reservadas, de
entrenamiento o comprobacin. Utilice, por ejemplo, el procedimiento Explorar para examinar las
distribuciones en las particiones.
Etiqueta de caso (opcional). Los casos se etiquetan utilizando estos valores en el grfico de espacio de
caractersticas, el grfico de homlogos y el mapa de cuadrantes.
La alerta de nivel de medicin se muestra si el nivel de medicin de una o ms variables (campos) del
conjunto de datos es desconocido. Como el nivel de medicin afecta al clculo de los resultados de este
procedimiento, todas las variables deben tener un nivel de medicin definido.
Explorar datos. Lee los datos del conjunto de datos activo y asigna el nivel de medicin predefinido en
cualquier campo con un nivel de medicin desconocido. Si el conjunto de datos es grande, puede llevar
algn tiempo.
Asignar manualmente. Abre un cuadro de dilogo que contiene todos los campos con un nivel de
medicin desconocido. Puede utilizar este cuadro de dilogo para asignar el nivel de medicin a esos
campos. Tambin puede asignar un nivel de medicin en la Vista de variables del Editor de datos.
Como el nivel de medicin es importante para este procedimiento, no puede acceder al cuadro de dilogo
para ejecutar este procedimiento hasta que se hayan definido todos los campos en el nivel de medicin.
Vecinos
Nmero de vecinos ms prximos (k) Especifique el nmero de vecinos ms prximos. Tenga en cuenta
que el uso de un nmero mayor de vecinos no implica que el modelo resultante sea ms preciso.
Si se especifica un destino en la pestaa Variables, puede especificar un rango de valores y permitir que
el procedimiento seleccione el "mejor" nmero de vecinos de ese rango. El mtodo para determinar el
nmero de vecinos ms prximos depende de si se solicita la seleccin de caractersticas en la pestaa
Caractersticas.
v Si la seleccin de caractersticas est activada, sta se realizar para cada valor de k en el rango
solicitado, y se seleccionar la k y el conjunto de funciones compaero con la menor tasa de error (o el
menor error cuadrtico si el destino es escala).
v Si la seleccin de caractersticas no est activada, se utilizar la validacin cruzada de pliegue en V
para seleccionar el mejor nmero de vecinos. Consulte la pestaa Particin para tener control sobre
la asignacin de pliegues.
Clculo de distancias. Es la mtrica utilizada para especificar la mtrica de distancia empleada para
medir la similitud de los casos.
v Mtrica eucldea. La distancia entre dos casos, x e y, es la raz cuadrada de la suma, sobre todas las
dimensiones, de las diferencias cuadradas entre los valores de esos casos.
Adems, si se especifica un destino en la pestaa Variables, puede optar por ponderar caractersticas
segn su importancia normalizada a la hora de calcular distancias. La importancia que una caracterstica
tiene para un predictor se calcula en funcin de la relacin entre la tasa de error o errores cuadrticos del
modelo sin el predictor y la tasa de error o errores cuadrticos del modelo completo. La importancia
normalizada se calcula volviendo a ponderar los valores de importancia de la caracterstica para que
sumen 1.
Caractersticas
La pestaa Caractersticas le permite seleccionar y especificar opciones para la seleccin de caractersticas
cuando se especifica un destino en la pestaa Variables. De forma predeterminada, todas las
caractersticas se tienen en cuenta para la seleccin de caractersticas, pero es posible seleccionar un
subconjunto de caractersticas para forzarlas en el modelo.
Criterio de parada. En cada paso, la caracterstica cuya suma al modelo d lugar al menor error
(calculado como la tasa de error de un destino categrico y el error cuadrtico de un destino de escala) se
tiene en cuenta para su inclusin en el conjunto de modelos. La seleccin contina hasta que se cumple la
condicin especificada.
v Nmero de caractersticas especificadas. El algoritmo aade un nmero fijo de caractersticas adems
de las forzadas en el modelo. Especifique un nmero entero positivo. Si se disminuyen los valores de
nmero que se puede seleccionar se obtiene un modelo ms reducido, lo que supone el riesgo de
perder importantes caractersticas. Si se aumentan los valores de nmero que se puede seleccionar se
incluirn todas las caractersticas importantes, pero se corre el riesgo de aadir caractersticas que
aumenten el error del modelo.
v Cambio mnimo de la tasa de errores absolutos. El algoritmo se detiene cuando el cambio de la tasa
de errores absolutos indica que el modelo no puede mejorarse ms aadiendo nuevas caractersticas.
Especifique un nmero positivo. Si se reducen los valores del cambio mnimo se incluirn ms
caractersticas, pero puede que se incluyan caractersticas que no aadan gran valor al modelo. Si se
aumentan los valores del cambio mnimo se excluirn ms caractersticas, pero puede que se pierdan
caractersticas importantes para el modelo. El valor ptimo de cambio mnimo depender de sus
datos y de la aplicacin. Consulte el Registro de errores de seleccin de caractersticas en los resultados
para poder evaluar qu caractersticas son ms importantes. Consulte el tema Registro de errores de
seleccin de caractersticas en la pgina 95 para obtener ms informacin.
Particiones
La pestaa Particiones le permite dividir el conjunto de datos en conjuntos de entrenamiento y reserva y,
siempre que proceda, asignar casos a pliegues de validacin cruzada.
Definir semilla para tornado de Mersenne. Si se establece una semilla es posible replicar anlisis. El uso
de este control es parecido a establecer el tornado de Mersenne como generador activo y especificar un
punto de inicio fijo en el cuadro de dilogo Generadores de nmeros aleatorios, con la importante
diferencia de que la definicin de la semilla de este cuadro de dilogo mantendr el estado actual del
generador de nmeros aleatorios y restaurar dicho estado cuando haya terminado el anlisis.
Guardado
Nombres de las variables guardadas. La generacin automtica de nombres garantiza que conserva todo
su trabajo. Los nombres personalizados le permiten descartar/reemplazar los resultados de las
ejecuciones anteriores sin eliminar antes las variables guardadas en el Editor de datos.
Variables a guardar
v Valor o categora pronosticados. Esta opcin guarda el valor predicho para el destino de escala o la
categora predicha para un destino categrico.
v Probabilidad predicha. Esta opcin guarda las probabilidades pronosticadas para un destino
categrico. Para cada una de las primeras n categoras se guarda una variable diferente, donde n se
especifica en el control Mximo de categoras para guardar para un destino categrico.
v Variables de particiones de entrenamiento y reserva. Si los casos se asignan aleatoriamente a las
muestras de entrenamiento y reserva de la pestaa Particiones, esta opcin guarda el valor de la
particin (entrenamiento y reserva) a la que se ha asignado el caso.
v Variable de pliegues de validacin cruzada. Si los casos se asignan aleatoriamente a los pliegues de
validacin cruzada de la pestaa Particiones, esta opcin guarda el valor del pliegue al que se ha
asignado el caso.
Archivos
v Exportar modelo a XML. Puede utilizar este archivo de modelo para aplicar la informacin del
modelo a otros archivos de datos para puntuarlo. Esta opcin no se encuentra disponible si se han
definido archivos segmentados.
v Exportar distancias entre casos focales y k vecinos ms prximos. En cada caso focal, se crea una
variable distinta para cada uno de los k vecinos ms prximos del caso focal (de la muestra de
entrenamiento) y las k distancias ms prximas correspondientes.
Opciones
Valores perdidos del usuario. Para que un caso se incluya en el anlisis, las variables categricas deben
tener valores vlidos para dicho caso. Estos controles permiten decidir si los valores perdidos del usuario
se deben tratar como vlidos entre las variables categricas.
Los valores perdidos del sistema y perdidos para las variables de escala siempre se tratan como no
vlidos.
Vista de modelo
Cuando seleccione Grficos y tablas en la pestaa Resultados, el procedimiento crear un objeto de
modelo de vecino ms prximo en el visor. Al activar (pulsando dos veces) este objeto se obtiene una
vista interactiva del modelo. La vista de modelos tiene una ventana con dos paneles:
v El primer panel muestra una descripcin general del modelo denominado vista principal.
v El segundo panel muestra uno de los dos tipos de vistas:
Una vista de modelos auxiliar muestra ms informacin sobre el modelo, pero no se centra en el
propio modelo.
Una vista enlazada es una vista que muestra detalles sobre una caracterstica del modelo cuando el
usuario desglosa parte de la vista principal.
Cuando una vista no tiene ninguna informacin disponible, se desactiva este texto de elemento en la lista
desplegable Ver.
Claves. Adems los valores de las caractersticas, los puntos del grfico indican otra informacin.
v La forma indica la particin a la que pertenece un punto, ya sea Entrenamiento o Reserva.
v El color y el sombreado de un punto indican el valor del destino de ese caso: cada valor de color
diferente representa las categoras de un destino categrico y las sombras indican el rango de valores
de un destino continuo. El valor indicado para la particin de entrenamiento es el valor observado,
mientras que en el caso de la particin de reserva, representa el valor predicho. Si no se especifica
ningn destino, esta clave no aparece.
v Los titulares ms gruesos indican que un caso es focal. Los casos focales se muestran en relacin con
sus k vecinos ms prximos.
Controles e interactividad. Una serie de controles del grfico le permite explorar el espacio de
caractersticas.
v Puede seleccionar qu subconjunto de caractersticas mostrar en el grfico y modificar qu funciones se
representan en las dimensiones.
v Los casos focales son simplemente puntos seleccionados en el grfico del espacio de caractersticas. Si
ha especificado una variable de caso focal, los puntos que representan los casos focales se seleccionarn
inicialmente. Sin embargo, cualquier punto puede convertirse en un caso focal si lo selecciona. A la
seleccin de puntos se aplican los controles normales, es decir, si pulsa en un punto ste se
selecciona y se cancela la seleccin de todos los dems y si pulsa Control y el ratn sobre un punto
ste se aadir al conjunto de puntos seleccionados. Las vistas enlazadas, como el grfico de
homlogos, se actualizarn automticamente en funcin de los casos seleccionados en el espacio de
caractersticas.
v Puede modificar el nmero de vecinos ms prximos (k) para mostrar casos focales.
v Al pasar el ratn sobre un punto del grfico se mostrar una ayuda contextual con el valor de la
etiqueta de caso o un nmero de caso si las etiquetas de caso no se definen, as como los valores de
destino observados y pronosticados.
v Un botn Restablecer le permite devolver el espacio de caractersticas a su estado original.
Paleta de variables
Debe visualizar la paleta de variables antes de que pueda aadir y eliminar variables. Para visualizar la
paleta de variables, el visor de modelos deber estar en modo de edicin y deber seleccionarse un caso
en el espacio de caractersticas.
1. Para poner el visor de modelos en modo de edicin, elija en los mens:
Ver > Modo de edicin
2. Una vez en Modo Edicin, pulse sobre cualquier caso del espacio de caractersticas.
3. Para visualizar la paleta de variables, elija en los mens:
Ver > Paletas > Variables
La paleta de variables enumera todas las variables del espacio de caractersticas. El icono junto al
nombre de variable indica el nivel de medicin de la variable.
Zonas de variables
Las variables se aaden a "zonas" del espacio de caractersticas. Para visualizar las zonas, empiece
arrastrando una variable desde la paleta de variables o seleccionando Mostrar zonas.
stas son algunas reglas generales y sugerencias para desplazar variables a zonas:
v Para desplazar una variable a una zona, pulse y arrastre la variable desde la paleta de variables y
sultela en la zona. Si selecciona Mostrar zonas, tambin puede pulsar con el botn derecho en una
zona y seleccionar una variable que desee aadir a la zona.
v Si arrastra una variable de la paleta de variables a una zona que ya est ocupada por otra variable, la
nueva variable sustituir a la anterior.
v Si arrastra una variable de una zona a una zona que ya est ocupada por otra variable, las variables
intercambiarn posiciones.
v Si pulsa en la X de una zona, eliminar la variable de dicha zona.
v Si hay varios elementos grficos en la visualizacin, cada elemento grfico puede tener sus propias
zonas de variables asociadas. Primero, seleccione el elemento grfico.
Importancia de la variable
Normalmente, desea centrar sus esfuerzos de modelado en las variables que importan ms y considera
eliminar o ignorar las que importan menos. El grfico de importancia de la variable le ayuda a hacerlo
indicando la importancia relativa de cada variable en la estimacin del modelo. Como las variables son
relativas, la suma de los valores de todas las variables de la visualizacin es 1,0. La importancia de
variable no est relacionada con la precisin del modelo. Slo est relacionada con la importancia de cada
variable para realizar una prediccin, independientemente de si sta es precisa o no.
Homlogos
Este grfico muestra los casos focales y sus k vecinos ms prximos en cada caracterstica y en el destino.
Est disponible si se selecciona un caso focal en el espacio de caractersticas.
Forma de enlace. El grfico Homlogos se enlaza con el espacio de caractersticas de dos formas.
v Los casos seleccionados (focal) en el espacio de caractersticas se muestran en el grfico Homlogos,
juntos con sus k vecinos ms prximos.
v El valor de k seleccionado en el espacio de caractersticas se utiliza en el grfico Homlogos.
Mapa de cuadrantes
Este grfico muestra los casos focales y sus k vecinos ms prximos en un diagrama de dispersin (o
grfico de puntos, dependiendo del nivel de medicin del destino) con el destino en el eje y y una
caracterstica de escala en el eje x, panelado por caractersticas. Est disponible si hay un destino y se
selecciona un caso focal en el Espacio de caractersticas.
v Se dibujan lneas de referencia para las variables continuas en las medias variables en la particin de
entrenamiento.
Tabla de clasificacin
Esta tabla muestra la clasificacin cruzada de los valores observados en comparacin con los valores
pronosticados del destino, en funcin de la particin. Est disponible si hay un destino y es categrico.
v La fila (Perdidos) de la particin de reserva contiene casos de reserva con los valores perdidos en el
destino. Estos casos contribuyen a los valores de Muestra reservada: Valores de Porcentaje global, pero
no a los valores de Porcentaje correcto.
Resumen de error
Esta tabla est disponible si hay una variable objetivo. Muestra el error asociado con el modelo, la suma
de cuadrados de un destino continuo y la tasa de error (100%, porcentaje global correcto) de un destino
categrico.
Nota: la variable de agrupacin puede tener ms de dos valores. Los cdigos de la variable de agrupacin
han de ser nmeros enteros y es necesario especificar sus valores mximo y mnimo. Los casos con
valores fuera de estos lmites se excluyen del anlisis.
Ejemplo. Por trmino medio, las personas de los pases de zonas templadas consumen ms caloras por
da que las de los trpicos, y una proporcin mayor de la poblacin de las zonas templadas vive en
ncleos urbanos. Un investigador desea combinar esta informacin en una funcin para determinar cmo
de bien un individuo es capaz de discriminar entre los dos grupos de pases. El investigador considera
adems que el tamao de la poblacin y la informacin econmica tambin pueden ser importantes. El
anlisis discriminante permite estimar los coeficientes de la funcin discriminante lineal, que tiene el
aspecto de la parte derecha de una ecuacin de regresin lineal mltiple. Es decir, utilizando los
coeficientes a, b, c y d, la funcin es:
D = a * clima + b * urbanos + c * poblacin + d * producto interior bruto per cpita
Si estas variables resultan tiles para discriminar entre las dos zonas climticas, los valores de D sern
diferentes para los pases templados y para los tropicales. Si se utiliza un mtodo de seleccin de
variables por pasos, quizs no se necesite incluir las cuatro variables en la funcin.
Estadsticos. Para cada variable: medias, desviaciones estndar, ANOVA univariado. Para cada anlisis: M
de Box, matriz de correlaciones intra-grupos, matriz de covarianzas intra-grupos, matriz de covarianzas
de los grupos separados, matriz de covarianzas total. Para cada funcin discriminante cannica:
autovalores, porcentaje de varianza, correlacin cannica, lambda de Wilks, chi-cuadrado. Para cada paso:
probabilidades previas, coeficientes de la funcin de Fisher, coeficientes de funcin no tipificados, lambda
de Wilks para cada funcin cannica.
Datos. La variable de agrupacin debe tener un nmero limitado de categoras distintas, codificadas
como nmeros enteros. Las variables independientes que sean nominales deben ser recodificadas a
variables auxiliares o de contraste.
Supuestos. Los casos deben ser independientes. Las variables predictoras deben tener una distribucin
normal multivariada y las matrices de varianzas-covarianzas intra-grupos deben ser iguales en todos los
grupos. Se asume que la pertenencia al grupo es mutuamente exclusiva (es decir, ningn caso pertenece a
ms de un grupo) y exhaustiva de modo colectivo (es decir, todos los casos son miembros de un grupo).
El procedimiento es ms efectivo cuando la pertenencia al grupo es una variable verdaderamente
categrica; si la pertenencia al grupo se basa en los valores de una variable continua (por ejemplo, un
cociente de inteligencia alto respecto a uno bajo), considere el uso de la regresin lineal para aprovechar
la informacin ms rica ofrecida por la propia variable continua.
Slo se utilizan los casos con el valor especificado en la variable de seleccin para derivar las funciones
discriminantes. Tanto para los casos seleccionados como para los no seleccionados se generan resultados
de clasificaciones y estadsticos. Este proceso ofrece un mecanismo para clasificar casos nuevos basados
en datos previos o para dividir los datos en subconjuntos de contraste y comprobacin para realizar
procedimientos de validacin en el modelo generado.
Criterios. Las alternativas disponibles son Usar valor de F y Usar probabilidad de F. Introduzca valores
para introducir y eliminar variables.
v Usar valor de F. Una variable se introduce en el modelo si su valor de F es mayor que el valor de
entrada, y se elimina si su valor de F es menor que el valor de Eliminacin. La entrada debe ser mayor
que la eliminacin y ambos valores deben ser positivos. Para introducir ms variables en el modelo,
disminuya el valor de entrada. Para eliminar ms variables del modelo, eleve el valor de eliminacin.
v Usar probabilidad de F. Una variable se introduce en el modelo si el nivel de significacin de su valor de
F es menor que el valor de entrada, y se elimina si el nivel de significacin de su valor de F es mayor
que el valor de Eliminacin. La entrada debe ser menor que la eliminacin y ambos valores deben ser
positivos. Para introducir ms variables en el modelo, aumente el valor de entrada. Para eliminar ms
variables del modelo, disminuya el valor de eliminacin.
Representacin. Resumen de los pasos muestra los estadsticos para todas las variables despus de cada
paso; F para distancias por parejas muestra una matriz de razones F por parejas para cada pareja de
grupos.
Representacin. Las opciones de presentacin disponibles son: Resultados por casos, Tabla de resumen y
Clasificacin dejando uno fuera.
v Resultados para cada caso. Se muestran, para cada caso, los cdigos del grupo real de pertenencia, el
grupo pronosticado, las probabilidades posteriores y las puntuaciones discriminantes.
v Tabla de resumen. Nmero de casos correcta e incorrectamente asignados a cada uno de los grupos,
basndose en el anlisis discriminante. En ocasiones se denomina "Matriz de Confusin".
v Clasificacin dejando uno fuera. Se clasifica cada caso del anlisis mediante la funcin derivada de todos
los casos, excepto el propio caso. Tambin se conoce como mtodo U.
Reemplazar los valores perdidos con la media. Seleccione esta opcin para sustituir la media de una
variable independiente para un valor perdido slo durante la fase de clasificacin.
Usar matriz de covarianzas. Existe la opcin de clasificar los casos utilizando una matriz de covarianzas
intra-grupos o una matriz de covarianzas de los grupos separados.
v Intra-grupos. Se utiliza la matriz de covarianza intra-grupos combinada para clasificar los casos.
v Grupos separados. Para la clasificacin se utilizan las matrices de covarianza de los grupos separados.
Dado que la clasificacin se basa en las funciones discriminantes y no en las variables originales, esta
opcin no siempre es equivalente a la discriminacin cuadrtica.
Diagramas. Las opciones de grficos disponibles son: Grupos combinados, Grupos separados y Mapa
territorial.
v Grupos combinados. Crea un diagrama de dispersin, con todos los grupos, de los valores en las dos
primeras funciones discriminantes. Si slo hay una funcin, en su lugar se muestra un histograma.
v Grupos separados. Crea diagramas de dispersin, de los grupos por separado, para los valores en las
dos primeras funciones discriminantes. Si slo hay una funcin, en su lugar se muestra un histograma.
v Mapa territorial. Grfico de las fronteras utilizadas para clasificar los casos en grupos a partir de los
valores en las funciones. Los nmeros corresponden a los grupos en los que se clasifican los casos. La
media de cada grupo se indica mediante un asterisco situado dentro de sus fronteras. No se mostrar
el mapa si slo hay una funcin discriminante.
Tambin se puede exportar informacin del modelo al archivo especificado en formato XML. Puede
utilizar este archivo de modelo para aplicar la informacin del modelo a otros archivos de datos para
puntuarlo.
Ejemplo. Qu actitudes subyacentes hacen que las personas respondan a las preguntas de una encuesta
poltica de la manera en que lo hacen? Examinando las correlaciones entre los elementos de la encuesta se
deduce que hay una superposicin significativa entre los diversos subgrupos de elementos (las preguntas
sobre los impuestos tienden a estar correlacionadas entre s, las preguntas sobre temas militares tambin
estn correlacionadas entre s, y as sucesivamente). Con el anlisis factorial, se puede investigar el
nmero de factores subyacentes y, en muchos casos, identificar lo que los factores representan
conceptualmente. Adicionalmente, se pueden calcular las puntuaciones factoriales para cada encuestado,
que pueden utilizarse en anlisis subsiguientes. Por ejemplo, es posible generar un modelo de regresin
logstica para predecir el comportamiento de voto basndose en las puntuaciones factoriales.
Estadsticos. Para cada variable: nmero de casos vlidos, media y desviacin estndar. Para cada anlisis
factorial: matriz de correlaciones de variables, incluidos niveles de significacin, determinante, inversa;
matriz de correlaciones reproducida, que incluye anti-imagen; solucin inicial (comunalidades,
autovalores y porcentaje de varianza explicada); KMO (medida de la adecuacin muestral de
Kaiser-Meyer-Olkin) y prueba de esfericidad de Bartlett; solucin sin rotar, que incluye cargas factoriales,
comunalidades y autovalores; y solucin rotada, que incluye la matriz de configuracin rotada y la matriz
de transformacin. Para rotaciones oblicuas: las matrices de estructura y de configuracin rotadas; matriz
de coeficientes para el clculo de las puntuaciones factoriales y matriz de covarianzas entre los factores.
Grficos: grfico de sedimentacin y grfico de las cargas de los dos o tres primeros factores.
Datos. Las variables deben ser cuantitativas a nivel de intervalo o de razn. Los datos categricos (como la
religin o el pas de origen) no son adecuados para el anlisis factorial. Los datos para los cuales
razonablemente se pueden calcular los coeficientes de correlacin de Pearson, deberan ser adecuados
para el anlisis factorial.
Supuestos. Los datos deben tener una distribucin normal bivariada para cada pareja de variables y las
observaciones deben ser independientes. El modelo de anlisis factorial especifica que las variables
vienen determinadas por los factores comunes (los factores estimados por el modelo) y por factores
exclusivos (los cuales no se superponen entre las distintas variables observadas); las estimaciones
calculadas se basan en el supuesto de que ningn factor nico est correlacionado con los dems, ni con
los factores comunes.
En el anlisis factorial, slo se usarn los casos con ese valor para la variable de seleccin.
Matriz de correlaciones. Las opciones disponibles son: coeficientes, niveles de significacin, determinante,
inversa, reproducida, anti-imagen y KMO y prueba de esfericidad de Bartlett.
v KMO y prueba de esfericidad de Bartlett. La medida de la adecuacin muestral de Kaiser-Meyer-Olkin
contrasta si las correlaciones parciales entre las variables son pequeas. La prueba de esfericidad de
Bartlett contrasta si la matriz de correlaciones es una matriz de identidad, que indicara que el modelo
factorial es inadecuado.
v Reproducida. La matriz de correlaciones estimada a partir de la solucin del factor. Tambin se
muestran las correlaciones de residuos(la diferencia entre la correlacin observada y la estimada).
v Anti-imagen. La matriz de correlaciones anti-imagen contiene los negativos de los coeficientes de
correlacin parcial y la matriz de covarianza anti-imagen contiene los negativos de las covarianzas
parciales. En un buen modelo factorial la mayora de los elementos no diagonales deben ser pequeos.
En la diagonal de la matriz de correlaciones anti-imagen se muestra la medida de adecuacin muestral
para esa variable.
Extraer. Se pueden retener todos los factores cuyos autovalores excedan un valor especificado o retener
un nmero especfico de factores.
Representacin. Permite solicitar la solucin factorial sin rotar y el grfico de sedimentacin de los
autovalores.
v Solucin factorial sin rotar. Muestra las cargas factoriales sin rotar (la matriz de configuracin factorial),
las comunalidades y los autovalores de la solucin factorial.
v Grfico de sedimentacin. Grfico de la varianza que se asocia a cada factor. Este grfico se utiliza para
determinar cuntos factores se deben retenerse. Tpicamente el grfico muestra una clara ruptura entre
la pronunciada inclinacin de los factores ms importantes y el descenso gradual de los restantes (los
sedimentos).
N mximo de iteraciones para convergencia. Permite especificar el nmero mximo de pasos que el
algoritmo puede seguir para estimar la solucin.
N mximo de iteraciones para convergencia. Permite especificar el nmero mximo de pasos que el
algoritmo puede seguir para llevar a cabo la rotacin.
Mtodo. Los mtodos alternativos para calcular las puntuaciones factoriales son: regresin, Bartlett, y
Anderson-Rubin.
v Mtodo de regresin. Mtodo para estimar los coeficientes de las puntuaciones factoriales. Las
puntuaciones que se producen tienen una media de 0 y una varianza igual al cuadrado de la
correlacin mltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos.
Las puntuaciones puede correlacionarse incluso si los factores son ortogonales.
v Puntuaciones de Bartlett. Mtodo para estimar los coeficientes de las puntuaciones factoriales. Las
puntuaciones resultantes tienen una media de 0. Se minimiza la suma de cuadrados de los factores
exclusivos sobre el rango de las variables.
v Mtodo de Anderson-Rubin. Mtodo para calcular los coeficientes para las puntuaciones factoriales; es
una modificacin del mtodo de Bartlett, que asegura la ortogonalidad de los factores estimados. Las
puntuaciones resultantes tienen una media 0, una desviacin estndar de 1 y no correlacionan entre s.
Mostrar matriz de coeficientes de las puntuaciones factoriales. Muestra los coeficientes por los cuales se
multiplican las variables para obtener puntuaciones factoriales. Tambin muestra las correlaciones entre
las puntuaciones factoriales.
Formato de presentacin de los coeficientes. Permite controlar aspectos de las matrices de resultados.
Los coeficientes se ordenan por tamao y se suprimen aquellos cuyos valores absolutos sean menores que
el valor especificado.
Anlisis de clsteres en dos fases. En algunas aplicaciones, se puede seleccionar como mtodo el
procedimiento Anlisis de clsteres en dos fases. Ofrece una serie de caractersticas exclusivas que se
detallan a continuacin:
v Seleccin automtica del nmero ms apropiado de clsteres y medidas para la seleccin de los
distintos modelos de clster.
v Posibilidad de crear modelos de clster basados al mismo tiempo en variables categricas y continuas.
v Posibilidad de guardar el modelo de clster en un archivo XML externo y, a continuacin, leer el
archivo y actualizar el modelo de clster con datos ms recientes.
Asimismo, el procedimiento Anlisis de clsteres en dos fases puede analizar archivos de datos grandes.
Anlisis de clsteres jerrquico. El uso del procedimiento Anlisis de clsteres jerrquico se limita a
archivos de datos ms pequeos (cientos de objetos por agrupar en clsteres) y ofrece una serie de
caractersticas exclusivas que se detallan a continuacin:
v Posibilidad de agrupar en clsteres casos o variables.
v Posibilidad de calcular un rango de soluciones posibles y guardar los clsteres de pertenencia para
cada una de dichas soluciones.
v Distintos mtodos de formacin de clsteres, transformacin de variables y medida de disimilaridad
entre clsteres.
Siempre que todas las variables sean del mismo tipo, el procedimiento Anlisis de clsteres jerrquico
podr analizar variables de intervalo (continuas), de recuento o binarias.
Anlisis de clsteres de K-medias. El uso del procedimiento Anlisis de clsteres de K-medias se limita
a datos continuos y requiere que el usuario especifique previamente el nmero de clsteres y ofrece una
serie de caractersticas exclusivas que se detallan a continuacin:
v Posibilidad de guardar las distancias desde los centros de los clsteres hasta los distintos objetos.
v Posibilidad de leer los centros de los clsteres iniciales y guardar los centros de los clsteres finales
desde un archivo IBM SPSS Statistics externo.
Asimismo, el procedimiento Anlisis de clsteres de K-medias puede analizar archivos de datos grandes.
Ejemplo. Las empresas minoristas y de venta de productos para el consumidor suelen aplicar tcnicas de
agrupacin en clsteres a los datos que describen los hbitos de consumo, sexo, edad, nivel de ingresos,
etc. de los clientes. Estas empresas adaptan sus estrategias de desarrollo de productos y de marketing en
funcin de cada grupo de consumidores para aumentar las ventas y el nivel de fidelidad a la marca.
Medida de distancia. Esta opcin determina cmo se calcula la similaridad entre dos clsteres.
v Log-verosimilitud. La medida de la verosimilitud realiza una distribucin de probabilidad entre las
variables. Las variables continuas se supone que tienen una distribucin normal, mientras que las
variables categricas se supone que son multinomiales. Se supone que todas las variables son
independientes.
v Eucldea. La medida eucldea es la distancia segn una "lnea recta" entre dos clsteres. Slo se puede
utilizar cuando todas las variables son continuas.
Nmero de clsteres. Esta opcin permite especificar cmo se va a determinar el nmero de clsteres.
v Determinar automticamente. El procedimiento determinar automticamente el nmero "ptimo" de
clsteres, utilizando el criterio especificado en el grupo Criterio de agrupacin en clsteres. Si lo desea,
introduzca un entero positivo para especificar el nmero mximo de clsteres que el procedimiento
debe tener en cuenta.
v Especificar nmero fijo. Permite fijar el nmero de clsteres de la solucin. Introduzca un nmero
entero positivo.
Recuento de variables continuas. Este grupo proporciona un resumen de las especificaciones acerca de la
tipificacin de variables continuas realizadas en el cuadro de dilogo Opciones. Consulte el tema
Opciones del anlisis de clsteres en dos fases en la pgina 112 para obtener ms informacin.
Criterio de agrupacin en clsteres. Esta opcin determina cmo el algoritmo de agrupacin en clsteres
determina el nmero de clsteres. Se puede especificar tanto el criterio de informacin bayesiano (BIC)
como el criterio de informacin de Akaike (AIC).
Datos. Este procedimiento trabaja tanto con variables continuas como categricas. Los casos representan
los objetos a agrupar en clsteres y las variables representan los atributos en los que se va a basar la
agrupacin en clsteres.
Orden de casos. Observe que el rbol de caractersticas de clsteres y la solucin final pueden depender
del orden de los casos. Para minimizar los efectos del orden, ordene los casos aleatoriamente. Puede que
Supuestos. La medida de la distancia de la verosimilitud supone que las variables del modelo de clster
son independientes. Adems, se supone que cada variable continua tiene una distribucin normal (de
Gauss) y que cada variable categrica tiene una distribucin multinomial. Las comprobaciones empricas
internas indican que este procedimiento es bastante robusto frente a las violaciones tanto del supuesto de
independencia como de las distribuciones, pero an as es preciso tener en cuenta hasta qu punto se
cumplen estos supuestos.
Si lo desea, puede:
v Ajustar los criterios utilizados para construir los clsteres.
v Seleccionar los ajustes para el tratamiento del ruido, la asignacin de memoria, la tipificacin de las
variables y la entrada del modelo de clster.
v Solicitar resultados del visor de modelos.
v Guardar los resultados del modelo en el archivo de trabajo o en un archivo XML externo.
Asignacin de memoria. Este grupo permite especificar la cantidad mxima de memoria en megabytes
(MB) que puede utilizar el algoritmo de agrupacin en clsteres. Si el procedimiento supera este mximo,
utilizar el disco para almacenar la informacin que no se pueda colocar en la memoria. Especifique un
nmero mayor o igual que 4.
v Consulte con el administrador del sistema si desea conocer el valor mximo que puede especificar en
su sistema.
Opciones avanzadas
Criterios de ajuste del rbol CF. Los siguientes ajustes del algoritmo de agrupacin en clsteres se
aplican especficamente al rbol de caractersticas de clsteres (CF) y debern cambiarse con cuidado:
v Umbral del cambio en distancia inicial. ste es el umbral inicial que se utiliza para hacer crecer el
rbol CF. Si se ha insertado una determinada hoja en el rbol CF que producira una densidad inferior
al umbral, la hoja no se dividir. Si la densidad supera el umbral, se dividir la hoja.
v N mximo de ramas (por nodo hoja). Nmero mximo de nodos hijo que puede tener un nodo hoja.
v Mxima profundidad de rbol. Nmero mximo de niveles que puede tener un rbol CF.
v Mximo nmero posible de nodos. Indica el nmero mximo de nodos del rbol CF que puede
generar potencialmente el procedimiento, de acuerdo con la funcin (b d+1 - 1) / (b - 1), donde b es el
nmero mximo de ramas y d es la profundidad mxima del rbol. Tenga en cuenta que un rbol CF
excesivamente grande puede agotar los recursos del sistema y afectar negativamente al rendimiento del
procedimiento. Como mnimo, cada nodo requiere 16 bytes.
Actualizacin del modelo de clster. Este grupo permite importar y actualizar un modelo de clster
generado en un anlisis anterior. El archivo de entrada contiene el rbol CF en formato XML. A
continuacin, se actualizar el modelo con los datos existentes en el archivo activo. Debe seleccionar los
nombres de variable en el cuadro de dilogo principal en el mismo orden en que se especificaron en el
anlisis anterior. El archivo XML permanecer inalterado, a no ser que escriba especficamente la nueva
informacin del modelo en el mismo nombre de archivo. Consulte el tema Resultados de anlisis de
clsteres en dos fases para obtener ms informacin.
Si se ha especificado una actualizacin del modelo de clster, se utilizarn las opciones pertenecientes a la
generacin del rbol CF que se especificaron para el modelo original. Concretamente, se utilizarn los
ajustes del modelo guardado acerca de la medida de distancia, el tratamiento del ruido, la asignacin de
memoria y los criterios de ajuste del rbol CF, por lo que se ignorarn todos los ajustes de estas opciones
que se hayan especificado en los cuadros de dilogo.
Nota: al realizar una actualizacin del modelo de clster, el procedimiento supone que ninguno de los
casos seleccionados en el conjunto de datos activo se utiliz para crear el modelo de clster original. El
procedimiento tambin supone que los casos utilizados en la actualizacin del modelo proceden de la
misma poblacin que los casos utilizados para crear el modelo; es decir, se supone que las medias y las
varianzas de las variables continuas y los niveles de las variables categricas son los mismos en ambos
conjuntos de casos. Si los conjuntos de casos "nuevo" y "antiguo" proceden de poblaciones heterogneas,
deber ejecutar el procedimiento Anlisis de clsteres en dos fases para los conjuntos combinados de
casos para obtener los resultados ptimos.
Archivo de datos de trabajo. Este grupo permite guardar las variables en el conjunto de datos activo.
v Crear variable del clster de pertenencia. Esta variable contiene un nmero de identificacin de
clster para cada caso. El nombre de esta variable es tsc_n, donde n es un nmero entero positivo que
indica el ordinal de la operacin de almacenamiento del conjunto de datos activo realizada por este
procedimiento en una determinada sesin.
Archivos XML. El modelo de clster final y el rbol CF son dos tipos de archivos de resultados que se
pueden exportar en formato XML.
v Exportar modelo final. Tambin se puede exportar el modelo de clster final al archivo especificado
en formato XML (PMML). Puede utilizar este archivo de modelo para aplicar la informacin del
modelo a otros archivos de datos para puntuarlo.
v Exportar rbol CF. Esta opcin le permite guardar el estado actual del rbol del clster y actualizarlo
ms tarde utilizando datos ms nuevos.
El visor de clsteres
Los modelos de clster se suelen utilizar para buscar grupos (o clsteres) de registros similares basados
en las variables examinadas, donde la similitud entre los miembros del mismo grupo es alta y es baja
entre miembros de grupos diferentes. Los resultados pueden utilizarse para identificar las asociaciones
que, de otra manera, no seran aparentes. Por ejemplo, mediante el anlisis de clsteres de preferencias
del cliente, de nivel de ingresos y de hbitos de consumo, se podra identificar los tipos de clientes con
ms probabilidad de responder a una campaa de marketing particular.
Existen dos mtodos para interpretar los resultados de una presentacin de clsteres:
v Examinar los clsteres para determinar las caractersticas exclusivas de cada clster. Contiene uno de los
clsteres todos los socios con un alto nivel de ingresos? Contiene este clster ms registros que otros?
v Examinar los campos de todos los clsteres para determinar la forma en que los valores se distribuyen
en ellos. Determina el nivel de educacin la pertenencia a un clster? Distingue la puntuacin de crdito alto
entre la pertenencia a un clster o a otro?
Puede utilizar las vistas principales y las diferentes vistas vinculadas en el visor de clsteres para obtener
una mayor perspectiva que le ayuda a responder a estas preguntas.
Si desea ver informacin sobre el modelo de clster, active el objeto Visor de modelos pulsando dos veces
sobre l en el visor.
Visor de clsteres
El Visor de clsteres se compone de dos paneles, la vista principal en la parte izquierda y la vista
relacionada o auxiliar de la derecha. Hay dos vistas principales:
v Resumen del modelo (predeterminado). Consulte el tema Vista Resumen del modelo en la pgina 115
para obtener ms informacin.
v Clsteres. Consulte el tema Vista de clsteres en la pgina 115 para obtener ms informacin.
Los resultados sern pobres, correctos o buenos de acuerdo con el trabajo de Kaufman y Rousseeuw
(1990) sobre la interpretacin de estructuras de clsteres. En la vista Resumen del modelo, un resultado
"bueno" indica que los datos reflejan una evidencia razonable o slida de que existe una estructura de
clsteres, de acuerdo con la valoracin Kaufman y Rousseeuw; una resultado "correcto" indica que ese
evidencia es dbil, y un resultado "pobre" significa que, segn esa valoracin, no hay evidencias obvias.
Las medias de medida de silueta, en todos los registros, (BA) / max(A,B), donde A es la distancia del
registro al centro de su clster y B es la distancia del registro al centro del clster ms cercano al que no
pertenece. Un coeficiente de silueta de 1 podra implicar que todos los casos estn ubicados directamente
en los centros de sus clsteres. Un valor de -1 significara que todos los casos se encuentran en los centros
de clster de otro clster. Un valor de 0 implica, de media, que los casos estn equidistantes entre el
centro de su propio clster y el siguiente clster ms cercano.
Vista de clsteres
La vista Clsteres contiene una cuadrcula de clsteres por caractersticas que incluye nombres de
clsteres, tamaos y perfiles para cada clster.
Cuando pasa el ratn por una casilla, se muestra el nombre completo/etiqueta de la caracterstica y el
valor de importancia de la casilla. Es posible que aparezca ms informacin, en funcin de la vista y tipo
Clasificar caractersticas: Los botones Clasificar caractersticas por le permiten seleccionar la cantidad
de casillas de caractersticas:
v Importancia global Este es el orden de clasificacin predeterminado. Las caractersticas se clasifican en
orden descendente de importancia general y el orden de clasificacin es el mismo entre los distintos
clsteres. Si hay caractersticas que empatan en valores de importancia, stas se muestran en orden de
clasificacin ascendente segn el nombre.
v Importancia dentro del clster Las caractersticas se clasifican con respecto de su importancia para
cada clster. Si hay caractersticas que empatan en valores de importancia, stas se muestran en orden
de clasificacin ascendente segn el nombre. Si esta opcin est seleccionada, el orden de clasificacin
suele variar en los diferentes clsteres.
v Nombre. Las caractersticas se clasifican por nombre en orden alfabtico.
v Orden de los datos Las caractersticas se clasifican por orden en el conjunto de datos.
Las caractersticas con la misma etiqueta se clasifican por nombre de clster. Si los clsteres se clasifican
por etiqueta y modifica la etiqueta de un clster, el orden de clasificacin se actualiza automticamente.
Contenido de casilla: Los botones Casillas le permiten cambiar la visualizacin del contenido de casillas
de caractersticas y campos de evaluacin.
v Centros de los clsteres. De forma predeterminada, las casillas muestran nombres/etiquetas de
caractersticas y la tendencia central para cada combinacin de clster/caracterstica. La media se
muestra para los campos continuos y el modo (categora ms frecuente) con porcentaje de categora
para los campos categricos.
v Distribuciones absolutas. Muestra nombres/etiquetas de caractersticas y distribuciones absolutas de
las caractersticas de cada clster. En el caso de las caractersticas categricas, la visualizacin muestra
grficos de barras superpuestas con las categoras ordenadas en orden ascendente de valores de datos.
En las caractersticas continuas, la visualizacin muestra un grfico de densidad suave que utiliza los
mismos puntos finales e intervalos para cada clster.
La visualizacin en color rojo oscuro muestra la distribucin de clsteres, mientras que la ms clara
representa los datos generales.
Para seleccionar clsteres para su visualizacin, pulse en la parte superior de la columna del clster en el
panel principal Clsteres. Pulse las teclas Ctrl o Mays y pulse para seleccionar o cancelar la seleccin de
ms de un clster para su comparacin.
Los clsteres se muestran en el orden en que se seleccionaron, mientras que el orden de los campos viene
determinado por la opcin Clasificar caractersticas por. Si selecciona Importancia dentro del clster, los
campos siempre se clasifican por importancia general.
En estas vistas de fondo aparecen superpuestos diagramas de caja para los clsteres seleccionados:
v En las caractersticas continuas hay marcadores de puntos cuadrados y lneas horizontales que indican
el rango de mediana e intercuartil de cada clster.
v Cada clster viene representado por un color distinto, que se muestra en la parte superior de la vista.
Puede controlar la informacin que aparece en los paneles izquierdo y derecho mediante las opciones de
la barra de herramientas. Puede cambiar la orientacin de la pantalla (de arriba a abajo, de izquierda a
derecha, o de derecha a izquierda) mediante los controles de la barra de herramientas. Adems, tambin
puede restablecer el visor a los ajustes predeterminados, y abrir un cuadro de dilogo para especificar el
contenido de la vista Clsteres en el panel principal.
Las opciones Clasificar caractersticas por, Clasificar clsteres por, Casillas y Mostrar slo estn
disponibles cuando selecciona la vista Clsteres en el panel principal. Consulte el tema Vista de
clsteres en la pgina 115 para obtener ms informacin.
Tabla 2. Iconos de barra de herramientas.
Icono Tema
Consulte Transponer clsteres y caractersticas
Consulte Casillas
Para controlar qu se muestra en la vista Clsteres del panel principal, pulse el botn Mostrar y se abrir
el cuadro de dilogo Mostrar.
Caractersticas. Est seleccionado de forma predeterminada. Para ocultar todas las caractersticas de
entrada, cancele la seleccin de la casilla de verificacin.
Campos de evaluacin Seleccione los campos de evaluacin (campos que no se usan para crear el
modelo de clster, sino que se envan al visor de modelos para evaluar los clsteres) que desea mostrar,
ya que ninguno se muestra de forma predeterminada. Nota El campo de evaluacin debe ser una cadena
con ms de un valor. Esta casilla de verificacin no est disponible si no hay ningn campo de
evaluacin disponible.
Descripciones de clsteres Est seleccionado de forma predeterminada. Para ocultar todas las casillas de
descripcin de clster, cancele la seleccin de la casilla de verificacin.
Tamaos de clsteres Est seleccionado de forma predeterminada. Para ocultar todas las casillas de
tamao de clster, cancele la seleccin de la casilla de verificacin.
Nmero mximo de categoras Especifique el nmero mximo de categoras que se mostrarn en grficos
de caractersticas categricas. El valor predeterminado es 20.
Ejemplo. Existen grupos identificables de programas televisivos que atraigan a audiencias similares
dentro de cada grupo? Con el anlisis de clsteres jerrquico, podra agrupar los programas de TV (los
casos) en grupos homogneos basados en las caractersticas del espectador. Esto se puede utilizar para
identificar segmentos de mercado. Tambin puede agrupar ciudades (los casos) en grupos homogneos,
de manera que se puedan seleccionar ciudades comparables para probar diversas estrategias de
marketing.
Datos. Las variables pueden ser cuantitativas, binarias o datos de recuento. El escalamiento de las
variables es un aspecto importante, ya que las diferencias en el escalamiento pueden afectar a las
soluciones en clsteres. Si las variables muestran grandes diferencias en el escalamiento (por ejemplo, una
variable se mide en dlares y la otra se mide en aos), debera considerar la posibilidad de
estandarizarlas (esto puede llevarse a cabo automticamente mediante el propio procedimiento Anlisis
de clsteres jerrquico).
Orden de casos. Si hay distancias empatadas o similitudes en los datos de entrada o si stas se producen
entre los clsteres actualizados durante la unin, la solucin de clster resultante puede depender del
orden de los casos del archivo. Puede que desee obtener varias soluciones distintas con los casos
ordenados en distintos rdenes aleatorios para comprobar la estabilidad de una solucin determinada.
Supuestos. Las medidas de distancia o similaridad empleadas deben ser adecuadas para los datos
analizados (vase el procedimiento Proximidades para obtener ms informacin sobre la eleccin de las
medidas de distancia y similaridad). Asimismo, debe incluir todas las variables relevantes en el anlisis.
Si se omiten variables de inters la solucin obtenida puede ser equvoca. Debido a que el anlisis de
clsteres jerrquico es un mtodo exploratorio, los resultados deben considerarse provisionales hasta que
sean confirmados mediante otra muestra independiente.
Si lo desea, puede seleccionar una variable de identificacin para etiquetar los casos.
121
Anlisis de clsteres jerrquico: Mtodo
Mtodo de agrupacin en clsteres. Las opciones disponibles son: Vinculacin inter-grupos, Vinculacin
intra-grupos, Vecino ms prximo, Vecino ms lejano, Agrupacin de centroides, Agrupacin de medianas
y Mtodo de Ward.
Medida. Permite especificar la medida de distancia o similaridad que ser empleada en la aglomeracin.
Seleccione el tipo de datos y la medida de distancia o similaridad adecuada:
v Intervalo. Distancia eucldea, Distancia eucldea al cuadrado, Coseno, Correlacin de Pearson,
Chebychev, Bloque, Minkowski y Personalizada.
v Recuentos. Las opciones disponibles son: Medida de chi-cuadrado y Medida de phi-cuadrado.
v Binaria. Las opciones disponibles son: Distancia eucldea, Distancia eucldea al cuadrado, Diferencia
de tamao, Diferencia de configuracin, Varianza, Dispersin, Forma, Concordancia simple, Correlacin
phi de 4 puntos, Lambda, D de Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance
y Williams, Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y
Sneath 3, Sokal y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule.
Transformar valores. Permite estandarizar los valores de los datos, para los casos o las variables, antes de
calcular las proximidades (no est disponible para datos binarios). Los mtodos disponibles de
estandarizacin son: Puntuaciones z, Rango -1 a 1, Rango 0 a 1, Magnitud mxima de 1, Media de 1 y
Desviacin estndar 1.
Transformar medidas. Permite transformar los valores generados por la medida de distancia. Se aplican
despus de calcular la medida de distancia. Las opciones disponibles son: Valores absolutos, Cambiar el
signo y Cambiar la escala al rango 01.
Clster de pertenencia. Muestra el clster al cual se asigna cada caso en una o varias etapas de la
combinacin de los clsteres. Las opciones disponibles son: Solucin nica y Rango de soluciones.
Tmpanos. Muestra un diagrama de tmpanos, que incluye todos los clsteres o un rango especificado de
clsteres. Los diagramas de tmpanos muestran informacin sobre cmo se combinan los casos en los
clsteres, en cada iteracin del anlisis. La orientacin permite seleccionar un diagrama vertical u
horizontal.
Ejemplo. Cules son los grupos identificables de programas de televisin que atraen audiencias
parecidas dentro de cada grupo? Con el anlisis de clsteres de k-medias, podra agrupar los programas
de televisin (los casos) en k grupos homogneos, basados en las caractersticas del televidente. Este
proceso se puede utilizar para identificar segmentos de mercado. Tambin puede agrupar ciudades (los
casos) en grupos homogneos, de manera que se puedan seleccionar ciudades comparables para probar
diversas estrategias de marketing.
Estadsticos. Solucin completa: centros iniciales de los clsteres, tabla de ANOVA. Cada caso:
informacin del clster, distancia desde el centro del clster.
Datos. Las variables deben ser cuantitativas en el nivel de intervalo o de razn. Si las variables son
binarias o recuentos, utilice el procedimiento Anlisis de clsteres jerrquicos.
Orden de casos y centro de clsteres iniciales. El algoritmo predeterminado para elegir centros de
clsteres iniciales no es invariable con respecto a la ordenacin de casos. La opcin Usar medias
actualizadas del cuadro de dilogo Iterar hace que la solucin resultante dependa potencialmente del
orden de casos con independencia de cmo se eligen los centros de clsteres iniciales. Si va a utilizar
alguno de estos mtodos, puede que desee obtener varias soluciones distintas con los casos ordenados en
distintos rdenes aleatorios para comprobar la estabilidad de una solucin determinada. La especificacin
de los centros de clsteres iniciales y la no utilizacin de la opcin Usar medias actualizadas evita los
problemas relacionados con el orden de casos. No obstante, la ordenacin de los centros de clsteres
iniciales puede afectar a la solucin en caso de haber distancias empatadas desde los casos a los centros
de clsteres. Para evaluar la estabilidad de una solucin determinada, puede comparar los resultados de
los anlisis con las distintas permutaciones de los valores de centros iniciales.
Supuestos. Las distancias se calculan utilizando la distancia eucldea simple. Si desea utilizar otra medida
de distancia o de similaridad, utilice el procedimiento Anlisis de clsteres jerrquicos. El escalamiento de
variables es una consideracin importante. Si sus variables utilizan diferentes escalas (por ejemplo, una
variable se expresa en dlares y otra, en aos), los resultados podran ser equvocos. En estos casos,
debera considerar la estandarizacin de las variables antes de realizar el anlisis de clsteres de k-medias
(esta tarea se puede hacer en el procedimiento Descriptivos). Este procedimiento supone que ha
seleccionado el nmero apropiado de clsteres y que ha incluido todas las variables relevantes. Si ha
seleccionado un nmero inapropiado de clsteres o ha omitido variables relevantes, los resultados
podran ser equvocos.
Para conseguir la mxima eficacia, tome una muestra de los casos y seleccione el mtodo Iterar y
clasificar para determinar los centros de los clsteres. Seleccione Escribir finales en. A continuacin,
restaure el archivo de datos completo, seleccione el mtodo Slo clasificar y seleccione Leer iniciales de
para clasificar el archivo completo utilizando los centros estimados a partir de la muestra. Se puede
escribir y leer desde un archivo o conjunto de datos. Los conjuntos de datos estn disponibles para su
uso posterior durante la misma sesin, pero no se guardarn como archivos a menos que se hayan
guardado explcitamente antes de que finalice la sesin. El nombre de un conjunto de datos debe cumplir
las normas de denominacin de variables. Consulte el tema para obtener ms informacin.
Para reproducir el algoritmo utilizado por el comando Quick Cluster en las versiones previas a la 5.0,
establezca Mximo de iteraciones en 1.
Criterio de convergencia. Determina cundo cesa la iteracin. Representa una proporcin de la distancia
mnima entre los centros iniciales de los clsteres, por lo que debe ser mayor que 0 pero no mayor que 1.
Por ejemplo, si el criterio es igual a 0,02, la iteracin cesar si una iteracin completa no mueve ninguno
de los centros de los clsteres en una distancia superior al dos por ciento de la distancia menor entre
cualquiera de los centros iniciales.
Usar medias actualizadas. Permite solicitar la actualizacin de los centros de los clsteres tras la
asignacin de cada caso. Si no selecciona esta opcin, los nuevos centros de los clsteres se calcularn
despus de la asignacin de todos los casos.
Clster de pertenencia. Crea una nueva variable que indica el clster final al que pertenece cada caso.
Los valores de la nueva variable van desde el 1 hasta el nmero de clsteres.
Distancia desde centro del clster. Crea una nueva variable que indica la distancia eucldea entre cada
caso y su centro de clasificacin.
Valores perdidos. Las opciones disponibles son: Excluir casos segn lista o Excluir casos segn pareja.
v Excluir casos segn lista. Excluye los casos con valores perdidos para cualquier variable de
agrupacin del anlisis.
v Excluir casos segn pareja. Asigna casos a los clsteres en funcin de las distancias que se calculan
desde todas las variables con valores no perdidos.
Cul es su objetivo? Los objetivos le permiten especificar rpidamente ajustes de prueba diferentes y
comunes.
v Comparar automticamente datos observados con el valor hipotetizado. Este objetivo aplica la
prueba binomial a campos categricos con slo dos categoras, la prueba de chi-cuadrado al resto de
campos categricos y la prueba de Kolmogorov-Smirnov a campos continuos.
v Probar la aleatoriedad de la secuencia. Este objetivo utiliza la prueba de rachas para comprobar la
aleatoriedad de la secuencia observada de valores de datos.
v Anlisis personalizado. Seleccione esta opcin si desea modificar manualmente la configuracin de la
prueba de la pestaa Configuracin. Tenga en cuenta que esta configuracin se selecciona
automticamente si realiza cambios posteriores a muchas opciones de la pestaa Configuracin que
sean incompatibles con los del objetivo seleccionado actualmente.
Si lo desea, puede:
v Especifique un objetivo en la pestaa Objetivos.
v Especifique asignaciones de campo en la pestaa Campos.
v Especifique la configuracin de experto en la pestaa Configuracin.
Pestaa Campos
La pestaa Campos especifica los campos que se deben comprobar.
Utilizar papeles predefinidos. Esta opcin utiliza informacin de campos existentes. Todos los campos
con un papel predefinido como Entrada o Ambos se utilizarn como campos de prueba. Al menos un
campo de prueba es necesario.
Utilizar asignaciones de campos personalizadas. Esta opcin le permite sobrescribir papeles de campos.
Despus de seleccionar esta opcin, especifique los campos siguientes.
v Campos de prueba. Seleccione uno o ms campos de prueba.
Seleccionar pruebas
Estos ajustes especifican las pruebas que realizarn en los campos especificados en la pestaa Campos.
Seleccione automticamente las pruebas en funcin de los datos. Esta configuracin aplica la prueba
binomial a campos categricos con slo dos categoras vlidas (sin valores perdidos), la prueba de
chi-cuadrado al resto de campos categricos y la prueba de Kolmogorov-Smirnov a campos continuos.
Personalizar pruebas. Esta configuracin permite especificar las pruebas que se ejecutarn.
v Comparar la probabilidad binaria observada con el valor hipotetizado (prueba binomial). La prueba
binomial se puede aplicar a todos los campos. Produce una prueba de una muestra que comprueba si
la distribucin observada de un campo de distintivo (un campo categrico con slo dos categoras) es
el mismo que lo que se espera de una distribucin binomial especificada. Adems, puede solicitar
intervalos de confianza. Consulte Opciones de prueba binomiales para obtener ms informacin
sobre la configuracin de prueba.
v Comparar las probabilidades observadas con el valor hipotetizado (prueba de chi-cuadrado). La
prueba de chi-cuadrado se aplica a campos nominales y ordinales. Produce una prueba de una muestra
que calcula un estadstico chi-cuadrado basado en las diferencias entre las frecuencias observadas y
esperadas de las categoras de un campo. Consulte Opciones de prueba de chi-cuadrado en la pgina
131 para obtener ms informacin sobre la configuracin de prueba.
v Probar la distribucin observada con el valor hipotetizado (prueba de Kolmogorov-Smirnov). La
prueba de Kolmogorov-Smirnov se aplica a campos continuos y ordinales. Produce una prueba de una
muestra de si la funcin de distribucin acumulada de muestra de un campo es homognea con una
distribucin uniforme, normal, Poisson o exponencial. Consulte Opciones de Kolmogorov-Smirnov
en la pgina 131 para obtener ms informacin sobre la configuracin de prueba.
v Comparar mediana con el valor hipotetizado (prueba de Wilcoxon de los rangos con signo). La
prueba de Wilcoxon de los rangos con signo se aplica a los campos continuos y ordinales. Produce una
prueba para una muestra del valor de mediana de un campo. Especifique un nmero como la mediana
hipotetizada.
v Probar la aleatoriedad de la secuencia (prueba de rachas). La prueba de rachas se aplica a todos los
campos. Produce una prueba de una muestra de si la secuencia de valores de un campo de dicotomas
es aleatoria. Consulte Prueba de rachas: Opciones en la pgina 131 para obtener ms informacin
sobre la configuracin de prueba.
Opciones de prueba binomiales: La prueba binomial est diseada para campos de distintivo (campos
categricos con slo dos categoras), pero se aplica a todos los campos mediante reglas para definir
"xito".
Intervalo de confianza. Los siguientes mtodos permiten calcular intervalos de confianza de datos
binarios:
v Clopper-Pearson (exacto). Un intervalo exacto basado en la distribucin binomial acumulada.
v Jeffreys. Un intervalo Bayesian basado en la distribucin posterior de p que utiliza la opcin Jeffreys
anterior.
v Razn de verosimilitud. Un intervalo basado en la funcin de verosimilitud para p.
Definir xito para campos continuos. Especifica cmo se define "xito", el valor(s) de datos se
comprueba en el valor de prueba, en los campos categricos. xito se define como valores iguales o
menores que un punto de corte.
v Punto medio de muestra define el punto de corte en la media de los valores mnimo o mximo.
v Punto de corte personalizado permite especificar un valor para el punto de corte.
Opciones de prueba de chi-cuadrado: Todas las categoras tienen la misma probabilidad. Produce la
misma frecuencia entre todas las categoras en la muestra. Este es el mtodo predeterminado.
Personalizar probabilidad esperada. Permite especificar frecuencias desiguales para una lista de
categoras especfica. Especifique una lista de valores de cadena o numrico. No es necesario que los
valores de la lista estn en la muestra. En la columna Categora, especifique los valores de categoras. En
la columna Frecuencia relativa, especifique un valor superior a 0 para cada categora. Las frecuencias
personalizadas se consideran porcentajes de forma que, por ejemplo, especificar frecuencias de 1, 2 y 3 es
equivalente a especificar frecuencias de 10, 20 y 30, y especificar que 1/6 de los registros se esperan en la
primera categora, 1/3 en la segunda y 1/2 en la tercera. Si se especifican probabilidades esperadas
personalizadas, los valores de categoras personalizadas deben incluir todos los valores de campo de los
datos; de lo contrario la prueba no se realiza en ese campo.
Opciones de Kolmogorov-Smirnov: Este cuadro de dilogo especifica las distribuciones que se deben
comprobar y los parmetros de las distribucin hipotetizada.
Normal. Utilizar datos muestrales utiliza la media observada y la desviacin estndar, Personalizado le
permite especificar valores.
Uniforme. Utilizar datos muestrales utiliza los valores observados mnimos y mximos, Personalizado
le permite especificar valores.
Exponential. Media muestral utiliza la media observada, Personalizado le permite especificar valores.
Poisson. Media muestral utiliza la media observada, Personalizado le permite especificar valores.
Prueba de rachas: Opciones: La prueba de rachas est diseada para campos de distintivo (campos
categricos con slo dos categoras), pero se puede aplica a todos los campos mediante reglas para definir
grupos.
Definir grupos para campos categricos. Se encuentran disponibles las siguientes opciones:
v Slo hay 2 categoras en la muestra realiza la prueba de rachas utilizando los valores encontrados en
la muestra para definir los grupos. Esta opcin slo es aplicable a los campos nominal u ordinal con
slo dos valores; el resto de campos categricos especificados en la pestaa Campos en los que se
utiliza esta opcin no se comprobarn.
v Recodificar datos en 2 categoras realiza la prueba de rachas utilizando la lista de valores especificada
para definir uno de los grupos. El resto de valores de muestra definen el otro grupo. No es necesario
que todos los valores de la lista estn presentes en la muestra, pero debe haber al menos un registro en
cada grupo.
Opciones de prueba
Nivel de significacin. Especifica el nivel de significacin (alfa) de todas las pruebas. Especifica un valor
numrico entre 0 y 1. 0,05 es el valor predeterminado.
Intervalo de confianza (%). Esto especifica el nivel de confianza de todos los intervalos de confianza
producidos. Especifique un valor numrico entre 0 y 100. El valor predeterminado es 95.
Casos excluidos. Especifica cmo se determinan las pruebas caso por caso.
v Excluir casos segn lista significa que los registros con valores perdidos de cualquier campo que se
nombran en la pestaa Campos se excluyen de todos los anlisis.
v Excluir casos segn prueba significa que los registros con valores perdidos para un campo que se
utiliza para una prueba especfica se omiten de esa prueba. Si se realizan varias pruebas en el anlisis,
cada prueba se evala por separado.
Cul es su objetivo? Los objetivos le permiten especificar rpidamente ajustes de prueba diferentes y
comunes.
v Comparar automticamente distribuciones entre grupos. Este objetivo aplica la prueba U de
Mann-Whitney para datos con 2 grupos o la prueba ANOVA de 1 factor de Kruskal-Wallis para datos
con grupos k .
v Comparar medianas entre grupos. Este objetivo utiliza la prueba de la mediana para comparar las
medianas observadas entre grupos.
v Anlisis personalizado. Seleccione esta opcin si desea modificar manualmente la configuracin de la
prueba de la pestaa Configuracin. Tenga en cuenta que esta configuracin se selecciona
automticamente si realiza cambios posteriores a muchas opciones de la pestaa Configuracin que
sean incompatibles con los del objetivo seleccionado actualmente.
Si lo desea, puede:
v Especifique un objetivo en la pestaa Objetivos.
v Especifique asignaciones de campo en la pestaa Campos.
v Especifique la configuracin de experto en la pestaa Configuracin.
Pestaa Campos
La pestaa Campos especifica los campos que se deben comprobar y el campo que se utilizar para
definir grupos.
Utilizar papeles predefinidos. Esta opcin utiliza informacin de campos existentes. Todos los campos
continuos y ordinales con un rol predefinido como Destino o Ambos se utilizarn como campos de
prueba. Si hay un nico campo categrico con un papel predefinido como Entrada se utilizar como un
campo de agrupacin. De lo contrario, no se utilizar de forma predeterminada ningn campo de
agrupacin y deber utilizar asignaciones de campos personalizadas. Se requiere al menos un campo de
prueba y un campo de agrupacin.
Utilizar asignaciones de campos personalizadas. Esta opcin le permite sobrescribir papeles de campos.
Despus de seleccionar esta opcin, especifique los campos siguientes.
v Campos de prueba. Seleccione uno o ms campos continuos u ordinales.
v Grupos. Seleccione un campo categrico.
Pestaa Configuracin
La pestaa Configuracin contiene diferentes grupos de ajustes que puede modificar para ajustar con
precisin con la que el algoritmo procesa sus datos. Si realiza algn cambio en la configuracin
predeterminada que sea incompatible con el objetivo seleccionado actualmente, la pestaa Objetivo se
actualiza automticamente para seleccionar la opcin Personalizar anlisis.
Seleccionar pruebas
Estos ajustes especifican las pruebas que realizarn en los campos especificados en la pestaa Campos.
Seleccione automticamente las pruebas en funcin de los datos. Esta configuracin aplica la prueba U
de Mann-Whitney para datos con 2 grupos o la prueba ANOVA de 1 factor de Kruskal-Wallis para datos
con grupos k .
Personalizar pruebas. Esta configuracin permite especificar las pruebas que se ejecutarn.
v Comparar distribuciones entre grupos. Producen pruebas para muestras independientes si las
muestras son de la misma poblacin.
U de Mann-Whitney (2 muestras) utiliza el nivel de cada caso para comprobar si los grupos se extraen
de la misma poblacin. El primer valor del campo de agrupacin define el grupo de control y el
segundo define el grupo de comparacin. Si el campo de agrupacin tiene ms de dos valores, esta
prueba no se ejecuta.
Kolmogorov-Smirnov (2 muestras) es sensible a cualquier diferencia en la mediana, dispersin,
asimetra, etctera entre las dos distribuciones. Si el campo de agrupacin tiene ms de dos valores,
esta prueba no se ejecuta.
Opciones de prueba
Nivel de significacin. Especifica el nivel de significacin (alfa) de todas las pruebas. Especifica un valor
numrico entre 0 y 1. 0,05 es el valor predeterminado.
Intervalo de confianza (%). Esto especifica el nivel de confianza de todos los intervalos de confianza
producidos. Especifique un valor numrico entre 0 y 100. El valor predeterminado es 95.
Casos excluidos. Especifica cmo se determinan las pruebas caso por caso. Excluir casos segn lista
significa que los registros con valores perdidos de cualquier campo que se nombran en cualquier
subcomando se excluyen de todos los anlisis. Excluir casos segn prueba significa que los registros con
valores perdidos para un campo que se utiliza para una prueba especfica se omiten de esa prueba. Si se
realizan varias pruebas en el anlisis, cada prueba se evala por separado.
Consideraciones sobre los datos. Cada registro corresponde a un sujeto concreto para el que se
almacenan dos o ms mediciones relacionadas en campos separados del conjunto de datos. Por ejemplo,
es posible analizar un estudio sobre la efectividad de un plan de dietas mediante pruebas no
paramtricas de muestras relacionadas si el peso de cada sujeto se mide a intervalos regulares y se
almacena como campos como Peso previo a la dieta, Peso intermedio y Peso tras la dieta. Estos campos estn
"relacionados".
Cul es su objetivo? Los objetivos le permiten especificar rpidamente ajustes de prueba diferentes y
comunes.
v Comparar automticamente datos observados con datos hipotetizados. Este objetivo aplica la prueba
de McNemar a datos categricos cuando se especifican 2 campos, la prueba Q de Cochran datos
categricos cuando se especifican ms de 2 campos, la prueba de Wilcoxon de los rangos con signo a
datos continuos cuando se especifican 2 campos y ANOVA de 2 vas de Friedman por rangos a datos
continuos cuando se especifican ms de 2 campos.
v Anlisis personalizado. Seleccione esta opcin si desea modificar manualmente la configuracin de la
prueba de la pestaa Configuracin. Tenga en cuenta que esta configuracin se selecciona
automticamente si realiza cambios posteriores a muchas opciones de la pestaa Configuracin que
sean incompatibles con los del objetivo seleccionado actualmente.
Cuando se especifican campos de diferentes niveles de medicin, primero se separan por nivel de
medicin y despus se aplica la prueba adecuada a cada grupo. Por ejemplo, si selecciona Comparar
automticamente datos observados con el valor hipotetizado como objetivo y especifica 3 campos
continuos y 2 campos nominales, se aplicar la prueba de Friedman a los campos continuos y la prueba
de McNemar a los campos nominales.
Si lo desea, puede:
v Especifique un objetivo en la pestaa Objetivos.
v Especifique asignaciones de campo en la pestaa Campos.
v Especifique la configuracin de experto en la pestaa Configuracin.
Pestaa Campos
La pestaa Campos especifica los campos que se deben comprobar.
Utilizar asignaciones de campos personalizadas. Esta opcin le permite sobrescribir papeles de campos.
Despus de seleccionar esta opcin, especifique los campos siguientes.
v Campos de prueba. Seleccione dos o ms campos. Cada campo corresponde a una muestra
relacionada diferente.
Pestaa Configuracin
La pestaa Configuracin contiene diferentes grupos de ajustes que puede modificar para ajustar con
precisin con la que el procedimiento procesa sus datos. Si realiza algn cambio en la configuracin
predeterminada que sea incompatible con el resto de objetivos, la pestaa Objetivo se actualiza
automticamente para seleccionar la opcinPersonalizar anlisis.
Seleccionar pruebas
Estos ajustes especifican las pruebas que realizarn en los campos especificados en la pestaa Campos.
Seleccione automticamente las pruebas en funcin de los datos. Esta configuracin aplica la prueba de
McNemar a datos categricos cuando se especifican 2 campos, la prueba Q de Cochran datos categricos
cuando se especifican ms de 2 campos, la prueba de Wilcoxon de los rangos con signo a datos continuos
cuando se especifican 2 campos y ANOVA de 2 vas de Friedman por rangos a datos continuos cuando se
especifican ms de 2 campos.
Personalizar pruebas. Esta configuracin permite especificar las pruebas que se ejecutarn.
v Probar si hay cambios en datos binario. La prueba de McNemar (2 muestras) se puede aplicar a
campos categricos. Produce una prueba de muestras relacionadas de si las combinaciones de valores
entre dos campos de distintivo (campos categricos con dos valores nicamente) son igualmente
probables. Si hay ms de dos campos especificados en la pestaa Campos, esta prueba no se realiza.
Consulte Prueba de McNemar: definir xito en la pgina 137 para obtener ms informacin sobre la
configuracin de prueba. Q de Cochran (k muestras) se puede aplicar a campos categricos. Produce
una prueba de muestras relacionadas de si las combinaciones de valores entre k campos de distintivo
(campos categricos con dos valores nicamente) son igualmente probables. Opcionalmente puede
solicitar mltiples comparaciones de las muestras k, en comparaciones mltiples todo por parejas o
comparaciones por pasos en sentido descendente. Consulte Prueba de Cochran: definir xito en la
pgina 137 para obtener ms informacin sobre la configuracin de prueba.
v Probar si hay cambios en datos mutinomiales. Prueba de homogeneidad marginal (2 muestras)
produce una prueba de muestras relacionadas de si combinaciones de valores entre dos campos
ordinales emparejados son igualmente probables. La prueba de homogeneidad marginal se suele
utilizar en situaciones de medidas repetidas. Se trata de una extensin de la prueba de McNemar a
partir de la respuesta binaria a la respuesta multinomial. Si hay ms de dos campos especificados en la
pestaa Campos, esta prueba no se realiza.
v Comparar diferencia de la mediana con el valor hipotetizado. Cada una de estas pruebas produce
una prueba de muestras relacionadas de si la diferencia de la mediana entre dos campos es diferente
de 0. La prueba se aplica a campos continuos y ordinales. Si hay ms de dos campos especificados en
la pestaa Campos, estas pruebas no se realizan.
v Estimar intervalo de confianza. Produce un clculo de muestras relacionadas y un intervalo de
confianza para la diferencia de la mediana entre dos campos emparejados. Esta prueba se aplica a
campos continuos y ordinales. Si hay ms de dos campos especificados en la pestaa Campos, esta
prueba no se realiza.
v Cuantificar asociaciones. Coeficiente de concordancia de Kendall (k muestras) produce un
coeficiente de concordancia entre evaluadores, donde cada registro es un valor de evaluador de varios
elementos (campos). Opcionalmente puede solicitar mltiples comparaciones de las muestras k, en
comparaciones mltiples todo por parejas o comparaciones por pasos en sentido descendente.
Prueba de McNemar: definir xito: La prueba de McNemar est diseada para campos de distintivo
(campos categricos con slo dos categoras), pero se aplica a todos los campos categricos mediante
reglas para definir "xito".
Definir xito para campos categricos. Especifica cmo se define "xito" en los campos categricos.
v Utilizar primera categora encontrada en los datos realiza la prueba que utiliza el primer valor
encontrado en la muestra para definir "xito". Esta opcin slo es aplicable a los campos nominal u
ordinal con slo dos valores; el resto de campos categricos especificados en la pestaa Campos en los
que se utiliza esta opcin no se comprobarn. Este es el mtodo predeterminado.
v Especificar valores de xito realiza la prueba que utiliza la lista especificada de valores para definir
"xito". Especifique una lista de valores de cadena o numrico. No es necesario que los valores de la
lista estn en la muestra.
Prueba de Cochran: definir xito: La prueba de Q de Cochran est diseada para campos de distintivo
(campos categricos con slo dos categoras), pero se aplica a todos los campos categricos mediante
reglas para definir "xito".
Definir xito para campos categricos. Especifica cmo se define "xito" en los campos categricos.
v Utilizar primera categora encontrada en los datos realiza la prueba que utiliza el primer valor
encontrado en la muestra para definir "xito". Esta opcin slo es aplicable a los campos nominal u
ordinal con slo dos valores; el resto de campos categricos especificados en la pestaa Campos en los
que se utiliza esta opcin no se comprobarn. Este es el mtodo predeterminado.
v Especificar valores de xito realiza la prueba que utiliza la lista especificada de valores para definir
"xito". Especifique una lista de valores de cadena o numrico. No es necesario que los valores de la
lista estn en la muestra.
Opciones de prueba
Nivel de significacin. Especifica el nivel de significacin (alfa) de todas las pruebas. Especifica un valor
numrico entre 0 y 1. 0,05 es el valor predeterminado.
Intervalo de confianza (%). Esto especifica el nivel de confianza de todos los intervalos de confianza
producidos. Especifique un valor numrico entre 0 y 100. El valor predeterminado es 95.
Casos excluidos. Especifica cmo se determinan las pruebas caso por caso.
v Excluir casos segn lista significa que los registros con valores perdidos de cualquier campo que se
nombran en cualquier subcomando se excluyen de todos los anlisis.
v Excluir casos segn prueba significa que los registros con valores perdidos para un campo que se
utiliza para una prueba especfica se omiten de esa prueba. Si se realizan varias pruebas en el anlisis,
cada prueba se evala por separado.
Vista de modelo
Vista de modelos
Este procedimiento crea un objeto Visor de modelos en el visor. Al activar (pulsando dos veces) este
objeto se obtiene una vista interactiva del modelo. La vista de modelos se compone de una ventana con
dos paneles, la vista principal en la parte izquierda y la vista relacionada o auxiliar de la derecha.
Resumen de hiptesis
La vista Resumen de modelos es una instantnea, un resumen de un vistazo de las pruebas no
paramtricas. Enfatiza las hiptesis y decisiones nulas, centrando la atencin en los valores p ms
significativos.
v Cada fila corresponde a una prueba distinta. Al pulsar en una fila se muestra informacin adicional
acerca de la prueba en la vista enlazada.
v Al pulsar en el encabezado de cualquier columna las filas se ordenan por los valores de esa columna.
v El botn Restablecer le permite devolver el Visor de modelos a su estado original.
v La lista desplegable Filtro de campos le permite mostrar nicamente las pruebas que incluyeron el
campo seleccionado.
Prueba binomial
Prueba de chi-cuadrado
La vista Prueba de chi-cuadrado muestra un grfico de barras apiladas y una tabla de pruebas.
v El grfico de barras agrupadas muestra las frecuencias observadas e hipotetizadas para cada categora
del campo de pruebas. Al pasar el ratn sobre una barra se muestran las frecuencias observadas e
hipotetizadas y sus diferencias (residuales) en una ayuda contextual. Las diferencias visibles entre las
barras observadas y las hipotetizadas indican que el campo de prueba puede no tener la distribucin
hipotetizada.
v La tabla muestra detalles de la prueba.
La vista Prueba de Wilcoxon de los rangos con signo muestra un histograma y una tabla de pruebas.
v El histograma incluye lneas verticales que muestran las medianas observadas e hipotticas.
v La tabla muestra detalles de la prueba.
Prueba de rachas
Prueba de Kolmogorov-Smirnov
Prueba de McNemar
La vista Prueba de McNemar muestra un grfico de barras apiladas y una tabla de pruebas.
v El grfico de barras agrupadas muestra las frecuencias observadas e hipotetizadas para las casillas no
diagonales de la tabla 2x2 definida por los campos de prueba.
v La tabla muestra detalles de la prueba.
La vista Prueba de los signos muestra un histograma apilado y una tabla de pruebas.
v El histograma apilado muestra las diferencias entre los campos, usando el signo de la diferencia como
el campo de apilado.
v La tabla muestra detalles de la prueba.
La vista Prueba de Wilcoxon de los rangos con signo muestra un histograma apilado y una tabla de
pruebas.
v El histograma apilado muestra las diferencias entre los campos, usando el signo de la diferencia como
el campo de apilado.
v La tabla muestra detalles de la prueba.
La vista Prueba de homogeneidad marginal muestra un grfico de barras apiladas y una tabla de
pruebas.
v El grfico de barras agrupadas muestra las frecuencias observadas para las casillas no diagonales de la
tabla definida por los campos de prueba.
v La tabla muestra detalles de la prueba.
Prueba Q de Cochran
La vista Prueba Q de Cochran muestra un grfico de barras apiladas y una tabla de pruebas.
v El grfico de barras apiladas muestra las frecuencias observadas de las categoras "xito" y "fallo" de los
campos de prueba, con los "fallos" apilados sobre los "xitos". Al pasar el ratn sobre una barra se
muestran los porcentajes de categora en una ayuda contextual.
v La tabla muestra detalles de la prueba.
La vista Anlisis de dos factores de Friedman de varianza por rangos muestra histogramas panelados y
una tabla de pruebas.
v Los histogramas muestran la distribucin observada de rangos, panelados por los campos de pruebas.
v La tabla muestra detalles de la prueba.
La vista Coeficiente de concordancia de Kendall muestra histogramas panelados y una tabla de pruebas.
v Los histogramas muestran la distribucin observada de rangos, panelados por los campos de pruebas.
v La tabla muestra detalles de la prueba.
Prueba de Mann-Whitney
La vista Prueba de Mann-Whitney muestra un grfico de pirmide de poblacin y una tabla de pruebas.
v El grfico de pirmide de poblacin muestra histogramas seguidos en funcin de las categoras del
campo de agrupacin, anotando el nmero de registros de cada grupo y el rango promedio del grupo.
v La tabla muestra detalles de la prueba.
Prueba de Kolmogorov-Smirnov
La vista Prueba de rachas de Wald-Wolfowitz muestra un grfico de barras apiladas y una tabla de
pruebas.
v El grfico de pirmide de poblacin muestra histogramas seguidos en funcin de las categoras del
campo de agrupacin, anotando el nmero de registros de cada grupo.
v La tabla muestra detalles de la prueba.
Prueba de Kruskal-Wallis
Prueba de Jonckheere-Terpstra
Prueba de la mediana
Subconjuntos homogneos
La vista Subconjuntos homogneos muestra una tabla de comparaciones generadas por pruebas no
paramtricas de muestras k cuando se solicitan mltiples comparaciones por pasos.
v Cada fila del grupo Muestra corresponde a una muestra relacionada distinta (representada en los datos
mediante campos distintos). Las muestras que no son muy diferentes estadsticamente se agrupan en
los mismos subconjuntos de color, y hay una columna separada por cada subconjunto identificado.
Cuando todas las muestras son muy diferentes estadsticamente, hay un subconjunto separado para
cada muestra. Si ninguna de las muestras es muy diferente estadsticamente, hay un nico subconjunto.
v Se calcula una estadstica de prueba, un valor de significacin y un valor de significacin corregida
para cada subconjunto que contenga ms de una muestra.
Prueba binomial. Compara la frecuencia observada en cada categora de una variable dicotmica con las
frecuencias esperadas en la distribucin binomial.
Prueba de rachas. Comprueba si el orden de aparicin de dos valores de una variable es aleatorio.
Pruebas para dos muestras independientes. Compara dos grupos de casos en una variable. Se
encuentran disponibles la prueba U de Mann-Whitney, la prueba de Kolmogorov-Smirnov para dos
muestras, la prueba de Moses de reacciones extremas y la prueba de rachas de Wald-Wolfowitz.
Pruebas para dos muestras relacionadas. Compara las distribuciones de dos variables. La prueba de
Wilcoxon de los rangos con signo, la prueba de signos y la prueba de McNemar.
Pruebas para varias muestras independientes. Compara dos o ms grupos de casos en una variable. Se
encuentran disponibles la prueba de Kruskal-Wallis, la prueba de la mediana y la prueba de
Jonckheere-Terpstra.
Pruebas para varias muestras relacionadas. Compara las distribuciones de dos o ms variables. Se
encuentran disponibles la prueba de Friedman, la W de Kendall y la Q de Cochran.
Adems, para todas las pruebas citadas anteriormente estn disponibles los cuartiles y la media, la
desviacin estndar, el mnimo, el mximo y, por ltimo, el nmero de casos no perdidos.
Prueba de chi-cuadrado
El procedimiento Prueba de chi-cuadrado tabula una variable en categoras y calcula un estadstico de
chi-cuadrado. Esta prueba de bondad de ajuste compara las frecuencias observadas y esperadas en cada
categora para contrastar que todas las categoras contengan la misma proporcin de valores o que cada
categora contenga una proporcin de valores especificada por el usuario.
Ejemplos. La prueba de chi-cuadrado podra utilizarse para determinar si una bolsa de caramelos
contiene en igualdad de proporcin caramelos de color azul, marrn, verde, naranja, rojo y amarillo.
Tambin podra utilizarse para ver si una bolsa de caramelos contiene un 5% de color azul, un 30% de
color marrn, un 10% de color verde, un 20% de color naranja, un 15% de color rojo y un 15% de color
amarillo.
Estadsticos. Media, desviacin estndar, mnimo, mximo y cuartiles. Nmero y porcentaje de casos
perdidos y no perdidos; nmero de casos observados y esperados de cada categora; residuos y
estadstico de chi-cuadrado.
Datos. Use variables categricas numricas ordenadas o no ordenadas (niveles de medicin ordinal o
nominal). Para convertir las variables de cadena en variables numricas, utilice el procedimiento
Recodificacin automtica, disponible en el men Transformar.
Valores esperados. De forma predeterminada, todas las categoras tienen valores esperados iguales. Las
categoras pueden tener proporciones esperadas especificadas por el usuario. Seleccione Valores,
introduzca un valor mayor que 0 para cada categora de la variable de contraste y, a continuacin, pulse
en Aadir. Cada vez que se aade un valor, ste aparece al final de la lista de valores. El orden de los
valores es importante; corresponde al orden ascendente de los valores de categora de la variable de
contraste. El primer valor de la lista corresponde al valor de grupo mnimo de la variable de contraste y
el ltimo valor corresponde al valor mximo. Los elementos de la lista de valores se suman y, a
continuacin, cada valor se divide por esta suma para calcular la proporcin de casos esperados en la
categora correspondiente. Por ejemplo, una lista de valores de 3, 4, 5, 4 especifica unas proporciones
esperadas de 3/16, 4/16, 5/16 y 4/16.
Ejemplo. Si se lanza una moneda al aire, la probabilidad de que salga cara es 1/2. Basndose en esta
hiptesis, se lanza una moneda al aire 40 veces y se anotan los resultados (cara o cruz). De la prueba
binomial, podra deducir que en 3/4 de los lanzamientos sali cara y que el nivel de significacin
observado es pequeo (0,0027). Estos resultados indican que no es verosmil que la probabilidad de que
salga cara sea 1/2; probablemente la moneda presenta una tendencia a caer por un sentido determinado.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Datos. Las variables de contraste deben ser numricas y dicotmicas. Para convertir las variables de
cadena en variables numricas, utilice el procedimiento Recodificacin automtica, disponible en el men
Transformar. Una variable dicotmica es una variable que slo puede tomar dos valores posibles: s o no,
verdadero o falso, 0 o 1, etc. El primer valor encontrado en los datos define el primer grupo y el otro valor
define el segundo grupo. Si las variables no son dicotmicas, debe especificar un punto de corte. El punto
de corte asigna los casos con valores menores o iguales que el punto de corte del primer grupo y asigna
el resto de los casos a un segundo grupo.
Prueba de rachas
El procedimiento Prueba de rachas contrasta si es aleatorio el orden de aparicin de dos valores de una
variable. Una racha es una secuencia de observaciones similares. Una muestra con un nmero
excesivamente grande o excesivamente pequeo de rachas sugiere que la muestra no es aleatoria.
Ejemplos. Suponga que se realiza una encuesta a 20 personas para saber si compraran un producto. Si
todas estas personas fueran del mismo sexo, se pondra seriamente en duda la supuesta aleatoriedad de
la muestra. La prueba de rachas se puede utilizar para determinar si la muestra fue extrada de manera
aleatoria.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Datos. Las variables deben ser numricas. Para convertir las variables de cadena en variables numricas,
utilice el procedimiento Recodificacin automtica, disponible en el men Transformar.
Ejemplo. Muchas pruebas paramtricas requieren que las variables se distribuyan de forma normal. La
prueba de Kolmogorov-Smirnov para una muestra se puede utilizar para comprobar que una variable
(por ejemplo ingresos) se distribuye normalmente.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Ejemplo. Se han desarrollado nuevos correctores dentales diseados para que sean ms cmodos y
estticos, as como para facilitar un progreso ms rpido en la realineacin de la dentadura. Para
averiguar si el nuevo corrector debe llevarse tanto tiempo como el modelo antiguo, se eligen 10 nios al
azar para que lleven este ltimo y otros 10 nios para que usen el nuevo. Mediante la prueba U de
Mann-Whitney podra descubrir que, de media, los nios que llevaban el nuevo corrector tenan que
llevarlo puesto menos tiempo que los que llevaban el antiguo.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Pruebas: U de Mann-Whitney, reacciones extremas de Moses, Z de Kolmogorov-Smirnov, rachas de
Wald-Wolfowitz.
La prueba de reacciones extremas de Moses presupone que la variable experimental afectar a algunos
sujetos en una direccin y a otros sujetos en la direccin opuesta. La prueba contrasta las respuestas
extremas comparndolas con un grupo de control. Esta prueba se centra en la amplitud del grupo de
control y supone una medida de la influencia de los valores extremos del grupo experimental en la
amplitud al combinarse con el grupo de control. El grupo de control se define en el cuadro Grupo 1 del
cuadro de dilogo Dos muestras independientes: Definir grupos. Las observaciones de ambos grupos se
combinan y ordenan. La amplitud del grupo de control se calcula como la diferencia entre los rangos de
los valores mayor y menor del grupo de control ms 1. Debido a que los valores atpicos ocasionales
pueden distorsionar fcilmente el rango de la amplitud, de manera automtica se recorta de cada extremo
un 5% de los casos de control.
Ejemplo. En general, cuando una familia vende su casa logra obtener la cantidad que pide inicialmente?
Si aplica la prueba de Wilcoxon de los rangos con signo a 10 casas, podra descubrir que siete familias
reciben menos cantidad de la solicitada, una recibe ms y dos familias reciben el precio solicitado.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Pruebas: Wilcoxon de los rangos con signo, signo, McNemar. Si se ha instalado la opcin Pruebas exactas
(disponible slo en los sistemas operativos Windows), la prueba de homogeneidad marginal tambin
estar disponible.
Supuestos. Aunque no se suponen distribuciones en particular para las dos variables, se supone que la
distribucin de poblacin de las diferencias emparejadas es simtrica.
Si los datos son continuos, use la prueba de los signos o la prueba de Wilcoxon de los rangos con signo.
La prueba de los signos calcula las diferencias entre las dos variables para todos los casos y clasifica las
diferencias como positivas, negativas o empatadas. Si las dos variables tienen una distribucin similar, el
nmero de diferencias positivas y negativas no difiere de forma significativa. La prueba de Wilcoxon de
los rangos con signo tiene en cuenta la informacin del signo de las diferencias y de la magnitud de las
diferencias entre los pares. Dado que la prueba de Wilcoxon de los rangos con signo incorpora ms
informacin acerca de los datos, es ms potente que la prueba de los signos.
Si los datos son binarios, use la prueba de McNemar. Esta prueba se utiliza normalmente en una
situacin de medidas repetidas, en la que la respuesta de cada sujeto se obtiene dos veces, una antes y
otra despus de que ocurra un evento especificado. La prueba de McNemar determina si el ndice de
respuesta inicial (antes del evento) es igual al ndice de respuesta final (despus del evento). Esta prueba
es til para detectar cambios en las respuestas causadas por la intervencin experimental en los diseos
del tipo antes-despus.
Si los datos son categricos, use la prueba de homogeneidad marginal. Se trata de una extensin de la
prueba de McNemar a partir de la respuesta binaria a la respuesta multinomial. Contrasta los cambios de
respuesta, utilizando la distribucin chi-cuadrado, y es til para detectar cambios de respuesta causados
por intervencin experimental en diseos antes-despus. La prueba de homogeneidad marginal slo est
disponible si se ha instalado Pruebas exactas.
Ejemplo. Es diferente el tiempo medio en que se fundirn las bombillas de 100 vatios de tres marcas
distintas? A partir del anlisis de varianza de un factor de Kruskal-Wallis, puede comprobar que las tres
marcas s se diferencian en su vida media.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Pruebas: H de Kruskal-Wallis, de la mediana.
Supuestos. Utilice muestras independientes y aleatorias. La prueba H de Kruskal-Wallis requiere que las
muestras comparadas tengan formas similares.
Cuando existe una ordenacin natural a priori (ascendente o descendente) de las poblaciones k, la prueba
Jonckheere-Terpstra es ms potente. Por ejemplo, las k poblaciones pueden representar k temperaturas
ascendentes. Se contrasta la hiptesis de que diferentes temperaturas producen la misma distribucin de
respuesta, con la hiptesis alternativa de que cuando la temperatura aumenta, la magnitud de la
respuesta aumenta. La hiptesis alternativa se encuentra aqu ordenada; por tanto, la prueba de
Jonckheere-Terpstra es la prueba ms apropiada. La prueba de Jonckheere-Terpstra estar disponible slo
si ha instalado el mdulo adicional Pruebas exactas.
Ejemplo. Asocia la gente diferentes niveles de prestigio a doctores, abogados, policas y profesores? Se
pide a diez personas que ordenen estas cuatro profesiones por orden de prestigio. La prueba de Friedman
indica que la gente asocia diferentes niveles de prestigio con estas cuatro profesiones.
Estadsticos. Media, desviacin estndar, mnimo, mximo, nmero de casos no perdidos y cuartiles.
Pruebas: Friedman, W de Kendall y Q de Cochran.
Ejemplo. Este ejemplo ilustra el uso de elementos de respuestas mltiples en un estudio de investigacin
de mercado. Los datos son ficticios y no deben interpretarse como reales. Una lnea area podra hacer
una encuesta a los pasajeros que realicen una determinada ruta para evaluar las lneas areas de la
competencia. En este ejemplo, American Airlines desea conocer el uso que hacen sus pasajeros de otras
lneas areas en la ruta Chicago-Nueva York y la importancia relativa del horario y el servicio a la hora
de seleccionar una lnea area. El encargado del vuelo proporciona a cada pasajero un breve cuestionario
durante el embarque. La primera pregunta dice: rodee con un crculo todas las lneas areas con la que
haya volado al menos una vez en los ltimos seis meses en este mismo trayecto: American, United, TWA,
USAir, Otras. Se trata de una pregunta de respuestas mltiples, ya que el pasajero puede marcar ms de
una respuesta. Sin embargo, la pregunta no se puede codificar directamente, ya que una variable slo
puede tener un valor para cada caso. Deber utilizar distintas variables para correlacionar las respuestas
con cada pregunta. Existen dos formas de hacerlo. Una consiste en definir una variable para cada una de
las opciones (por ejemplo, American, United, TWA, USAir y Otras). Si el pasajero marca United, a la
variable united se le asignar el cdigo 1; en caso contrario se le asignar 0. ste es un mtodo de
dicotomas mltiples de correlacin de variables. La otra forma de correlacionar respuestas es el mtodo
de categoras mltiples, en el que se estima el nmero mximo de posibles respuestas a la pregunta y se
configura el mismo nmero de variables, con cdigos para especificar la lnea area utilizada.
Examinando una muestra de cuestionarios, podra observarse que ningn usuario ha volado en ms de
tres lneas areas diferentes en esta ruta durante los ltimos seis meses. An ms, se observar que
debido a la liberalizacin de las lneas areas, aparecen otras 10 en la categora Otras. Con el mtodo de
respuestas mltiples, definira tres variables, cada una codificada como 1 = american, 2 = united, 3 = twa, 4
= usair, 5 = delta y as sucesivamente. Si un pasajero determinado marca American y TWA, la primera
variable tendr el cdigo 1, la segunda el 3 y la tercera un cdigo de valor perdido. Otro pasajero podra
haber marcado American e introducido Delta. As, la primera variable tendr el cdigo 1, la segunda el 5
y la tercera un cdigo de valor perdido. Por el contrario, si utiliza el mtodo de dicotomas mltiples,
terminar con 14 variables independientes. Aunque cualquiera de los mtodos de correlacin anteriores es
viable para este estudio, el mtodo seleccionado depender de la distribucin de respuestas.
Las variables elementales se pueden codificar como dicotomas o categoras. Para utilizar variables
dicotmicas, seleccione Dicotomas para crear un conjunto de dicotomas mltiples. Introduzca un valor
entero en Valor contado. Cada variable que tenga al menos una aparicin del valor contado se convierte
en una categora del conjunto de dicotomas mltiples. Seleccione Categoras para crear un conjunto de
categoras mltiples con el mismo rango de valores que las variables que lo componen. Introduzca
valores enteros para los valores mximo y mnimo del rango para las categoras del conjunto de
A cada conjunto de respuestas mltiples se le debe asignar un nombre exclusivo de hasta siete caracteres.
El procedimiento coloca delante del nombre asignado un signo dlar ($). No se pueden utilizar los
siguientes nombres reservados: casenum, sysmis, jdate, date, time, length y width. El nombre del conjunto de
respuestas mltiples slo se encuentra disponible para su uso en los procedimientos de respuestas
mltiples. No se puede hacer referencia a nombres de conjuntos de respuestas mltiples en otros
procedimientos. Si lo desea, puede introducir una etiqueta de variable descriptiva para el conjunto de
respuestas mltiples. La etiqueta puede tener hasta 40 caracteres.
Para los conjuntos de dicotomas mltiples, los nombres de categoras que se muestran en los resultados
proceden de etiquetas de variable definidas para variables elementales del grupo. Si las etiquetas de
variable no estn definidas, los nombres de las variables se utilizarn como etiquetas. Para los conjuntos
de categoras mltiples, las etiquetas de categora proceden de las etiquetas de valor de la primera
variable del grupo. Si las categoras perdidas para la primera variable estn presentes para otras variables
del grupo, defina una etiqueta de valor para las categoras perdidas.
Valores perdidos. Los casos con valores perdidos se excluyen en base a tabla por tabla. Si lo desea, puede
seleccionar una de las opciones siguientes o ambas:
v Excluir los casos segn lista dentro de las dicotomas. Excluye los casos con valores perdidos en
cualquier variable de la tabulacin del conjunto de dicotomas mltiples. Esto slo se aplica a conjuntos
de respuestas mltiples definidos como conjuntos de dicotomas. De forma predeterminada, un caso se
considera perdido para un conjunto de dicotomas mltiples si ninguna de sus variables que lo
componen contiene el valor contado. Los casos con valores perdidos en algunas variables, pero no en
todas, se incluyen en las tabulaciones del grupo si al menos una variable contiene el valor contado.
v Excluir los casos segn lista dentro de las categoras. Excluye los casos con valores perdidos en
cualquier variable de la tabulacin del conjunto de categoras mltiples. Esto slo se aplica a conjuntos
de respuestas mltiples definidos como conjuntos de categoras. De forma predeterminada, un caso se
considera perdido para un conjunto de categoras mltiples slo si ninguno de sus componentes tiene
valores vlidos dentro del rango definido.
Ejemplo. Cada variable creada a partir de una pregunta de una encuesta es una variable elemental. Para
analizar un elemento de respuestas mltiples, deber combinar las variables en uno o dos tipos de
conjuntos de respuestas mltiples: un conjunto de dicotomas mltiples o un conjunto de categoras
mltiples. Por ejemplo, si una encuesta sobre lneas areas preguntara al encuestado cul de las tres
lneas (American, United, TWA) ha utilizado durante los seis ltimos meses y usted utilizara variables
dicotmicas y definiera un conjunto de dicotomas mltiples, cada una de las tres variables del conjunto
se convertira en una categora de la variable de grupo. Las frecuencias y los porcentajes de las tres lneas
Supuestos. Las frecuencias y los porcentajes proporcionan una descripcin til de los datos de cualquier
distribucin.
Para los conjuntos de dicotomas mltiples, los nombres de categoras que se muestran en los resultados
proceden de etiquetas de variable definidas para variables elementales del grupo. Si las etiquetas de
variable no estn definidas, los nombres de las variables se utilizarn como etiquetas. Para los conjuntos
de categoras mltiples, las etiquetas de categora proceden de las etiquetas de valor de la primera
variable del grupo. Si las categoras perdidas para la primera variable estn presentes para otras variables
del grupo, defina una etiqueta de valor para las categoras perdidas. El procedimiento muestra las
etiquetas de categora por columnas en tres lneas, con un mximo de ocho caracteres por lnea. Para
evitar la divisin de palabras, puede invertir los elementos de las filas y las columnas o volver a definir
las etiquetas.
Ejemplo. Tanto los conjuntos de categoras mltiples como los conjuntos de dicotomas mltiples se
pueden presentar en forma de tabulacin cruzada con otras variables de este procedimiento. Un estudio
sobre pasajeros de lneas areas solicita a stos la siguiente informacin: marque las lneas areas con las
que ha volado al menos una vez en los seis ltimos meses (American, United, TWA). Qu considera ms
importante a la hora de seleccionar un vuelo, el horario o el servicio? Seleccione slo uno. Despus de
introducir los datos como dicotomas o categoras mltiples y combinarlos en un conjunto, puede
presentar en forma de tabulacin cruzada las selecciones de lnea area con la pregunta relativa al
servicio o al horario.
Estadsticos. Tabulacin cruzada con recuentos de casilla, fila, columna y totales, as como porcentajes de
casillas, filas, columnas y totales. Los porcentajes de casillas se basan en casos o respuestas.
Supuestos. Las frecuencias y los porcentajes proporcionan una til descripcin de los datos de cualquier
distribucin.
Si lo desea, puede obtener una tabulacin cruzada bidimensional para cada categora de una variable de
control o conjunto de respuestas mltiples. Seleccione uno o varios elementos para la lista Capas.
Porcentajes basados en. Los porcentajes de casillas pueden basarse en casos (o encuestados). Esta opcin
no estar disponible si selecciona la concordancia de variables en conjuntos de categoras mltiples.
Tambin se pueden basar en las respuestas. Para los conjuntos de dicotomas mltiples, el nmero de
respuestas es igual al nmero de valores contados por los casos. Para los conjuntos de categoras
mltiples, el nmero de respuestas es el nmero de valores del rango definido.
Ejemplo. Una empresa con una cadena de tiendas registra los datos de sus empleados, incluyendo el
salario, el cargo, la tienda y la seccin en la que trabaja cada uno. Se podra generar un informe que
proporcione los datos individuales de cada empleado (listado) desglosados por tienda y seccin (variables
de segmentacin), con estadsticos de resumen (por ejemplo, el salario medio) por tienda, seccin y
seccin dentro de cada tienda.
Columnas de datos. Muestra una lista de las variables del informe para las que desea obtener el listado
de los casos o los estadsticos de resumen y controla el formato de presentacin de las columnas de datos.
Salto de columna. Muestra una lista de las variables de segmentacin opcionales que dividen el informe
en grupos y controla los estadsticos de resumen y los formatos de presentacin de Salto de columna. Si
hay varias variables de segmentacin, se crear un grupo distinto para cada una de las categoras de las
variables de segmentacin dentro de las categoras de la variable de segmentacin anterior en la lista. Las
variables de segmentacin deben ser variables categricas discretas que dividan los casos en un nmero
limitado de categoras con sentido. Los valores individuales de cada variable de segmentacin aparecen
ordenados en una columna distinta situada a la izquierda de todas las columnas de datos.
Informe. Controla las caractersticas globales del informe, incluyendo los estadsticos de resumen
globales, la presentacin de los valores perdidos, la numeracin de las pginas y los ttulos.
Mostrar casos. Muestra los valores reales (o etiquetas de valor) de las variables de la columna de datos
para cada caso. Esto genera un informe a modo de listado, que puede ser mucho ms largo que un
informe de resumen.
Vista previa. Muestra slo la primera pgina del informe. Esta opcin es til para ver una vista previa
del formato del informe sin tener que procesar el informe completo.
Los datos estn ordenados. Para los informes con variables de segmentacin, el archivo de datos se debe
ordenar por los valores de estas variables antes de generar el informe. Si el archivo de datos ya est
ordenado por estos valores, se puede ahorrar tiempo de procesamiento seleccionando esta opcin. Esta
opcin es especialmente til despus de generar la vista previa de un informe.
Ttulo de la columna. Para la variable seleccionada, controla el ttulo de la columna. Los ttulos largos se
ajustan de forma automtica dentro de la columna. Utilice la tecla Intro para insertar manualmente lneas
de separacin donde desee ajustar los ttulos.
Posicin de valor en la columna. Para la variable seleccionada, controla la alineacin de los valores de
los datos o de las etiquetas de valor dentro de la columna. La alineacin de los valores o de las etiquetas
no afecta a la alineacin de los encabezados de las columnas. Puede sangrar el contenido de la columna
por un nmero especfico de caracteres o centrar el contenido.
Contenido de la columna. Para la variable seleccionada, controla la presentacin de los valores de los
datos o de las etiquetas de valor definidas. Los valores de los datos siempre se muestran para cualquier
valor que no tenga etiquetas de valor definidas. No se encuentra disponible para las columnas de datos
en los informes estadsticos en columnas.
Los estadsticos de resumen disponibles son: suma, media, valor mnimo, valor mximo, nmero de
casos, porcentaje de casos por encima y por debajo de un valor especificado, porcentaje de casos dentro
de un rango de valores especificado, desviacin estndar, curtosis, varianza y asimetra.
Lneas en blanco antes de los estadsticos. Controla el nmero de lneas en blanco entre las etiquetas o
los datos de la categora de ruptura y los estadsticos de resumen. Esta opcin es especialmente til para
Excluir casos con valores perdidos segn lista. Elimina (del informe) cualquier caso con valores perdidos
para cualquier variable del informe.
Los valores perdidos aparecen como. Permite especificar el smbolo que representa los valores perdidos
en el archivo de datos. Este smbolo slo puede tener un carcter y se utiliza para representar tanto los
valores perdidos del sistema como los valores perdidos del usuario.
Numerar las pginas desde la. Permite especificar un nmero de pgina para la primera pgina del
informe.
Diseo de pgina. Controla los mrgenes de las pginas expresados en lneas (extremos superior e
inferior) y caracteres (a la izquierda y a la derecha) y la alineacin del informe entre los mrgenes.
Ttulos y pies de pgina. Controla el nmero de lneas que separan los ttulos y los pies de pgina del
cuerpo del informe.
Salto de columna. Controla la presentacin de los saltos de columna. Si se especifican diversas variables
de segmentacin, pueden situarse en columnas diferentes o en la primera columna. Si se colocan todas en
la primera columna, se generar un informe ms estrecho.
Filas de col. datos y etiquetas de salto. Controla la ubicacin de la informacin de las columnas de datos
(valores de datos o estadsticos de resumen) en relacin con las etiquetas de salto al principio de cada
categora de ruptura. La primera fila de informacin puede empezar en la misma lnea que la etiqueta de
categora de ruptura o en un nmero de lneas posterior especificado. Esta seccin no se encuentra
disponible para los informes de estadsticos en columnas.
Si inserta variables en los ttulos o en los pies de pgina, la etiqueta de valor o el valor de la variable
actual aparecer en el ttulo o en el pie de pgina. Para los ttulos se mostrar la etiqueta de valor
correspondiente al valor de la variable al principio de la pgina. Para los pies de pgina, esta etiqueta se
mostrar al final de la pgina. Si no hay etiqueta de valor, se mostrar el valor real.
Ejemplo. Una empresa con una cadena de tiendas registra la informacin de los empleados, incluyendo
el salario, el cargo y la seccin en la que trabaja cada uno. Se podra generar un informe que proporcione
los estadsticos de salario resumidos (por ejemplo, media, mnimo y mximo) para cada seccin.
Columnas de datos. Muestra una lista de las variables del informe para las que se desea obtener
estadsticos de resumen y controla el formato de presentacin y los estadsticos de resumen mostrados
para cada variable.
Salto de columna. Muestra una lista de las variables de segmentacin opcionales que dividen el informe
en grupos y controla los formatos de presentacin de los saltos de columna. Si hay varias variables de
segmentacin, se crear un grupo distinto para cada una de las categoras de las variables de
segmentacin dentro de las categoras de la variable de segmentacin anterior en la lista. Las variables de
segmentacin deben ser variables categricas discretas que dividan los casos en un nmero limitado de
categoras con sentido.
Informe. Controla las caractersticas globales del informe, incluyendo la presentacin de los valores
perdidos, la numeracin de las pginas y los ttulos.
Vista previa. Muestra slo la primera pgina del informe. Esta opcin es til para ver una vista previa
del formato del informe sin tener que procesar el informe completo.
Los datos estn ordenados. Para los informes con variables de segmentacin, el archivo de datos se debe
ordenar por los valores de estas variables antes de generar el informe. Si el archivo de datos ya est
ordenado por estos valores, se puede ahorrar tiempo de procesamiento seleccionando esta opcin. Esta
opcin es especialmente til despus de generar la vista previa de un informe.
Los estadsticos de resumen disponibles son: suma, media, valor mnimo, valor mximo, nmero de
casos, porcentaje de casos por encima y por debajo de un valor especificado, porcentaje de casos dentro
de un rango de valores especificado, desviacin estndar, varianza, curtosis y asimetra.
Los estadsticos de resumen del total son la suma de columnas, la media de columnas, el mnimo, el
mximo, la diferencia entre los valores de dos columnas, el cociente de los valores de una columna
dividido por los valores de otra y el producto de los valores de las columnas multiplicados entre s.
Suma de columnas. La columna total es la suma de las columnas de la lista Columna de resumen.
Media de columnas. La columna total es la media de las columnas de la lista Columna de resumen.
Mnimo de columnas. La columna total es el mnimo de las columnas de la lista Columna de resumen.
Mximo de columnas. La columna total es el mximo de las columnas de la lista Columna de resumen.
1 columna - 2 columna. La columna total es la resta de las columnas de la lista Columna de resumen.
Esta lista debe contener, exactamente, dos columnas.
Producto de columnas. La columna total es el producto de las columnas de la lista Columna de resumen.
Lneas en blanco antes del subtotal. Controla el nmero de lneas en blanco entre los datos de las
categoras de ruptura y los subtotales.
Total final. Muestra y etiqueta un total global para cada columna que aparece al final de la columna.
Valores perdidos. Permite excluir los valores perdidos del informe o seleccionar un nico carcter para
indicar estos valores.
Debido a la complejidad de la sintaxis de REPORT, a la hora de generar un nuevo informe con sintaxis
puede resultarle til, para aproximar el informe generado a partir de los cuadros de dilogo, copiar y
pegar la sintaxis correspondiente y depurar esa sintaxis para generar exactamente el informe que le
interese.
Ejemplo. El cuestionario mide la satisfaccin del cliente de manera til? El anlisis de fiabilidad le
permitir determinar el grado en que los elementos del cuestionario se relacionan entre s, obtener un
ndice global de la replicabilidad o de la consistencia interna de la escala en su conjunto e identificar
elementos problemticos que deberan ser excluidos de la escala.
Estadsticos. Descriptivos para cada variable y para la escala, estadsticos de resumen comparando los
elementos, correlaciones y covarianzas entre elementos, estimaciones de la fiabilidad, tabla de ANOVA,
coeficientes de correlacin intraclase, T cuadrado de Hotelling y prueba de aditividad de Tukey.
Datos. Los datos pueden ser dicotmicos, ordinales o de intervalo, pero deben estar codificados
numricamente.
Supuestos. Las observaciones deben ser independientes y los errores no deben estar correlacionados entre
los elementos. Cada par de elementos debe tener una distribucin normal bivariada. Las escalas deben
ser aditivas, de manera que cada elemento est linealmente relacionado con la puntuacin total.
Descriptivos para. Genera estadsticos descriptivos para las escalas o los elementos a travs de los casos.
v Elemento. Genera estadsticos descriptivos para los elementos a travs de los casos.
v Escalas. Genera estadsticos descriptivos para las escalas.
v Escala si se elimina el elemento. Muestra estadsticos de resumen para comparar cada elemento con
la escala compuesta por otros elementos. Los estadsticos incluyen la media de escala y la varianza si el
elemento fuera a eliminarse de la escala, la correlacin entre el elemento y la escala compuesta por
otros elementos, y alfa de Cronbach si el elemento fuera a eliminarse de la escala.
Resmenes. Proporciona estadsticos descriptivos sobre las distribuciones de los elementos a travs de
todos los elementos de la escala.
v Medias. Estadsticos de resumen de las medias de los elementos. Se muestran el mximo, el mnimo y
el promedio de las medias de los elementos, el rango y la varianza de las medias de los elementos, y la
razn de la mayor media sobre la menor media de los elementos.
v Varianzas. Estadsticos de resumen de las varianzas de los elementos. Se muestran el mximo, el
mnimo y el promedio de las varianzas de los elementos, el rango y la varianza de las varianzas de los
elementos y la razn de la mayor varianza sobre la menor varianza de los elementos.
v Covarianzas. Estadsticos de resumen de las covarianzas entre elementos. Se muestran el mximo, el
mnimo y el promedio de las covarianzas entre elementos, el rango y la varianza de las covarianzas
entre elementos, y la razn de la mayor sobre la menor covarianza entre elementos.
v Correlaciones. Estadsticos de resumen para las correlaciones entre elementos. Se muestran el mximo,
el mnimo y el promedio de las correlaciones entre elementos, el rango y la varianza de las
correlaciones entre elementos, y la razn de la mayor correlacin sobre la menor correlacin entre
elementos.
entre elementos. Genera las matrices de correlaciones o covarianzas entre los elementos.
T-cuadrado de Hotelling. Genera una prueba multivariante sobre la hiptesis nula de que todos los
elementos de la escala tienen la misma media.
Coeficiente de correlacin intraclase. Genera medidas sobre la consistencia o sobre el acuerdo de los
valores entre los propios casos.
v Modelo. Seleccione el modelo para calcular el coeficiente de correlacin intraclase. Los modelos
disponibles son: Mixto de dos factores, aleatorio de dos factores y aleatorio de un factor. Seleccione
Mixto de dos factores, si los efectos de personas son aleatorios y los efectos de elementos son fijos,
Aleatorio de dos factores si los efectos de personas y los efectos de elementos son aleatorios; o
Aleatorio de un factor si los efectos de personas son aleatorios.
v Tipo. Seleccione el tipo de ndice. Los tipos disponibles son: Consistencia y Acuerdo absoluto.
v Intervalo de confianza. Especifica el nivel para el intervalo de confianza. El valor predeterminado es
95%.
v Valor de prueba. Especifica el valor hipotetizado para el coeficiente, para el contraste de hiptesis.
Este valor es el valor con el que se compara el valor observado. El valor predeterminado es 0.
Si las variables se han medido objetivamente, puede utilizar el escalamiento multidimensional como
tcnica de reduccin de datos (el procedimiento Escalamiento multidimensional permitir calcular las
distancias a partir de los datos multivariados, si es necesario). El escalamiento multidimensional puede
tambin aplicarse a valoraciones subjetivas de disimilaridad entre objetos o conceptos. Adems, el
procedimiento Escalamiento multidimensional puede tratar datos de disimilaridad procedentes de
mltiples fuentes, como podran ser mltiples evaluadores o mltiples encuestados.
Ejemplo. Cmo percibe el pblico las diferencias entre distintos coches? Si posee datos de las
valoraciones de similaridad emitidas por los encuestados sobre las diferentes marcas y modelos de
coches, puede utilizar el escalamiento multidimensional para identificar las dimensiones que describan las
preferencias de los consumidores. Puede encontrar, por ejemplo, que el precio y el tamao de un vehculo
definen un espacio de dos dimensiones, capaz de explicar las similaridades de las que informan los
encuestados.
Estadsticos. Para cada modelo: Matriz de datos, Matriz de datos escalada ptimamente, S-stress (de
Young), estrs (de Kruskal), R, Coordenadas de los estmulos, estrs promedio y R para cada estmulo
(modelos RMDS). Para modelos de diferencias individuales (INDSCAL): ponderaciones del sujeto e ndice
de peculiaridad para cada sujeto. Para cada matriz en los modelos de escalamiento multidimensional
replicado: estrs y R para cada estmulo. Grficos: coordenadas de los estmulos (de dos o tres
dimensiones), diagrama de dispersin de las disparidades frente a las distancias.
Datos. Si los datos son de disimilaridad, todas las disimilaridades deben ser cuantitativas y deben estar
medidas en la misma mtrica. Si los datos son datos multivariantes, las variables pueden ser datos
cuantitativos, binarios o de recuento. El escalamiento de las variables es un tema importante, ya que las
diferencias en el escalamiento pueden afectar a la solucin. Si las variables tienen grandes diferencias en
el escalamiento (por ejemplo, una variable se mide en dlares y otra en aos), debe considerar la
posibilidad de tipificarlas (este proceso puede llevarse a cabo automticamente con el propio
procedimiento Escalamiento multidimensional).
Medida. Le permite especificar la medida de disimilaridad para el anlisis. Seleccione una opcin del
grupo Medida que se corresponda con el tipo de datos y, a continuacin, elija una de las medidas de la
lista desplegable correspondiente a ese tipo de medida. Las opciones disponibles son:
v Intervalo. Distancia eucldea, Distancia eucldea al cuadrado, Chebychev, Bloque, Minkowski o
Personalizada.
v Recuentos. Medida de chi-cuadrado o Medida de phi-cuadrado.
v Binario. Distancia eucldea, Distancia eucldea al cuadrado, Diferencia de tamao, Diferencia de
configuracin, Varianza o Lance y Williams.
Crear matriz de proximidades. Le permite elegir la unidad de anlisis. Las opciones son Entre variables o
Entre casos.
Transformar valores. En determinados casos, como cuando las variables se miden en escalas muy
distintas, puede que desee tipificar los valores antes de calcular las proximidades (no es aplicable a datos
binarios). Seleccione un mtodo de estandarizacin en la lista desplegable Estandarizar. Si no se requiere
ninguna estandarizacin, seleccione Ninguno.
Nivel de medicin. Permite especificar el nivel de los datos. Las opciones son Ordinal, Intervalo y Razn.
Si las variables son ordinales, al seleccionar Desempatar observaciones empatadas se solicitar que sean
consideradas como variables continuas, de forma que los empates (valores iguales para casos diferentes)
se resuelvan ptimamente.
Condicionalidad. Permite especificar qu comparaciones tienen sentido. Las opciones son Matriz, Fila o
Incondicional.
Modelo de escalamiento. Permite especificar los supuestos bajo los que se realiza el escalamiento. Las
opciones disponibles son Distancia eucldea o Distancia eucldea de diferencias individuales (tambin
conocida como INDSCAL). Para el modelo de Distancia eucldea de diferencias individuales, puede
seleccionar Permitir ponderaciones negativas de los sujetos, si es adecuado para los datos.
Representacin. Permite seleccionar varios tipos de resultados. Las opciones disponibles son Grficos de
grupo, Grficos para los sujetos individuales, Matriz de datos y Resumen del modelo y de las opciones.
Criterios. Permite determinar cundo debe detenerse la iteracin. Para cambiar los valores
predeterminados, introduzca valores para la Convergencia de s-stress, el Valor mnimo de s-stress y el
N mximo de iteraciones.
Tratar distancias menores que n como perdidas. Las distancias menores que este valor se excluyen del
anlisis.
Se pueden ordenar los resultados por los valores de una variable de agrupacin, en orden ascendente o
descendente. Se puede eliminar de los resultados el informe de los estadsticos de la razn y almacenar
los resultados en un archivo externo.
Ejemplo. Existe una buena uniformidad en la razn entre el precio de tasacin y el precio de venta de
viviendas en cada una de las cinco regiones? En los resultados, se puede descubrir que la distribucin de
las razones vara considerablemente entre regiones.
Estadsticos. Mediana, media, media ponderada, intervalos de confianza, coeficiente de dispersin (CDD),
coeficiente de variacin centrado en la mediana, coeficiente de variacin centrado en la media, el
diferencial de precio (DRV), desviacin estndar, desviacin absoluta promedio (DAP), rango, valores
mnimos y mximos y el ndice de concentracin calculado dentro de un rango o porcentaje
(especificados por el usuario) respecto a la razn mediana.
Datos. Utilice cdigos numricos o cadenas para codificar las variables de agrupacin (mediciones de
nivel nominal u ordinal).
Supuestos. Las variables que definen el numerador y el denominador de la razn deben ser variables de
escala, que toman valores positivos.
Si lo desea:
v Seleccione una variable de agrupacin y especificar el orden de los grupos en los resultados.
v Elija si desea mostrar los resultados en el Visor.
v Elija si desea guardar los resultados en un archivo externo para un uso posterior y especificar el
nombre del archivo en el que se van a guardar los resultados.
Estadsticos de la razn
Tendencia central. Las medidas de tendencia central son estadsticos que describen la distribucin de las
razones.
v Mediana. Un valor tal que el nmero de razones menores que este valor es igual al nmero de
razones mayores que el mismo.
v Media. El resultado de sumar las razones y dividir la suma entre el nmero total de razones.
v Media ponderada. El resultado de dividir la media del numerador entre la media del denominador.
La media ponderada es tambin la media de las razones ponderadas por el denominador.
Dispersin. Estos estadsticos miden la cantidad de variacin o de dispersin entre los valores
observados.
v DAP. La desviacin absoluta promedio es el resultado de sumar las desviaciones absolutas de las
razones respecto a la mediana y dividir el resultado entre el nmero total de razones.
v CDD. El coeficiente de dispersin es el resultado de expresar la desviacin absoluta promedio como
un porcentaje de la mediana.
v DRP. El diferencial relativo al precio, tambin conocido como el ndice de regresibilidad, es el
resultado de dividir la media por la media ponderada.
v CDV centrado en la mediana. El coeficiente de variacin centrado en la mediana es el resultado de
expresar la raz de la media cuadrtica de las desviaciones respecto a la mediana como un porcentaje
de la mediana.
v CDV centrado en la media. El coeficiente de variacin centrado en la media es el resultado de
expresar la desviacin estndar como un porcentaje de la media.
v Desviacin estndar. La desviacin estndar es el resultado de sumar las desviaciones cuadrticas de
las razones respecto a la media, dividir la suma por el nmero total de razones menos uno y extraer la
raz cuadrada positiva.
v Rango. El rango es el resultado de restar la razn mnima de la razn mxima.
v Mnimo. El mnimo es la razn menor.
v Mximo. El mximo es la razn mayor.
ndice de concentracin. El coeficiente de concentracin mide el porcentaje de razones que estn dentro
de un intervalo. Se puede calcular de dos maneras:
v Razones dentro del. En este caso, el intervalo se define de forma explcita especificando los valores
superior e inferior del intervalo. Introduzca valores para las proporciones superior e inferior y pulse en
Aadir para obtener un intervalo.
v Razones en. En este caso, el intervalo se define de forma implcita al especificar el porcentaje de la
mediana. Introduzca un valor entre 0 y 100 y pulse en Aadir. El lmite inferior del intervalo ser igual
a (1 0.01 valor) mediana, y el lmite superior ser igual a (1 + 0.01 valor) mediana.
Estadsticos. Es un rea situada bajo la curva COR con un intervalo de confianza y puntos de
coordenadas de la curva COR. Grficos: Curva COR.
Mtodos. Se puede calcular la estimacin del rea situado bajo la curva COR de forma paramtrica o no
paramtrica mediante un modelo exponencial binegativo.
Datos. Las variables de contraste son cuantitativas. Las variables de contraste suelen estar constituidas
por probabilidades, resultantes de un anlisis discriminante o de una regresin logstica, o bien
compuestas por puntuaciones atribuidas en una escala arbitraria que indican el grado de conviccin
que tiene un evaluador de que el sujeto pueda pertenecer a una u otra categora. La variable de estado
puede ser de cualquier tipo e indicar la categora real a la que pertenece un sujeto. El valor de la variable
de estado indica la categora que se debe considerar positiva.
Supuestos. Se considera que los nmeros ascendentes de la escala del evaluador representan la creciente
conviccin de que el sujeto pertenece a una categora. Por el contrario, los nmeros descendentes
representan la creciente conviccin de que el sujeto pertenece a la otra categora. El usuario deber elegir
qu direccin es positiva. Tambin se considera que se conoce la categora real a la que pertenece el sujeto.
Clasificacin. Permite especificar si se debe incluir o excluir el valor del punto de corte al realizar una
clasificacin positiva. Este ajuste no afecta a los resultados.
Parmetros para el error estndar del rea. Permite especificar el mtodo de estimacin del error
estndar del rea situada bajo la curva. Los mtodos disponibles son el no paramtrico y el exponencial
binegativo. Tambin se puede establecer el nivel para el intervalo de confianza. El rango disponible es
entre el 50,1% y el 99,9%.
Valores perdidos. Permite especificar el tratamiento que reciben los valores perdidos.
177
178 IBM SPSS Statistics Base 24
Captulo 34. Simulacin
Los modelos predictivos, como una regresin lineal, requieren un conjunto de entradas conocidas para
predecir un resultado o valor de destino. En muchas aplicaciones del mundo real, sin embargo, los
valores de las entradas son inciertos. La simulacin permite explicar la incertidumbre de las entradas en
modelos predictivos y evaluar la posibilidad de varios resultados del modelo en presencia de esa
incertidumbre. Por ejemplo, tiene un modelo de beneficio que incluye el coste de los materiales como una
entrada, pero hay incertidumbre en ese coste por la volatilidad del mercado. Puede utilizar la simulacin
para modelar esa incertidumbre y determinar el efecto que tiene en los beneficios.
La simulacin de IBM SPSS Statistics utiliza el mtodo de Monte Carlo. Las entradas inciertas se modelan
con distribuciones de probabilidad (como la distribucin triangular), y los valores simulados de esas
entradas se generan a partir de esas distribuciones. Las entradas cuyos valores se conocen se mantienen
fijas en los valores conocidos. El modelo predictivo se evala utilizando un valor simulado para cada
entrada incierta y los valores fijos de las entradas conocidas para calcular el destino (u destinos) del
modelo. El proceso se repite muchas veces (normalmente decenas de miles o cientos de miles de veces),
resultando en una distribucin de los valores de destino que es posible utilizar para responder las
preguntas de una naturaleza probabilstica. En el contexto de IBM SPSS Statistics, cada repeticin del
proceso genera un caso diferente (registro) de datos que consiste en el conjunto de valores simulados de
las entradas inciertas, los valores de las entradas fijas y el destino (o destinos) predichos del modelo.
Para ejecutar una simulacin, necesita especificar datos como el modelo predictivo, las distribuciones de
probabilidad de las entradas inciertas, las correlaciones entre esas entradas y los valores de entradas fijas.
Una vez haya especificado todos los detalles de una simulacin, puede ejecutarla y, opcionalmente,
guardar las especificaciones en un archivo de plan de simulacin. Puede compartir el plan de simulacin
con otros usuarios, que pueden ejecutar la simulacin sin necesidad de comprender los detalles de su
creacin.
Existen dos interfaces disponibles para trabajar con simulaciones. El Generador de simulaciones es una
interfaz avanzada para usuarios que disean y ejecutan simulaciones. Proporciona el conjunto completo
de funciones para disear una simulacin, guardar las especificaciones en un archivo de plan de
simulacin, especificar los resultados y ejecutar la simulacin. Puede crear una simulacin basada en un
archivo de modelo de IBM SPSS, o en un conjunto de ecuaciones personalizadas que defina en el
Generador de simulaciones. Tambin puede cargar un plan de simulacin existente en el Generador de
simulaciones, modificar cualquiera de los ajustes y ejecutar la simulacin, con la opcin adicional de
guardar el plan actualizado. Para los usuarios que tengan un plan de simulacin y desean
preferentemente ejecutar la simulacin, existe una interfaz ms simple. Permite modificar ajustes que
permiten ejecutar la simulacin en condiciones diferentes, pero no proporciona todas las funciones del
Generador de simulaciones para el diseo de simulaciones.
Generador de simulaciones
El Generador de simulaciones proporciona la gama completa de funciones para disear y ejecutar
simulaciones. Permite ejecutar las siguientes tareas generales:
v Disear y ejecutar una simulacin de un modelo de IBM SPSS definido en un archivo de modelo
PMML.
v Disear y ejecutar una simulacin de un modelo predictivo definido por un conjunto de ecuaciones
personalizadas que especifique.
v Disear y ejecutar una simulacin que genera datos en ausencia de un modelo predictivo.
v Ejecutar una simulacin basada en un plan de simulacin existente, pudiendo modificar los ajustes del
plan.
Pestaa Modelo
Para simulaciones basadas en un modelo predictivo, la pestaa Modelo especifica el origen del modelo.
Para simulaciones que no incluyen un modelo predictivo, la pestaa Modelo especifica los campos que se
van a simular.
Seleccione un archivo de modelo SPSS. Esta opcin especifica que el modelo predictivo se define en un
archivo de modelo IBM SPSS. Un archivo de modelo de IBM SPSS es un archivo XML o un archivador de
archivos comprimidos (archivo .zip) que contiene el PMML de modelo creado desde IBM SPSS Statistics o
IBM SPSS Modeler. Los modelos predictivos estn creados por procedimientos, como Regresin lineal y
rboles de decisin en IBM SPSS Statistics, y se puede exportar a un archivo de modelo. Puede utilizar
un archivo de modelo diferente pulsando en Examinar y desplazndose al archivo que desee.
Nota:
v No se admite en Simulacin el uso de modelos PMML que tengan mltiples campos de destino
(variables) o divisiones.
v Los valores de entradas de cadena en modelos de regresin logstica binaria estn limitados a bytes en
el modelo. Si est adaptando tales entradas de cadena al conjunto de datos activo, asegrese de que los
valores de los datos no superan 8 bytes de longitud. Los valores de datos que superan 8 bytes se
excluyen de la distribucin categrica asociada de la entrada, y aparecen sin coincidencias en la tabla
de salida Categoras sin coincidencias.
Escriba las ecuaciones para el modelo. Esta opcin especifica que el modelo predictivo se compone de
una o ms ecuaciones personalizadas que puede crear el usuario. Cree las ecuaciones pulsando en Nueva
ecuacin. Se abrir el Editor de ecuaciones. Puede modificar ecuaciones existentes, copiarlas para
utilizarlas como plantillas de nuevas ecuaciones, reordenarlas y eliminarlas.
v El Generador de simulaciones no admite sistemas de ecuaciones simultneas o ecuaciones que no son
lineales en la variable destino.
v Las ecuaciones personalizadas se evalan en el orden en que se especifican. Si la ecuacin de un
destino especificado depende de otro destino, el otro destino se debe definir mediante una ecuacin
anterior.
Por ejemplo, teniendo en cuenta el conjunto de ecuaciones siguiente, la ecuacin de beneficios depende
de los valores de ingresos y gastos, por lo que las ecuaciones de ingresos y gastos deben anteceder a la
ecuacin de beneficios.
ingresos= precio*volumen
gastos= fijos + volumen*(unidad_coste_materiales + unidad_costes_laborales)
beneficios = ingresos - gastos
Crear datos sumulados sin un modelo. Seleccione esta opcin para simular datos sin un modelo
predictivo. Especifique los campos que deben simularse seleccionando los campos del conjunto de datos
activo o pulsando Nuevo para definir campos nuevos.
Editor de ecuaciones
El Editor de ecuaciones permite crear o modificar una ecuacin personalizada de su modelo predictivo.
v La expresin de la ecuacin puede contener campos del conjunto de datos activo o nuevos campos de
entrada que define en el Editor de ecuaciones.
v Puede especificar propiedades del destino como su nivel de medicin, etiquetas de valores y si los
resultados estn generados para el destino.
v Puede utilizar los destinos de ecuaciones definidas anteriormente como entradas de la ecuacin actual,
permitindole crear ecuaciones acopladas.
v Puede adjuntar un comentario descriptivo a la ecuacin. Los comentarios se muestran junto con la
ecuacin de la pestaa Modelo.
1. Introduzca el nombre del destino. Opcionalmente, pulse en Editar en el cuadro de texto Destino para
abrir el cuadro de dilogo Entradas definidas, permitiendo cambiar las propiedades predeterminadas
del destino.
2. Para crear una expresin, puede pegar los componentes en el campo Expresin numrica o escribir
directamente en dicho campo.
Entradas definidas: El cuadro de dilogo Entradas definidas permite definir nuevas entradas y las
propiedades de los destinos.
v Si una entrada que se va a utilizar en una ecuacin no existe en el conjunto de datos activo, debe
definirlo para que se pueda utilizar en la ecuacin.
v Si simula datos con un modelo predictivo, debe definir todas las entradas simuladas que no existan en
el conjunto de datos activo.
Entrada que se simular. Especifica que los valores de la entrada se simularn de acuerdo con una
distribucin de probabilidad especificada (la distribucin de probabilidad se especifica en la pestaa
Simulacin). El nivel de medicin determina el conjunto predeterminado de distribuciones que se
consideran al encontrar la mejor distribucin de la entrada (pulsando Ajustar o Ajustar todas en la
pestaa de Simulacin). Por ejemplo, si el nivel de medicin es continuo, la distribucin normal
(adecuada para datos continuos) se considerara, pero la distribucin binomial no.
Nota: Seleccione el nivel de medicin de Cadena para las entradas de cadena. Las entradas de cadena
que se simularn estn restringidas a la distribucin categrica.
Entrada de valor fijo. Especifica que se conoce el valor de la entrada y que se fijar en el valor conocido.
Las entradas fijas pueden ser numricas o de cadena. Especifique un valor para la entrada fija. Los
valores de cadena no deben ir entre comillas.
Etiquetas de valor. Puede especificar etiquetas de valores de destino, entradas simuladas y fijas. Las
etiquetas de valores se utilizan en grficos y tablas de resultados.
Pestaa Simulacin
La pestaa Simulacin especifica todas las propiedades de la simulacin diferentes a la del modelo
predictivo. Puede ejecutar las siguientes tareas generales en la pestaa Simulacin:
v Especificar las distribuciones de probabilidad de las entradas simuladas y valores de entradas fijas.
v Especificar correlaciones entre entradas simuladas. Para entradas categricas, puede especificar que se
utilicen las asociaciones que existen entre las entradas del conjunto de datos activos cuando se generen
datos para dichas entradas.
v Especificar opciones avanzadas como muestreos de cola y criterios para ajustar distribuciones a datos
histricos.
Campos simulados
Para ejecuar una simulacin, cada campo de entrada debe especificarse como fijo o simulado. Las
entradas simuladas son aquellas cuyos valores son inciertos y se generarn a partir de una distribucin
de probabilidad especificada. Cuando los datos histricos estn disponibles para que se simulen las
entradas, las distribuciones que se ajusten mejor a los datos se podrn determinar de forma automtica,
junto a las correlaciones entre dichas entradas. Tambin puede especificar manualmente las distribuciones
o correlaciones si los datos histricos no estn disponibles o si necesita distribuciones o correlaciones
especficas.
Las entradas fijas son aquellas cuyos valores se conocen y permanecen constantes en cada caso generado
en la simulacin. Por ejemplo, tiene un modelo de regresin lineal de ventas como una funcin de un
nmero de entradas incluyendo el precio y desea mantener el precio fijo en el mercado actual. A
continuacin especificara el precio como entrada fija.
Para simulaciones basadas en un modelo predictivo, cada predictor del modelo es un campo de entrada
para la simulacin. Para simulaciones que no incluyen un modelo predictivo, los campos que se
especifican en la pestaa Modelo son los campos para la simulacin.
La distribucin con mejor ajuste y sus parmetros asociados se muestran en la columna Distribucin
junto con una representacin de la distribucin superpuesta en un histograma (o grfico de barras) de los
datos histricos. Las correlaciones entre las entradas simuladas se muestran en los ajustes de
correlaciones. Puede examinar los resultados de ajuste y personalizar el ajuste de distribucin automtico
de una entrada concreta seleccionando la fila de la entrada y pulsando en Detalles del ajuste. Consulte el
tema Detalles del ajuste en la pgina 187 para obtener ms informacin.
Puede ejecutar el ajuste de distribucin automtico de una entrada concreta seleccionando la fila de la
entrada y pulsando en Ajustar. Las correlaciones de todas las entradas simuladas que corresponden con
los campos del conjunto de datos activo tambin se calculan automticamente.
Nota:
v Los casos con valores que faltan para cualquier entrada simulada se excluyen del ajuste de
distribucin, el clculo de correlaciones y el clculo de la tabla de contingencia opcional (para entradas
con una distribucin categrica). De forma opcional, puede especificar si los valores que faltan del
Nota: Las entradas categricas de un modelo PMML tienen categoras que se determinan a partir del
modelo y no se pueden modificar.
v Binomial negativa - Fallos. Describe la distribucin del nmero de fallos en una secuencia de intentos
antes de detectar un nmero especificado de xitos. El parmetro thresh es el nmero especificado de
xitos y el parmetro prob es la probabilidad de xito en cualquier prueba.
v Binomial negativa - Intentos. Describe la distribucin del nmero de intentos necesarios para detectar
un nmero especificado de xitos. El parmetro thresh es el nmero especificado de xitos y el
parmetro prob es la probabilidad de xito en cualquier prueba.
v Rango. Esta distribucin consiste en un conjunto de intervalos con una probabilidad asignada a cada
intervalo de forma que la suma de probabilidades en todos los intervalos es igual a 1. Los valores en
un intervalo concreto se generan a partir de una distribucin uniforme definida en ese intervalo. Los
intervalos se especifican introduciendo un valor mnimo, un valor mximo y una probabilidad
asociada.
Por ejemplo, usted cree que el coste de una materia prima tiene un 40% de posibilidades de caer entre
10 - 15 dlares por unidad y un 60% de posibilidades de caer entre 15 - 20 dlares por unidad.
Modelara el coste con una distribucin del rango de los dos intervalos [10 - 15] y [15 - 20], definiendo
la probabilidad asociada con el primer intervalo a 0,4 y la probabilidad asociada con el segundo
intervalo a 0,6. Los intervalos no tienen que ser contiguos y se pueden superponer. Por ejemplo, podra
especificar los intervalos 10 - 15 y 20 - 25 o 10 - 15 y 13 - 16.
v Weibull. El parmetro c es un parmetro de ubicacin opcional, que especifica dnde se encuentra el
origen de la distribucin.
Los parmetros de las siguientes distribuciones tienen el mismo significado en las funciones variables
aleatorias asociadas disponibles en el cuadro de dilogo Calcular variable: Bernoulli, Beta, Binomial,
Exponencial, Gamma, Lognormal, Binomial negativa (Intentos y Fallos), Normal, Poisson y Uniforme.
Especificacin de entradas fijas. Especifica una entrada fija seleccionando Fija en la lista desplegable
Tipo de la columna Distribucin, e introduciendo el valor fijo. El valor puede ser numrico o cadena,
dependiendo de si la entrada es numrica o de cadena. Los valores de cadena no deben ir entre comillas.
Anlisis de sensibilidad. Los anlisis de sensibilidad permiten investigar el efecto de los cambios
sistemticos en una entrada fija o en un parmetro de distribucin de una entrada estimulada generando
un conjunto independiente de casos simulados (una simulacin separada) para cada valor especificado.
Para especificar los anlisis de sensibilidad, seleccione una entrada fija o simulada y pulse en Anlisis de
sensibilidad. El anlisis de sensibilidad est limitado a una nica entrada fija o un parmetro de
distribucin nico de una entrada simulada. Consulte el tema Anlisis de sensibilidad en la pgina 188
para obtener ms informacin.
Los iconos de la columna Ajustar a indican el estado de ajuste de cada campo de entrada.
Tabla 3. Iconos de estado.
Icono Descripcin
No se ha especificado una distribucin para la entrada y la entrada no se ha especificado como
fija. Para ejecutar la simulacin, debe especificar una distribucin para esta entrada o definirla
como fija y especificar el valor fijo.
La entrada se ha fijado anteriormente a un campo que no existe en el conjunto de datos activo.
No se necesita ninguna accin salvo que desee volver a ajustar la distribucin de la entrada al
conjunto de datos activo.
La mejor distribucin de ajuste se ha sustituido por una distribucin diferente del cuadro de
dilogo Detalles del ajuste.
Detalles del ajuste: El cuadro de dilogo Detalles del ajuste muestra los resultados del ajuste de
distribucin automtico de una entrada concreta. Las distribuciones se ordenan por idoneidad de ajuste,
con la distribucin de mejor ajuste en primer lugar. Puede sustituir la distribucin de mejor ajuste
seleccionando el botn de opcin de la distribucin que desee en la columna Utilizar. Al seleccionar un
botn de opcin en la columna Utilizar tambin muestra un grfico de distribucin superpuesto en un
histograma (o grfico de barras) de los datos histricos de esa entrada.
Parmetros. Los parmetros de distribucin asociados con cada distribucin ajustada se muestran en la
columna Parmetros. Los parmetros de las siguientes distribuciones tienen el mismo significado en las
funciones variables aleatorias asociadas disponibles en el cuadro de dilogo Calcular variable: Bernoulli,
Beta, Binomial, Exponencial, Gamma, Lognormal, Binomial negativa (Intentos y Fallos), Normal, Poisson
y Uniforme. Consulte el tema para obtener ms informacin. En la distribucin categrica, los nombres
de los parmetros son las categoras y los valores de parmetros son las probabilidades asociadas.
Nota:
v Los casos con valores que faltan para cualquier entrada simulada se excluyen del ajuste de
distribucin, el clculo de correlaciones y el clculo de la tabla de contingencia opcional (para entradas
con una distribucin categrica). De forma opcional, puede especificar si los valores que faltan del
usuario de entradas con una distribucin categrica se tratan como vlidos. De forma predeterminada,
se tratan como valores que faltan. Para obtener ms informacin, consulte el tema Opciones
avanzadas en la pgina 189.
v Para las entradas continuas y ordinales, si no se puede encontrar ningn ajuste aceptable para
cualquiera de las distribuciones probadas, se sugiere la distribucin emprica como el ajuste ms
cercano. En entradas continuas, la distribucin emprica es la funcin de distribucin acumulada de los
datos histricos. En entradas ordinales, la distribucin emprica es la distribucin categrica de los
datos histricos.
Anlisis de sensibilidad: Los anlisis de sensibilidad permiten investigar el efecto de modificar una
entrada fija o un parmetro de distribucin de una entrada simulada en un conjunto especfico de
valores. Se genera un conjunto independiente de casos simulados (una simulacin separada) para cada
valor especificado, lo que le permite investigar el efecto de modificar la entrada. Cada conjunto de casos
simulados se denomina iteracin.
Iterar. Esta opcin permite especificar el conjunto de valores en el que se modificar la entrada.
v Si modifica el valor de un parmetro de distribucin, seleccione el parmetro de la lista desplegable.
Introduzca el conjunto de valores en el valor Parmetro mediante la cuadrcula de iteraciones. Al
pulsar en Continuar se aadirn los valores especificados en la cuadrcula Parmetros de la entrada
asociada, con un ndice que especifica el nmero de iteracin del valor.
v En las distribuciones categricas y de rango, las probabilidades de las categoras o intervalos
respectivamente se pueden variar, pero los valores de las categoras y los puntos finales de los
intervalos no se pueden modificar. Seleccione una categora o intervalo en la lista desplegable y
especifique el conjunto de probabilidades en el valor del parmetro mediante la cuadrcula de
iteracin. Las probabilidades de otras categoras o intervalos se ajustarn automticamente.
Sin iteraciones. Utilice esta opcin para cancelar las iteraciones de una entrada. Si pulsa en Continuar
eliminar las iteraciones.
Recalcular correlaciones al ajustar. Esta opcin especifica que las correlaciones entre las entradas
simuladas se calculen automticamente al ajustar las distribuciones en el conjunto de datos activo
mediante las acciones Ajustar todas o Ajustar en los ajustes de Campos simulados.
No recalcular correlaciones al ajustar. Seleccione esta opcin si desea especificar manualmente las
correlaciones y evitar que se sobrescriban al ajustar automticamente distribuciones en el conjunto de
datos activo. Los valores entrados en la cuadrcula de correlaciones deben estar entre -1 y 1. Un valor de
0 especifica que no existe ninguna correlacin entre el par de entradas asociadas.
Utilizar tabla de contingencia de varios factores ajustada para entradas con una distribucin categrica.
Para entradas con una distribucin categrica, puede calcular automticamente una tabla de contingencia
de varios factores a partir del conjunto de datos activo que describe las asociaciones entre dichas
entradas. La tabla de contingencia se utiliza cuando se generan los datos para dichas entradas. Si opta
por guardar el plan de simulacin, la tabla de contingencia se guarda en el archivo de plan y se utilizan
cuando se ejecuta el plan.
v Calcular tabla de contingencia a partir del conjunto de datos activo. Si trabaja con un plan de
simulacin existente que contiene una tabla de contingencia, puede volver a calcular la tabla de
contingencia a partir del conjunto de datos activo. Esta accin sustituye la tabla de contingencia del
archivo de plan cargado.
v Utilizar tabla de contingencia del plan de simulacin cargado. De forma predeterminada, cuando
carga un plan de simulacin que contiene una tabla de contingencia, se utiliza la tabla del plan. Puede
volver a calcular la tabla de contingencia a partir del conjunto de datos activo seleccionando Calcular
tabla de contingencia a partir del conjunto de datos activo.
Opciones avanzadas
Nmero mximo de casos. Especifica el nmero mximo de casos de datos simulados y los valores de
destinos asociados que se generarn. Si se especifica el anlisis de sensibilidad, es el nmero mximo de
casos de cada iteracin.
Criterios de parada. Estas opciones especifican los criterios para detener la simulacin, potencialmente
antes de generar el nmero mximo de casos permitidos.
v Continuar hasta alcanzar el mximo. Especifica que los casos simulados se generarn hasta que se
alcance el nmero mximo de casos.
v Detener cuando las colas se hayan muestreado. Utilice esta opcin si desea asegurarse de que una de
las colas de una distribucin de destino especificada se ha muestreado correctamente. Los casos
simulados se generarn hasta que se complete el muestreo de la cola especfica o se alcance el nmero
mximo de casos. Si su modelo predictivo contiene mltiples destinos, seleccione el destino al que se
aplicarn los criterios en la lista desplegable Destino de criterios de parada.
Tipo. Puede definir el lmite de la regin de cola especificando un valor de destino como 10.000.000 o
un percentil como el 99. Si selecciona Valor en la lista desplegable Tipo, introduzca el valor del lmite
en el cuadro de texto Valor y utilice la lista desplegable Lado para especificar si es el lmite de la
regin de cola izquierda o la regin de cola derecha. Si selecciona Percentil en la lista desplegable Tipo,
introduzca un valor en el cuadro de texto Percentil.
Replicar resultados. Al establecer una semilla aleatoria podr replicar las simulaciones. Especifique un
entero o pulse en Generar, lo que crear un entero pseudo-aleatorio entre 1 y 2147483647, ambos
inclusive. El valor predeterminado es 629111597.
Nota: Para una semilla aleatoria determinada, los resultados se duplican a menos que cambie el nmero
de hebras. En un sistema determinado, el nmero de hebras es constante a menos que lo cambie
ejecutando la sintaxis de comando SET THREADS. El nmero de hebras puede cambiar si se ejecuta la
simulacin en un sistema diferente porque se utiliza un algoritmo interno para determinar el nmero de
hebras para cada sistema.
Valores perdidos del usuario para entradas con una distribucin categrica. Estos controles especifican
si los valores perdidos del usuario de entradas con una distribucin categrica se tratan como vlidos.
Los valores perdidos del sistema para todos los tipos de entrada se tratan siempre como no vlidos.
Todas las entradas deben tener valores vlidos para que un caso se incluya en el ajuste de distribucin, el
clculo de correlaciones y el clculo de la tabla de contingencia opcional.
Funciones de densidad
Estos ajustes permiten personalizar los resultados de las funciones de densidad de probabilidad y las
funciones de distribucin acumuladas de destinos continuos, as como grficos de barras de los valores
pronosticados de destinos categricos.
Para modelos de clster de dos fases y modelos de clster de K-medias, se genera un grfico de barras
de la pertenencia a clsteres.
Posiciones del deslizador. Puede especificar las posiciones iniciales de las lneas de referencia mviles en
grficos PDF y CDF. Los valores que se especifican para las lneas inferior y superior hacen referencia a
las posiciones a lo largo del eje horizontal, no a percentiles. Puede eliminar la lnea inferior seleccionando
-Infinity o puede eliminar la lnea superior seleccionando Infinity. De forma predeterminada, las lneas
se sitan en los percentiles 5 y 95. Cuando se muestran varias funciones de distribucin en un nico
grfico (debido a varios destinos o resultados de iteraciones del anlisis de sensibilidad), el valor
predeterminado hace referencia a la distribucin de la primera iteracin o del primer destino.
Lneas de referencia (Continuas). Puede solicitar varias lneas de referencia verticales para aadirlas a
funciones de densidad de probabilidad y funciones de distribucin acumulada para destinos continuos.
v Sigmas. Puede aadir lneas de referencia por encima o por debajo de un nmero especificado de
desviaciones estndar desde la media de un objetivo.
v Percentiles. Ahora puede aadir lneas de referencia a uno o dos valores de los percentiles de la
distribucin de un objetivo introduciendo los valores en los cuadros de texto inferior y superior. Por
ejemplo, un valor de 95 en el cuadro de texto superior representa el percentil 95, que es el valor por
debajo del cual cae el 95% de las observaciones. Del mismo modo, un valor de 5 en el cuadro de texto
inferior representa el percentil 5, que es el valor por debajo del cual cae el 5% de las observaciones.
v Lneas de referencia personalizadas. Puede aadir lneas de referencia a los valores especificados del
destino.
Nota: Cuando se muestran varias funciones de distribucin en un nico grfico (debido a varios destinos
o resultados de iteraciones del anlisis de sensibilidad), las lneas de referencia slo se aplican a la
distribucin de la primera iteracin o del primer destino. Puede aadir lneas de referencia a otras
distribuciones desde el dilogo Opciones de grfico, al que se accede desde el grfico PDF o CDF.
Valores de categora que se incluirn en el informe. En modelos PMML con destinos categricos, el
resultado del modelo es un conjunto de probabilidades pronosticadas, una de cada categora, en la que el
valor de destino entra dentro de cada categora. La categora con la mayor probabilidad se toma como la
categora pronosticada y se utiliza en la generacin del grfico de barras que se describe en el ajuste
Funcin de densidad de probabilidad anterior. Si selecciona Categora pronosticada se generar el
grfico de barras. Si selecciona Probabilidades pronosticadas se generarn histogramas de la distribucin
de las probabilidades pronosticadas de cada una de las categoras del destino.
Agrupacin de anlisis de sensibilidad. Las simulaciones que incluyen anlisis de sensibilidad generan
un conjunto independiente de valores de destino pronosticados para cada iteracin que define el anlisis
(una iteracin para cada valor de la entrada que se est variando). Si existen iteraciones, el grfico de
Resultado
Grficos de tornado. Los grficos de tornado son grficos de barra que muestran relaciones entre
destinos y entradas simuladas utilizando una variedad de mtricas.
v Correlacin del destino con la entrada. Esta opcin crea un grfico de tornado de los coeficientes de
correlacin entre un destino especificado y cada una de sus entradas simuladas. Este tipo de grfico de
tornado no admite destinos con un nivel de medicin nominal u ordinal ni entradas simuladas con una
distribucin categrica.
v Contribucin a la varianza. Esta opcin crea un grfico de tornado que muestra la contribucin a la
varianza de un destino de cada una de sus entradas simuladas, lo que permite evaluar el grado en el
que cada entrada contribuye a la incertidumbre general del destino. Este tipo de grfico de tornado no
admite destinos con niveles de medicin nominales u ordinales, o entradas simuladas con cualquiera
de las distribuciones siguientes: categrica, Bernoulli, binomial, Poisson o binomial negativa.
v Sensibilidad del destino para cambiar. Esta opcin crea un grfico de tornado que muestra el efecto
del destino del destino de modulacin de cada entrada simulada ms o menos un nmero especificado
de desviaciones estndar de la distribucin asociada con la entrada. Este tipo de grfico de tornado no
admite destinos con niveles de medicin nominales u ordinales, o entradas simuladas con cualquiera
de las distribuciones siguientes: categrica, Bernoulli, binomial, Poisson o binomial negativa.
Diagramas de caja de distribuciones de destino. Los diagramas de caja estn disponibles para destinos
continuos. Seleccione Superponer resultados de destinos diferentes si su modelo predictivo tiene
mltiples destinos continuos y desea visualizar los diagramas de caja de todos los destinos en un grfico
nico.
Diagramas de dispersin de destinos frente a entradas. Los diagramas de dispersin frente a entradas
simuladas estn disponibles para destinos continuos y categricos e incluyen dispersiones del destino con
entradas continuas y categricas. Las dispersiones que incluyen un destino o una entrada categrica se
muestran como un mapa de calor.
Crear una tabla de valores percentiles. En destinos continuos, puede obtener una tabla de percentiles
especificados de las distribuciones de destino. Los cuartiles (los percentiles 25, 50 y 75) dividen las
observaciones en cuatro grupos de igual tamao. Si desea un nmero igual de grupos que no sea cuatro,
seleccione Intervalos y especifique el nmero. Seleccione Percentiles personalizados para especificar
percentiles individuales, por ejemplo, el percentil 99.
Correlaciones y tabla de contingencia para entradas. Esta opcin muestra una tabla de coeficientes de
correlacin entre entradas simuladas. Cuando se generan entradas con distribuciones categricas a partir
de una tabla de contingencia, tambin se muestra la tabla de contingencia de los datos que se generan
para dichas entradas.
Entradas simuladas que se incluirn en el resultado. De forma predeterminada, todas las entradas
simuladas se incluyen en los resultados. Puede excluir las entradas simuladas de las salidas. Se excluirn
de los grficos de tornado, diagramas de dispersin y resultados tabulares.
Formatos de visualizacin. Puede definir el formato utilizado cuando se visualizan los valores de
destinos y entradas (tanto entradas fijas como simuladas).
Guardar
Guardar el plan de esta simulacin. Puede guardar las especificaciones actuales de su simulacin en un
archivo de plan de simulacin. Los archivos de plan de simulacin tienen la extensin .splan. Puede
volver a abrir el plan en el Generador de simulaciones, y tambin puede realizar modificaciones y
ejecutar la simulacin. Puede compartir el plan de simulacin con otros usuarios, que pueden ejecutarlo
en el cuadro de dilogo Ejecutar simulacin. Los planes de simulacin incluyen todas las especificaciones
excepto las siguientes: ajustes de Funciones de densidad; Ajustes de resultados de grficos y tablas;
Opciones avanzadas de ajustes, Distribucin emprica y Semilla aleatoria.
Guardar los datos simulados como un nuevo archivo de datos. Puede guardar entradas simuladas,
entradas fijas y valores de destino pronosticados en un archivo de datos SPSS Statistics, un nuevo
conjunto de datos en la sesin actual o un archivo Excel. Cada caso (o fila) del archivo de datos consta de
los valores pronosticados de los objetivos junto con las entradas simuladas y las entradas fijas que
generan los valores objetivo. Si se especifica el anlisis de sensibilidad, cada iteracin genera un conjunto
contiguo de casos que se etiquetan con el nmero de iteracin.
Pestaa Simulacin
La pestaa Simulacin permite especificar anlisis de sensibilidad, reajustar distribuciones de
probabilidad de entradas simuladas y correlaciones entre entradas simuladas en nuevos datos y modificar
la distribucin de probabilidad asociada con una entrada simulada.
La cuadrcula Entradas simuladas contiene una entrada para cada campo de entrada que se define en el
plan de simulacin. Cada entrada muestra el nombre y el tipo de distribucin de probabilidad asociada
con la entrada, junto con un grfico de muestra de la curva de distribucin asociada. Cada entrada
tambin tiene un icono de estado asociado (un crculo de color con una marca de verificacin) que es til
si est reajustando distribuciones a nuevos datos. Adems, las entradas pueden incluir un icono de
candado que indica que la entrada est bloqueada y no se puede modificar o reajustar a nuevos datos en
el cuadro de dilogo Ejecutar simulacin. Para modificar una entrada bloqueada, necesitar abrir el plan
de simulacin en el Generador de simulaciones.
Los anlisis de sensibilidad permiten investigar el efecto de los cambios sistemticos en una entrada fija o
en un parmetro de distribucin de una entrada estimulada generando un conjunto independiente de
casos simulados (una simulacin separada) para cada valor especificado. Para especificar los anlisis de
sensibilidad, seleccione una entrada fija o simulada y pulse en Anlisis de sensibilidad. El anlisis de
sensibilidad est limitado a una nica entrada fija o un parmetro de distribucin nico de una entrada
simulada. Consulte el tema Anlisis de sensibilidad en la pgina 188 para obtener ms informacin.
En cada entrada ajustada, la distribucin que mejor se ajusta a los datos se muestra junto con una
representacin de la distribucin superpuesta en un histograma (o grfico de barras) de los datos
histricos. Si no se encuentra un ajuste aceptable, se utilizar la distribucin emprica. En el caso de las
entradas que se ajusten a la distribucin emprica, solo ver un histograma de los datos histricos porque
la distribucin emprica est, de hecho, representada por ese histograma.
Nota: para ver una lista completa de iconos de estado, consulte el tema Campos simulados en la pgina
185.
Puede modificar la distribucin de probabilidad de una entrada simulada y, opcionalmente, cambiar una
entrada simulada a una entrada fija o viceversa.
1. Seleccione la entrada y seleccione Ajustar la distribucin manualmente.
2. Seleccione el tipo de distribucin y especifique los parmetros de distribucin. Para cambiar una
entrada simulada por una entrada fija, seleccione Fija en la lista desplegable Tipo.
Una vez haya introducido los parmetros de una distribucin, el grfico de muestra de la distribucin (se
muestra en la entrada) se actualizar reflejando sus cambios. Para obtener ms informacin sobre la
especificacin manual de distribuciones de probabilidad, consulte el tema Campos simulados en la
pgina 185.
Pestaa Resultado
La pestaa Resultado permite personalizar los resultados que genera la simulacin.
Funciones de densidad. Las funciones de densidad son las medias principales de la prueba del conjunto
de resultados de su simulacin.
v Funcin de densidad de probabilidad La funcin de densidad de probabilidad muestra la
distribucin de los valores de destino, lo que permite determinar la probabilidad de que el destino est
dentro de una regin concreta. En destinos con un conjunto fijo de resultados, como "servicio
deficiente", "servicio correcto", "buen servicio" y "excelente servicio", se genera un grfico de barras que
muestra el porcentaje de casos que entran en cada categora del destino.
v Funcin de distribucin acumulada. La funcin de distribucin acumulada muestra la probabilidad
de que el valor del destino sea menor o igual que un valor especificado.
Grficos de tornado. Los grficos de tornado son grficos de barra que muestran relaciones entre
destinos y entradas simuladas utilizando una variedad de mtricas.
v Correlacin del destino con la entrada. Esta opcin crea un grfico de tornado de los coeficientes de
correlacin entre un destino especificado y cada una de sus entradas simuladas.
v Contribucin a la varianza. Esta opcin crea un grfico de tornado que muestra la contribucin a la
varianza de un destino de cada una de sus entradas simuladas, lo que permite evaluar el grado en el
que cada entrada contribuye a la incertidumbre general del destino.
v Sensibilidad del destino para cambiar. Esta opcin crea un grfico de tornado que muestra el efecto
del destino del destino de modulacin de cada entrada simulada ms o menos una desviacin estndar
de la distribucin asociada con la entrada.
Diagramas de dispersin de destinos frente a entradas. Esta opcin genera diagramas de dispersin de
destinos frente a entradas simuladas.
Diagramas de caja de distribuciones de destino. Esta opcin genera diagramas de caja de las
distribuciones de destino.
Tabla de cuartiles. Esta opcin genera una tabla de cuartiles de las distribuciones de destino. Los
cuartiles de una distribucin son los percentiles 25, 50 y 75 de la distribucin y dividen las observaciones
en cuatro grupos de igual tamao.
Correlaciones y tabla de contingencia para entradas. Esta opcin muestra una tabla de coeficientes de
correlacin entre entradas simuladas. Una tabla de contingencia de asociaciones entre entradas con una
distribucin categrica se muestra cuando el plan de simulacin especifica la generacin de datos
categricos a partir de una tabla de contingencia.
Superponer resultados de destinos diferentes. Si el modelo predictivo que simula contiene mltiples
destinos, puede especificar si los resultados de destinos diferentes se muestran en un nico grfico. Este
ajuste se aplica a los grficos de funciones de densidad de probabilidad, funciones de distribucin
acumuladas y diagramas de caja. Por ejemplo, si selecciona esta opcin, las funciones de densidad de
probabilidad de todos los destinos se mostrarn en un grfico nico.
Guardar el plan de esta simulacin. Puede guardar las modificaciones de su simulacin en un archivo
de plan de simulacin. Los archivos de plan de simulacin tienen la extensin .splan. Puede volver a abrir
Guardar los datos simulados como un nuevo archivo de datos. Puede guardar entradas simuladas,
entradas fijas y valores de destino pronosticados en un archivo de datos SPSS Statistics, un nuevo
conjunto de datos en la sesin actual o un archivo Excel. Cada caso (o fila) del archivo de datos consta de
los valores pronosticados de los objetivos junto con las entradas simuladas y las entradas fijas que
generan los valores objetivo. Si se especifica el anlisis de sensibilidad, cada iteracin genera un conjunto
contiguo de casos que se etiquetan con el nmero de iteracin.
Grficos de funciones de densidad de probabilidad de destinos continuos. Este grfico tiene dos lneas
de referencia verticales deslizantes que dividen el grfico en regiones diferentes. La tabla bajo el grfico
muestra la probabilidad de que el destino est en cada una de las regiones. Si se muestran mltiples
funciones de densidad en el mismo grfico, la tabla tiene una fila separada para las probabilidades
asociadas con cada funcin de densidad. Cada una de las lneas de referencia tiene un deslizador (un
tringulo invertido) que permite mover fcilmente la lnea. Existe un nmero adicional de caractersticas
disponibles pulsando en el botn Opciones de grfico. En concreto, puede definir explcitamente las
posiciones de los deslizadores, aadir lneas de referencia fijas y cambiar la vista del grfico de una curva
continua a un histograma o viceversa. Consulte el tema Opciones de grfico en la pgina 197 para
obtener ms informacin.
Grficos de funciones de distribucin acumulada de destinos continuos. Este grfico tiene las dos
mismas lneas de referencia verticales mviles y la tabla asociada que se describe en el grfico de
funciones de densidad de probabilidad anterior. Tambin proporciona acceso al cuadro de dilogo
Opciones de grfico, que permite definir explcitamente las posiciones de los deslizadores, aadir lneas
de referencia fijas y especificar si la funcin de distribucin acumulada se muestra como una funcin
creciente (la opcin predeterminada) o una funcin decreciente. Consulte el tema Opciones de grfico
en la pgina 197 para obtener ms informacin.
Grficos de barras de destinos categricos con iteraciones del anlisis de sensibilidad. En los destinos
categricos con iteraciones de anlisis de sensibilidad, los resultados de la categora de destino
pronosticada se muestran como un grfico de barras agrupadas que incluye los resultados de todas las
iteraciones. El grfico incluye una lista desplegable que permite agrupar segn la categora o la iteracin.
En modelos de clster de dos fases y modelos de clster de K-medias, puede seleccionar agrupar segn
el nmero o iteracin de clsteres.
Diagramas de caja de mltiples destinos con iteraciones del anlisis de sensibilidad. En modelos
predictivos con mltiples destinos continuos e iteraciones del anlisis de sensibilidad, si selecciona
mostrar diagramas de caja de todos los destinos en un nico grfico, se producir un diagrama de caja
agrupado. El grfico incluye una lista desplegable que permite agrupar segn el destino o la iteracin.
Ver. La lista desplegable Ver solo se aplica al grfico de funciones de densidad de probabilidad. Permite
cambiar la vista del grfico de una curva continua a un histograma. Esta caracterstica no est disponible
si se muestran mltiples funciones de densidad en el mismo grfico. En ese caso, las funciones de
densidad solo se pueden visualizar como curvas continuas.
Ordenar. La lista desplegable Ordenar solo se aplica al grfico de funcin de distribucin acumulada.
Especifica si la funcin de distribucin acumulada se muestra como una funcin ascendente (la opcin
predeterminada) o una funcin descendente. Si se muestra como una funcin descendente, el valor de la
funcin en un punto concreto del eje horizontal es la probabilidad de que el destino se encuentre a la
derecha de ese punto.
Posiciones del deslizador. Puede definir explcitamente las posiciones de las lneas de referencia de los
deslizadores introduciendo valores en los cuadros de texto Superior e Inferior. Puede eliminar la lnea de
la izquierda seleccionando -Infinito, definiendo la posicin al infinito negativo, y puede eliminar la lnea
de la derecha seleccionando Infinito, definiendo la posicin al infinito.
Lneas de referencia. Puede aadir varias lneas de referencia verticales fijas various funciones de
densidad de probabilidad y funciones de distribucin acumuladas. Cuando se muestran varias funciones
en un nico grfico (debido a varios destinos o resultados de iteraciones del anlisis de sensibilidad),
puede especificar las funciones concretas a las que se aplican las lneas.
v Sigmas. Puede aadir lneas de referencia por encima o por debajo de un nmero especificado de
desviaciones estndar desde la media de un objetivo.
v Percentiles. Ahora puede aadir lneas de referencia a uno o dos valores de los percentiles de la
distribucin de un objetivo introduciendo los valores en los cuadros de texto inferior y superior. Por
ejemplo, un valor de 95 en el cuadro de texto superior representa el percentil 95, que es el valor por
debajo del cual cae el 95% de las observaciones. Del mismo modo, un valor de 5 en el cuadro de texto
inferior representa el percentil 5, que es el valor por debajo del cual cae el 5% de las observaciones.
v Posiciones personalizadas. Puede aadir lneas de referencia a los valores especificados en el eje
horizontal.
Lneas de referencia de etiquetas. Esta opcin contrla si las etiquetas se aplican a las lneas de referencia
seleccionadas.
Las lneas de referencia se eliminan anulando la seleccin asociada en el dilogo Opciones de grfico y
pulsando Continuar.
Ejemplos
Seleccin de mapas
El modelado geoespacial puede utilizar uno o ms orgenes de datos de mapas. Los orgenes de datos de
mapas contienen informacin que define reas geogrficas y otras caractersticas geogrficas como, por
ejemplo, carreteras o ros. Muchos orgenes de mapas tambin contienen datos demogrficos u otros
datos descriptivos y datos de evento como, por ejemplo, informes de delitos o tasas de desempleo. Puede
utilizar un archivo de especificacin de mapa definido previamente o definir especificaciones de mapas
aqu y guardar estas especificaciones para su uso posterior.
Cargar una especificacin de mapa
Carga un archivo (.mplan) de especificacin de mapa definido previamente. Los orgenes de
datos de mapa que defina aqu se pueden guardar en un archivo de especificacin de mapa. Para
la prediccin temporal espacial, si selecciona un archivo de especificacin de mapa que identifica
ms de un mapa, se le solicitar que seleccione un mapa del archivo.
Aadir archivo de mapa
Aada un archivo de forma ESRI (.shp) o un archivo .zip que contenga un archivo de forma
ESRI.
v Debe haber un archivo .dbf correspondiente en la misma ubicacin que el archivo .shp, y dicho
archivo debe tener el mismo nombre raz que el archivo .shp.
Seleccin de un mapa
Para la prediccin temporal espacial, si selecciona un archivo de especificacin de mapa que identifica
ms de un mapa, se le solicitar que seleccione un mapa del archivo. La prediccin temporal espacial no
soporta varios mapas.
Relacin geoespacial
Para las reglas de asociacin geoespacial, el dilogo Relacin geoespacial define cmo se relacionan los
eventos con las caractersticas en el mapa.
v Este ajuste se aplica slo a las reglas de asociacin geoespacial.
v Este valor slo afecta a orgenes de datos asociados con mapas especificados como datos de contexto
en el paso de seleccin de orgenes de datos.
Relacin
Cerrar El evento se produce cerca de una rea o punto especificados en el mapa.
Dentro
El evento se produce dentro de un rea especificada en el mapa.
Contiene
El rea de evento contiene un objeto de contexto de mapa.
Intersecta
Las ubicaciones donde las lneas o regiones de los distintos mapas interseccionan entre s.
Cruz Para varios mapas, las ubicaciones donde las lneas (para carreteras, ros, ferrocarriles) de
distintas lneas se cruzan entre s.
Norte de, Sur de, Este de, Oeste de
El evento se produce dentro de un rea que est al norte, sur, este o oeste de un punto
especificado en el mapa.
Definicin de la proyeccin
Si no se puede determinar el sistema de proyeccin a partir de la informacin proporcionada con el
mapa, debe especificar el sistema de proyeccin. La causa ms habitual de esta condicin es que falte un
archivo de proyecto (.prj) asociado con el mapa o exista un archivo de proyeccin que no se pueda
utilizar.
v Una ciudad, regin o pas (Mercator)
v Un pas grande, varios pases o continentes (Winkel Tripel)
v Un rea muy cercana al ecuador (Mercator)
v Un rea cercana a uno de los polos (Stereographic)
La proyeccin de Mercator es una proyeccin comn utilizada en muchos mapas. Esta proyeccin trata el
globo como un cilindro desplegado en una superficie plana. La proyeccin de Mercator distorsiona el
tamao y forma de los objetos grandes. Esta distorsin aumenta a medida que se aleja del ecuador y se
acerca a los polos. Las proyecciones de Winkel Tripel y Stereographic realizan ajustes al hecho de que un
mapa representa una parte de una esfera tridimensional que se visualiza en dos dimensiones.
Orgenes de datos
Un origen de datos puede ser un archivo dBase que se proporciona con el archivo de forma, un archivo
de datos de IBM SPSS Statistics o un conjunto de datos abierto en la sesin actual.
Datos de contexto. Los datos de contexto identifican caractersticas en el mapa. Los datos de contexto
tambin pueden contener campos que se pueden utilizar como entradas para el modelo. Para utilizar un
archivo dBase (.dbf) de contexto asociado con un archivo de forma (.shp) de mapa, el archivo dBase de
contexto debe estar en la misma ubicacin que el archivo de forma y debe tener el mismo nombre raz.
Por ejemplo, si el archivo de forma es geodata.shp, el archivo dBase se debe llamar geodata.dbf
Datos de evento. Los datos de evento contienen informacin sobre eventos que se producen como, por
ejemplo, delitos o accidentes. Esta opcin est disponible solo para reglas de asociacin geoespacial.
Densidad de puntos. El intervalo de tiempo y los datos de coordenada para las estimaciones de la
densidad de kernel. Esta opcin slo est disponible para la prediccin temporal espacial.
Aadir. Abre un dilogo para aadir orgenes de datos. Un origen de datos puede ser un archivo dBase
que se proporciona con el archivo de forma, un archivo de datos de IBM SPSS Statistics o un conjunto de
datos abierto en la sesin actual.
Asociar. Abre un dilogo para especificar los identificadores (coordenadas o claves) utilizadas para
asociar datos con mapas. Cada origen de datos debe contener uno o ms identificadores que asocian los
datos con el mapa. Los archivos dBase que vienen con un archivo de forma normalmente contienen un
campo que se utiliza automticamente como el identificador predeterminado. Para otros orgenes de
datos, debe especificar los campos que se utilizan como identificadores.
Validar clave. Abre un dilogo para validar la coincidencia de claves entre el mapa y el origen de datos.
Puede aadir el mismo origen de datos varias veces si desea utilizar una asociacin espacial diferente con
cada uno.
Validar claves
El dilogo Validar claves proporciona un resumen de coincidencias de registro entre la correlacin y la
fuente de datos, basndose en las claves de identificador seleccionadas. Si hay valores de clave de datos
que no coinciden, puede hacer manualmente que coincidan con los valores de clave de correlacin.
Seleccionar campos
La lista de campos disponibles incluye campos de los orgenes de datos de eventos y campos de los
orgenes de datos de contexto.
v Puede controlar la lista de campos visualizados seleccionando un origen de datos de la lista Orgenes
de datos.
v Debe seleccionar al menos dos campos. Al menos uno debe ser una condicin y una debe ser, al
menos, una prediccin. Existen varias maneras de cumplir este requisito, incluyendo seleccionar dos
campos para la lista Ambas (condicin y prediccin).
v Las reglas de asociacin predicen valores de los campos de prediccin que se basan en valores de los
campos de condicin. Por ejemplo, en la regla "Si x=1 e y=2, entonces z=3", los valores de x e y son
condiciones y el valor de z es la prediccin.
Resultado
Tablas de reglas
Cada tabla de reglas muestra las reglas superiores y los valores para la confianza, el soporte para
regla, la elevacin, el soporte de condicin y la capacidad de despliegue. Cada tabla se clasifica
por los valores del criterio seleccionado. Puede mostrar todas las reglas o el Nmero superior de
reglas, basndose en el criterio seleccionado.
Nube de palabras clasificables
Una lista de las reglas superiores, basndose en los valores del criterio seleccionado. El tamao
del texto indica la importancia relativa de la regla. El objeto de resultados interactivos contiene
las reglas superiores para la confianza, el soporte de regla, la elevacin, el soporte de condicin y
la capacidad de despliegue. El criterio seleccionado determina qu lista de reglas se visualiza de
forma predeterminada. Puede seleccionar un criterio diferente de forma interactiva en el
resultado. Mx. de reglas que se va a mostrar determina el nmero de reglas que se visualizan
en el resultado.
Mapa Grfico de barras interactivo y mapa de las reglas superiores, basndose en el criterio
seleccionado. Cada objeto de resultados interactivos contiene las reglas superiores para la
confianza, el soporte de regla, la elevacin, el soporte de condicin y la capacidad de despliegue.
El criterio seleccionado determina qu lista de reglas se visualiza de forma predeterminada.
Puede seleccionar un criterio diferente de forma interactiva en el resultado. Mx. de reglas que se
va a mostrar determina el nmero de reglas que se visualizan en el resultado.
Tablas de informacin de modelos
Guardar
Guarde el mapa y los datos de contexto como una especificacin de mapa
Guarde las especificaciones del mapa en un archivo externo(.mplan). Puede cargar este archivo de
especificacin de mapa en el asistente para anlisis posteriores. Tambin puede utilizar el archivo
de especificacin de mapa con el comando SPATIAL ASSOCIATION RULES.
Copie cualquier archivo de mapa y datos en la especificacin
Los datos de los archivos de forma de mapa, archivos de datos externos y conjuntos de
datos utilizados en la especificacin de mapa se guardan en el archivo de especificacin
de mapa.
Creacin de reglas
Los parmetros de creacin de reglas definen los criterios para las reglas de asociacin generadas.
Elementos por regla
Nmero de valores de campo que se pueden incluir en las condiciones y predicciones de regla.
EL nmero total de elemento no puede superar el 10. Por ejemplo, en la regla "si x=1 e y=2, z=3",
hay dos elementos de condicin y un elemento de prediccin.
Nmero mximo de predicciones
El nmero mximo de valores de campo que se pueden producir en las predicciones para
una regla.
Nmero mximo de condiciones
El nmero mximo de valores de campo que se pueden producir en las condiciones para
una regla.
Excluir para
Excluye los pares de campos especificados de incluirse en la misma regla.
Criterios de regla
Confianza.
La confianza mnima que debe tener una regla para incluirse en el resultado. La
confianza es el porcentaje de predicciones correctas.
Soporte de regla
El soporte mnimo de regla que debe tener para que se incluya en el resultado. El valor
representa el porcentaje de casos para los cuales la regla es verdadera en los datos
observados. Por ejemplo, si la regla es "si x=1 e y=2, z=3," el soporte de la regla es el
porcentaje real de casos en los datos para los cuales es correcto x=1, y=2 y z=3.
Soporte de condicin
Soporte de condicin mnima que debe tener una regla para que se incluya en el
resultado. EL valor representa el porcentaje de casos para los cuales existe la condicin.
Por ejemplo, si la regla es "si x=1 e y=2, z=3," el soporte de condicin es el porcentaje de
casos en los datos para los cuales x=1 e y=2.
Agrupacin y agregacin
v La agregacin es necesaria cuando hay ms registros en los datos que caractersticas en el mapa. Por
ejemplo, tiene registros de datos para pases individuales pero tiene un mapa de estados.
v Puede especificar el mtodo de medida de resumen de agregado para campos continuos y ordinales.
Los campos nominales se agregan en funcin del valor modal.
Continuo
Para campos continuos (escala), la medida del resumen puede ser media, mediana o suma.
Ordinal
Para campos ordinales, la medida de resumen puede ser mediana, moda, mayor o menor.
Nmero de intervalos
Define el nmero mximo de intervalos para campos continuos (escala). Los campos continuos
siempre se agrupan en rangos de valores. Por ejemplo, menor o igual que 5, mayor que 5 y
menor o igual que 10, o mayor que 10.
Agregar el mapa
Aplique la agregacin a datos y mapas.
Valores personalizados para campos especficos
Puede alterar temporalmente la medida de resumen predeterminada y el nmero de intervalos
para campos especficos.
v Pulse el icono para abrir el dilogo Selector de campos y seleccione un campo para aadir a la
lista.
v En la columna Agregacin, seleccione una medida de resumen.
v Para campos continuos, pulse el botn en la columna Intervalos para especificar un nmero
personalizado de intervalos para el campo en el dilogo Intervalos.
Intervalos de tiempo
Las opciones de este panel se basan en la seleccin de Campos de hora o Periodo cclico en el paso de
seleccin de campos.
Campos de hora
Campos de hora seleccionados. Si selecciona uno o ms campos de hora en el paso para seleccionar
campos, estos campos se visualizan en esta lista.
Intervalo de tiempo. Seleccione el intervalo de tiempo apropiado en la lista. En funcin del intervalo de
tiempo, tambin puede especificar otros valores como, por ejemplo, el intervalo entre observaciones
(incremento) y el valor de inicio. Este intervalo de tiempo se utiliza para todos los campos de hora
seleccionados.
v El procedimiento presupone que todos los casos (registros) representan intervalos espaciados de forma
uniforme.
v Basndose en el intervalo de tiempo seleccionado, el procedimiento puede detectar observaciones que
faltan o varias observaciones en el mismo intervalo de tiempo que se deben agregar de forma conjunta.
Por ejemplo, si el intervalo de tiempo es das y la fecha 2014-10-27 viene seguida por 2014-10-29, hay
una observacin que falta para el 2014-10-28. Si el intervalo de tiempo es mes, varias fechas del mismo
mes se agregan juntas.
v Para algunos intervalos de tiempo, el valor adicional puede definir saltos en los intervalos normales
con un espacio uniforme. Por ejemplo, si el intervalo de tiempo es das, pero solo son vlidos los fines
de semana, puede especificar que hay cinco das en una semana y que la semana empieza el lunes.
v Si el campo de hora seleccionado no es un campo de formato de fecha ni de hora, el intervalo de
tiempo se define automticamente en Periodos y no se puede cambiar.
Campos de ciclo
Si seleccione el Periodo cclico en el paso para seleccionar campos, debe especificar los campos que
definen los periodos cclicos. Un periodo cclico identifica una variacin cclica repetitiva como, por
ejemplo, el nmero de meses de un ao o el nmero de das de una semana.
v Puede especificar hasta tres campos que definen periodos cclicos.
Agregacin
v Si selecciona algn Predictor en el paso para seleccionar campos, puede seleccionar el mtodo de
resumen de agregacin para los predictores.
v La agregacin es necesaria cuando hay ms de un registro en un intervalo de tiempo definido. Por
ejemplo, si el intervalo de tiempo es Mes, varias fechas del mismo mes se agregan juntas.
v Puede especificar el mtodo de medida de resumen de agregacin para los campos continuos y
ordinales. Los campos nominales se agregan en funcin del valor modal.
Continuo
Para campos continuos (escala), la medida del resumen puede ser media, mediana o suma.
Ordinal
Para campos ordinales, la medida de resumen puede ser mediana, moda, mayor o menor.
Valores personalizados para campos especficos
Puede alterar temporalmente la medida de resumen de agregacin predeterminada para
predictores especficos.
v Pulse el icono para abrir el dilogo Selector de campos y seleccione un campo para aadir a la
lista.
v En la columna Agregacin, seleccione una medida de resumen.
Resultado
Mapas
Valores de destino
Mapa de valores para el campo objetivo seleccionado.
Correlacin
Mapa de correlaciones.
Agrupaciones
Mapa que resalta los clsteres de ubicaciones que son similares entre s. Hay mapas de
clsteres disponibles slo para modelos empricos.
Umbral de similitud de ubicacin
La similitud necesaria para crear clsteres. El valor debe ser un nmero mayor
que cero y menor que 1.
Especifique el nmero mximo de clsteres
El nmero mximo de clsteres para visualizar.
Tablas de evaluacin de modelos
Especificaciones de modelos
Resumen de especificaciones utilizadas para ejecutar el anlisis, incluidos campos
objetivo, de entrada y ubicacin.
Resumen de informacin temporal
Identifica los campos de tiempo y los intervalos de tiempo utilizados en el modelo.
Opciones de modelo
Configuracin del modelo
Incluir automticamente una interceptacin
Incluir la interceptacin en el modelo.
Retardo mximo de autorregresin
El retardo mximo de autorregresin. El valor debe ser un entero entre 1 y 5.
Covarianza espacial
Especifica el mtodo de estimacin para la covarianza espacial.
Paramtrico
EL mtodo de estimacin es paramtrico. El mtodo puede ser Gauss, Exponencial o
Potencia exponencial. Para la potencia exponencial, puede especificar el valor Potencia.
No paramtrica
El mtodo de estimacin no es paramtrico.
Guardar
Guarde el mapa y los datos de contexto como una especificacin de mapa
Guarde las especificaciones de mapa en un archivo externo (.mplan). Puede cargar este archivo de
especificacin de mapa en el asistente para un anlisis posterior. Tambin puede utilizar el
archivo de especificacin de mapa con el comando SPATIAL TEMPORAL PREDICTION.
Copie cualquier archivo de mapa y datos en la especificacin
Los datos de archivos de forma de mapa, archivos de datos externos y conjuntos de datos
utilizados en la especificacin del mapa se guardan en el archivo de especificacin de
mapa.
Puntuacin
Guarda valores pronosticados, varianza y los lmites de confianza superior e inferior para el
campo objetivo en el archivo de datos seleccionado.
v Puede guardar valores pronosticados en un conjunto de datos abierto en la sesin actual o en
archivo de datos de formato de IBM SPSS Statistics.
v El archivo de datos no puede ser un origen de datos utilizado en el modelo.
Avanzado
Nmero mximo de casos con valores perdidos (%)
El porcentaje mximo de casos con valores perdidos.
Nivel de significacin
El nivel de significacin para determinar si un modelo paramtrico basado en variograma es
apropiado. El valor debe ser mayor que 0 y menor que 1. El valor predeterminado es 0,05. El
nivel de significacin se utiliza en la prueba de bondad de ajuste para la estructura de covarianza
espacial. La estadstica de bondad de ajuste se utiliza para determinar un modelo paramtrico o
no paramtrico.
Factor de incertidumbre (%)
El factor de incertidumbre es un valor de porcentaje que representa el crecimiento de la
incertidumbre al realizar predicciones de futuro. Los lmites superior e inferior de la
incertidumbre de prediccin aumentan en el porcentaje especificado para cada paso en el futuro.
Finalizar
En el ltimo paso del asistente de modelado geoespacial, puede ejecutar el modelo o pegar la sintaxis del
comando generada en una ventana de sintaxis. Puede modificar y guardar la sintaxis generada para su
uso posterior.
Es posible que IBM no ofrezca los productos, servicios o caractersticas que se tratan en este documento
en otros pases. El representante local de IBM le puede informar sobre los productos y servicios que estn
actualmente disponibles en su localidad. Cualquier referencia a un producto, programa o servicio de IBM
no pretende afirmar ni implicar que solamente se pueda utilizar ese producto, programa o servicio de
IBM. En su lugar, se puede utilizar cualquier producto, programa o servicio funcionalmente equivalente
que no infrinja los derechos de propiedad intelectual de IBM. Sin embargo, es responsabilidad del usuario
evaluar y comprobar el funcionamiento de todo producto, programa o servicio que no sea de IBM.
IBM puede tener patentes o solicitudes de patente en tramitacin que cubran la materia descrita en este
documento. Este documento no le otorga ninguna licencia para estas patentes. Puede enviar preguntas
acerca de las licencias, por escrito, a:
Para consultas sobre licencias relacionadas con informacin de doble byte (DBCS), pngase en contacto
con el departamento de propiedad intelectual de IBM de su pas o enve sus consultas, por escrito, a:
Esta informacin puede incluir imprecisiones tcnicas o errores tipogrficos. Peridicamente, se efectan
cambios en la informacin aqu y estos cambios se incorporarn en nuevas ediciones de la publicacin.
IBM puede realizar en cualquier momento mejoras o cambios en los productos o programas descritos en
esta publicacin sin previo aviso.
Las referencias hechas en esta publicacin a sitios web que no son de IBM se proporcionan slo para la
comodidad del usuario y no constituyen de modo alguno un aval de esos sitios web. La informacin de
esos sitios web no forma parte de la informacin de este producto de IBM y la utilizacin de esos sitios
web se realiza bajo la responsabilidad del usuario.
IBM puede utilizar o distribuir la informacin que se le proporcione del modo que considere adecuado
sin incurrir por ello en ninguna obligacin con el remitente.
211
Los titulares de licencias de este programa que deseen tener informacin sobre el mismo con el fin de
permitir: (i) el intercambio de informacin entre programas creados independientemente y otros
programas (incluido este) y (ii) el uso mutuo de la informacin que se ha intercambiado, debern ponerse
en contacto con:
Esta informacin estar disponible, bajo las condiciones adecuadas, incluyendo en algunos casos el pago
de una cuota.
El programa bajo licencia que se describe en este documento y todo el material bajo licencia disponible
los proporciona IBM bajo los trminos de las Condiciones Generales de IBM, Acuerdo Internacional de
Programas Bajo Licencia de IBM o cualquier acuerdo equivalente entre las partes.
Los ejemplos de datos de rendimiento y de clientes citados se presentan solamente a efectos ilustrativos.
Los resultados reales de rendimiento pueden variar en funcin de las configuraciones especficas y
condiciones de operacin.
La informacin relacionada con productos no IBM se ha obtenido de los proveedores de esos productos,
de sus anuncios publicados o de otras fuentes disponibles pblicamente. IBM no ha probado esos
productos y no puede confirmar la exactitud del rendimiento, la compatibilidad ni ninguna otra
afirmacin relacionada con productos no IBM. Las preguntas sobre las posibilidades de productos que no
son de IBM deben dirigirse a los proveedores de esos productos.
Las declaraciones sobre el futuro rumbo o intencin de IBM estn sujetas a cambio o retirada sin previo
aviso y representan nicamente metas y objetivos.
Esta informacin contiene ejemplos de datos e informes utilizados en operaciones comerciales diarias.
Para ilustrarlos lo mximo posible, los ejemplos incluyen los nombres de las personas, empresas, marcas
y productos. Todos estos nombres son ficticios y cualquier parecido con personas o empresas comerciales
reales es pura coincidencia.
Esta informacin contiene programas de aplicacin de muestra escritos en lenguaje fuente, los cuales
muestran tcnicas de programacin en diversas plataformas operativas. Puede copiar, modificar y
distribuir estos programas de muestra de cualquier modo sin realizar ningn pago a IBM, con el fin de
desarrollar, utilizar, comercializar o distribuir programas de aplicacin que se ajusten a la interfaz de
programacin de aplicaciones para la plataforma operativa para la que se han escrito los programas de
muestra. Estos ejemplos no se han probado exhaustivamente en todas las condiciones. Por lo tanto, IBM
no puede garantizar ni dar por supuesta la fiabilidad, la capacidad de servicio ni la funcionalidad de
estos programas. Los programas de muestra se proporcionan "TAL CUAL" sin garanta de ningn tipo.
IBM no ser responsable de ningn dao derivado del uso de los programas de muestra.
Cada copia o fragmento de estos programas de ejemplo o de cualquier trabajo derivado de ellos, debe
incluir el siguiente aviso de copyright:
(nombre de la compaa) (ao). Algunas partes de este cdigo procede de los programas de ejemplo de
IBM Corp.
Adobe, el logotipo Adobe, PostScript y el logotipo PostScript son marcas registradas o marcas comerciales
de Adobe Systems Incorporated en Estados Unidos y/o otros pases.
Intel, el logotipo de Intel, Intel Inside, el logotipo de Intel Inside, Intel Centrino, el logotipo de Intel
Centrino, Celeron, Intel Xeon, Intel SpeedStep, Itanium y Pentium son marcas comerciales o marcas
registradas de Intel Corporation o sus filiales en Estados Unidos y otros pases.
Linux es una marca registrada de Linus Torvalds en Estados Unidos, otros pases o ambos.
Microsoft, Windows, Windows NT, y el logotipo de Windows son marcas comerciales de Microsoft
Corporation en Estados Unidos, otros pases o ambos.
UNIX es una marca registrada de The Open Group en Estados Unidos y otros pases.
Java y todas las marcas comerciales y los logotipos basados en Java son marcas comerciales o registradas
de Oracle y/o sus afiliados.
Avisos 213
214 IBM SPSS Statistics Base 24
ndice
A Anlisis de fiabilidad (continuacin)
Caractersticas adicionales del
Anlisis factorial (continuacin)
conceptos bsicos 103
agrupacin en clster comando 169 convergencia 104, 105
seleccin de procedimientos 109 coeficiente de correlacin descriptivos 104
ajuste de distribucin intraclase 168 ejemplo 103
en simulacin 185 correlaciones y covarianzas entre estadsticos 103, 104
ajuste de distribucin automtico elementos 168 formato de presentacin de los
en simulacin 185 descriptivos 168 coeficientes 106
alfa de Cronbach ejemplo 167 grficos de cargas 105
en Anlisis de fiabilidad 167, 168 estadsticos 167, 168 mtodos de extraccin 104
anlisis alfa 104 Kuder-Richardson 20 168 mtodos de rotacin 105
anlisis de clsteres Prueba de aditividad de Tukey 168 puntuaciones factoriales 106
Anlisis de clsteres de T 2 de Hotelling 168 seleccin de casos 104
K-medias 125 tabla de ANOVA 168 valores perdidos 106
Anlisis de clsteres jerrquico 121 anlisis de la varianza anlisis hipottico
eficacia 126 en ANOVA de un factor 39 en simulacin 188
Anlisis de clsteres de K-medias en Estimacin curvilnea 79 anlisis imagen 104
almacenamiento de informacin de en Medias 25 Anlisis vecino ms cercano 87
clsteres 126 en Regresin lineal 73 almacenamiento de variables 91
Caractersticas adicionales del anlisis de respuestas mltiples opciones 92
comando 127 Frecuencias de respuestas particiones 90
clster de pertenencia 126 mltiples 156 salida 92
conceptos bsicos 125 Tablas cruzadas de respuestas seleccin de caractersticas 90
criterios de convergencia 126 mltiples 157 vecinos 89
distancias entre clsteres 126 tablas de frecuencias 156 vista de modelo 92
eficacia 126 tabulacin cruzada 157 ANOVA
ejemplos 125 anlisis de sensibilidad en ANOVA de un factor 39
estadsticos 125, 127 en simulacin 188 en Medias 25
iteraciones 126 anlisis de series temporales en MLG Univariante 43
mtodos 125 prediccin 80 en modelos lineales 66
valores perdidos 127 prediccin de casos 80 modelo 44
Anlisis de clsteres en dos fases 111 Anlisis discriminante 97 ANOVA de un factor 39
almacenamiento en el archivo de almacenamiento de variables de Caractersticas adicionales del
trabajo 113 clasificacin 100 comando 42
almacenamiento en un archivo Caractersticas adicionales del comparaciones mltiples 40
externo 113 comando 101 contrastes 39
estadsticos 113 coeficientes de la funcin 98 contrastes polinmicos 39
opciones 112 criterios 99 contrastes post hoc 40
Anlisis de clsteres jerrquico 121 definicin de rangos 98 estadsticos 41
almacenamiento de nuevas Distancia de Mahalanobis 99 opciones 41
variables 122 ejemplo 97 valores perdidos 41
Caractersticas adicionales del estadsticos 97, 98 variables del factor 39
comando 123 estadsticos descriptivos 98 asignacin de memoria
casos de clster 121 exportacin de informacin del en Anlisis de clsteres en dos
clster de pertenencia 122 modelo 100 fases 112
dendrogramas 122 grficos 100 asimetra
diagramas de tmpanos 122 Lambda de Wilks 99 en Cubos OLAP 29
ejemplo 121 matrices 98 en Descriptivos 9
estadsticos 121, 122 matriz de covarianzas 100 en el Informe de estadsticos en
historial de conglomeracin 122 mtodos de inclusin por pasos 97 columnas 165
matrices de distancias 122 mtodos discriminantes 99 en el Informe de estadsticos en
medidas de distancia 122 opciones de representacin 99, 100 filas 162
medidas de similaridad 122 probabilidades previas 100 en Explorar 12
mtodos de agrupacin en seleccin de casos 98 en Frecuencias 5
clsteres 122 V de Rao 99 en Medias 25
orientacin de los grficos 122 valores perdidos 100 en Resumir 22
transformacin de medidas 122 variables de agrupacin 97 asociacin lineal por lineal
transformacin de valores 122 variables independientes 97 en Tablas cruzadas 16
variables de clster 121 Anlisis factorial 103 autovalores
anlisis de componentes principales 103, Caractersticas adicionales del en Anlisis factorial 104
104 comando 106 en Regresin lineal 73
Anlisis de fiabilidad 167
215
B coeficiente de dispersin (CDD)
en Estadsticos de la razn 175
Correlaciones bivariadas (continuacin)
estadsticos 56
bagging coeficiente de incertidumbre nivel de significacin 55
en modelos lineales 61 en Tablas cruzadas 16 opciones 56
bondad de ajuste coeficiente de variacin (CDV) valores perdidos 56
en regresin ordinal 76 en Estadsticos de la razn 175 correlaciones de orden cero
Bonferroni coeficientes beta en Correlaciones parciales 57
en ANOVA de un factor 40 en Regresin lineal 73 Correlaciones parciales 57
en MLG 48 coeficientes de regresin Caractersticas adicionales del
boosting en Regresin lineal 73 comando 58
en modelos lineales 61 columna total correlaciones de orden cero 57
en informes 165 en Regresin lineal 73
comparacin de grupos estadsticos 57
C en Cubos OLAP 31 opciones 57
C de Dunnett comparacin de variables valores perdidos 57
en ANOVA de un factor 40 en Cubos OLAP 31 Criterio de informacin de Akaike
en MLG 48 comparaciones mltiples en modelos lineales 63
capas en ANOVA de un factor 40 criterio de prevencin sobreajustado
en Tablas cruzadas 16 comparaciones mltiples post hoc 40 en modelos lineales 63
categora de referencia comparaciones por parejas criterios de informacin
en MLG 46 pruebas no paramtricas 142 en modelos lineales 63
CCI. Consulte el coeficiente de conjuntos cuartiles
correlacin intraclase 168 en modelos lineales 64 en Frecuencias 5
chi-cuadrado 143 conjuntos de respuestas mltiples Cubos OLAP 29
asociacin lineal por lineal 16 Libro de cdigos 1 estadsticos 29
correccin por continuidad de contrastes ttulos 32
Yates 16 en ANOVA de un factor 39 curtosis
en Tablas cruzadas 16 en MLG 46 en Cubos OLAP 29
estadsticos 144 contrastes de desviacin en Descriptivos 9
opciones 144 en MLG 46 en el Informe de estadsticos en
para la independencia 16 contrastes de diferencia columnas 165
Pearson 16 en MLG 46 en el Informe de estadsticos en
prueba exacta de Fisher 16 Contrastes de Helmert filas 162
prueba para una muestra 143 en MLG 46 en Explorar 12
rango esperado 144 contrastes de linealidad en Frecuencias 5
razn de verosimilitud 16 en Medias 25 en Medias 25
valores esperados 144 contrastes polinmicos en Resumir 22
valores perdidos 144 en ANOVA de un factor 39 Curva COR 177
chi-cuadrado de la razn de verosimilitud en MLG 46 estadsticos y grficos 177
en regresin ordinal 76 contrastes repetidos
en Tablas cruzadas 16 en MLG 46
chi-cuadrado de Pearson contrastes simples
en MLG 46
D
en regresin ordinal 76 d
en Tablas cruzadas 16 control de pgina
en Tablas cruzadas 16
clasificacin en el informe de estadsticos en
d de Somers
en Curva COR... 177 columnas 165
en Tablas cruzadas 16
clsteres 114 en informes de estadsticos en
Definir conjuntos de respuestas
presentacin de clsteres 114 filas 163
mltiples 155
presentacin global 114 convergencia
categoras 155
coeficiente alfa en Anlisis de clsteres de
dicotomas 155
en Anlisis de fiabilidad 167, 168 K-medias 126
etiquetas del conjunto 155
Coeficiente de concordancia de Kendall en Anlisis factorial 104, 105
nombres del conjunto 155
(W) correccin por continuidad de Yates
dendrogramas
Pruebas no paramtricas de muestras en Tablas cruzadas 16
en Anlisis de clsteres
relacionadas 136 Correlacin de Pearson
jerrquico 122
coeficiente de contingencia en Correlaciones bivariadas 55
descomposicin jerrquica 45
en Tablas cruzadas 16 en Tablas cruzadas 16
Descriptivos 9
coeficiente de correlacin de los rangos correlaciones
almacenamiento de puntuaciones
en Correlaciones bivariadas 55 de orden cero 57
Z 9
coeficiente de correlacin de Spearman en Correlaciones bivariadas 55
Caractersticas adicionales del
en Correlaciones bivariadas 55 en Correlaciones parciales 57
comando 10
en Tablas cruzadas 16 en simulacin 189
estadsticos 9
coeficiente de correlacin intraclase (CCI) en Tablas cruzadas 16
orden de visualizacin 9
en Anlisis de fiabilidad 168 Correlaciones bivariadas
desviacin absoluta promedio (DAP)
coeficiente de correlacin r Caractersticas adicionales del
en Estadsticos de la razn 175
en Correlaciones bivariadas 55 comando 56
desviacin estndar
en Tablas cruzadas 16 coeficientes de correlacin 55
en Cubos OLAP 29
ndice 217
estrs generacin de trminos 45, 77, 78 informe de estadsticos en columnas 164
en Escalamiento Generador de simulaciones 182 Informe de estadsticos en columnas 164
multidimensional 171 grfico de espacio de caractersticas Caractersticas adicionales del
estudio de control de casos en Anlisis de vecinos ms comando 166
Prueba T para muestras prximos 93 columnas totales 165
relacionadas 34 grficos control de pgina 165
estudio de pares relacionados en Curva COR... 177 diseo de pgina 163
en Prueba T para muestras etiquetas de caso 79 formato de columnas 162
relacionadas 34 grficos circulares numeracin de pginas 166
eta en Frecuencias 7 subtotales 165
en Medias 25 grficos de barras total final 166
en Tablas cruzadas 16 en Frecuencias 7 valores perdidos 166
eta-cuadrado grficos de cargas Informe de estadsticos en filas 161
en Medias 25 en Anlisis factorial 105 Caractersticas adicionales del
en MLG Univariante 47, 50, 52 grficos de los residuos comando 166
Explorar 11 en MLG Univariante 47, 50, 52 columnas de datos 161
Caractersticas adicionales del grficos de perfil control de pgina 162
comando 13 en MLG 47 diseo de pgina 163
estadsticos 12 grficos de probabilidad normal espaciado de salto 162
grficos 12 en Explorar 12 formato de columnas 162
opciones 13 en Regresin lineal 71 numeracin de pginas 163
transformaciones de potencia 13 grficos de tallo y hojas ordenacin de secuencias 161
valores perdidos 13 en Explorar 12 pies 163
grficos de tornado salto de columna 161
en simulacin 192 ttulos 163
F grficos normales sin tendencia
en Explorar 12
valores perdidos 163
variables en los ttulos 163
F mltiple de Ryan-Einot-Gabriel-Welsch
grficos parciales informes
en ANOVA de un factor 40
en Regresin lineal 71 columnas totales 165
en MLG 48
GT2 de Hochberg comparacin de columnas 165
factor de inflacin de la varianza
en ANOVA de un factor 40 divisin de valores de las
en Regresin lineal 73
en MLG 48 columnas 165
factorizacin de ejes principales 104
informe de estadsticos en
fiabilidad de dos mitades
columnas 164
en Anlisis de fiabilidad 167, 168
fiabilidad de Spearman-Brown H informes de estadsticos en filas 161
multiplicacin de valores de las
en Anlisis de fiabilidad 168 H de Kruskal-Wallis
columnas 165
formato en Pruebas para dos muestras
totales compuestos 165
columnas en informes 162 independientes 151
Intervalos de Clopper-Pearson
Frecuencias 5 histogramas
Pruebas no paramtricas para una
estadsticos 5 en Explorar 12
muestra 130
formatos 7 en Frecuencias 7
intervalos de confianza
grficos 7 en Regresin lineal 71
almacenamiento en Regresin
orden de visualizacin 7 historial de iteraciones
lineal 71
supresin de tablas 7 en regresin ordinal 76
en ANOVA de un factor 41
frecuencias acumuladas homlogos
en Curva COR... 177
en regresin ordinal 76 en Anlisis de vecinos ms
en Explorar 12
frecuencias de los clsteres prximos 94
en MLG 46, 47, 50, 52
en Anlisis de clsteres en dos
en Prueba T para muestras
fases 113
relacionadas 35
Frecuencias de respuestas mltiples 156
valores perdidos 156
I en Prueba t para una muestra 36
importancia de variable en Pruebas t para muestras
frecuencias esperadas
en Anlisis de vecinos ms independientes 34
en regresin ordinal 76
prximos 94 en Regresin lineal 73
frecuencias observadas
importancia del predictor Intervalos de Jeffreys
en regresin ordinal 76
modelos lineales 65 Pruebas no paramtricas para una
funciones de densidad de probabilidad
ndice de concentracin muestra 130
en simulacin 190
en Estadsticos de la razn 175 intervalos de prediccin
funciones de distribucin acumulada
informacin de campos categricos almacenamiento en Estimacin
en simulacin 190
pruebas no paramtricas 142 curvilnea 80
informacin de campos continuos almacenamiento en Regresin
pruebas no paramtricas 142 lineal 71
G informacin de diagnstico de intervalos de razn de verosimilitud
gamma colinealidad Pruebas no paramtricas para una
en Tablas cruzadas 16 en Regresin lineal 73 muestra 130
gamma de Goodman y Kruskal informacin de diagnstico por caso
en Tablas cruzadas 16 en Regresin lineal 73
ndice 219
modelo lineal percentiles prueba de Kolmogorov-Smirnov
en Estimacin curvilnea 80 en Explorar 12 Pruebas no paramtricas para una
modelo logartmico en Frecuencias 5 muestra 130, 131
en Estimacin curvilnea 80 en simulacin 192 prueba de la mediana
modelo logstico phi en Pruebas para dos muestras
en Estimacin curvilnea 80 en Tablas cruzadas 16 independientes 151
modelo paralelo PLUM prueba de Levene
en Anlisis de fiabilidad 167, 168 en regresin ordinal 75 en ANOVA de un factor 41
modelos factoriales completos porcentajes en Explorar 12
en MLG 44 en Tablas cruzadas 18 en MLG Univariante 47, 50, 52
modelos lineales 61 porcentajes de fila prueba de Lilliefors
coeficientes 66 en Tablas cruzadas 18 en Explorar 12
conjuntos 64 porcentajes de la columna prueba de lneas paralelas
criterio de informacin 64 en Tablas cruzadas 18 en regresin ordinal 76
estadstico R cuadrado 64 porcentajes totales prueba de los signos
importancia del predictor 65 en Tablas cruzadas 18 en Pruebas para dos muestras
medias estimadas 67 prediccin relacionadas 149
nivel de confianza 62 en Estimacin curvilnea 80 Pruebas no paramtricas de muestras
objetivos 61 preparacin automtica de datos relacionadas 136
opciones de Modelo 64 en modelos lineales 65 prueba de McNemar
predicho por observado 65 primera en Pruebas para dos muestras
preparacin automtica de datos 62, en Cubos OLAP 29 relacionadas 149
65 en Medias 25 en Tablas cruzadas 16
reglas de combinacin 64 en Resumir 22 Pruebas no paramtricas de muestras
rplica de resultados 64 profundidad del rbol relacionadas 136, 137
residuos 65 en Anlisis de clsteres en dos prueba de muestras independientes
resumen de generacin de fases 112 pruebas no paramtricas 141
modelos 67 Proximidades prueba de rachas
resumen de modelo 64 en Anlisis de clsteres Pruebas no paramtricas para una
seleccin de modelos 63 jerrquico 121 muestra 130, 131
tabla de ANOVA 66 prueba binomial Prueba de rachas
valores atpicos 66 Pruebas no paramtricas para una Caractersticas adicionales del
modelos personalizados muestra 130 comando 147
en MLG 44 Prueba binomial 145 estadsticos 146
muestra de entrenamiento Caractersticas adicionales del opciones 146
en Anlisis de vecinos ms comando 145 puntos de corte 146
prximos 90 dicotomas 145 valores perdidos 146
muestra reservada estadsticos 145 prueba de rangos mltiples de Duncan
en Anlisis de vecinos ms opciones 145 en ANOVA de un factor 40
prximos 90 valores perdidos 145 en MLG 48
muestras relacionadas 149, 152 Prueba de aditividad de Tukey prueba de reacciones extremas de Moses
multiplicacin en Anlisis de fiabilidad 167, 168 en Pruebas para dos muestras
multiplicacin entre columnas del prueba de chi-cuadrado independientes 148
informe 165 Pruebas no paramtricas para una prueba de Scheff
muestra 130, 131 en ANOVA de un factor 40
Prueba de comparacin por parejas de en MLG 48
N Gabriel
en ANOVA de un factor 40
prueba de Shapiro-Wilk
en Explorar 12
Newman-Keuls
en MLG 48 prueba de Wilcoxon de los rangos con
en MLG 48
Prueba de comparacin por parejas de signo
numeracin de pginas
Games y Howell en Pruebas para dos muestras
en el informe de estadsticos en
en ANOVA de un factor 40 relacionadas 149
columnas 166
en MLG 48 Pruebas no paramtricas de muestras
en informes de estadsticos en
prueba de esfericidad de Bartlett relacionadas 136
filas 163
en Anlisis factorial 104 Pruebas no paramtricas para una
nmero de casos
prueba de Friedman muestra 130
en Cubos OLAP 29
en pruebas para varias muestras prueba exacta de Fisher
en Medias 25
relacionadas 152 en Tablas cruzadas 16
en Resumir 22
Pruebas no paramtricas de muestras Prueba Kolmogorov-Smirnov de una
nmero mximo de ramas
relacionadas 136 muestra 147
en Anlisis de clsteres en dos
prueba de homogeneidad marginal Caractersticas adicionales del
fases 112
en Pruebas para dos muestras comando 148
relacionadas 149 distribucin de prueba 147
Pruebas no paramtricas de muestras estadsticos 147
P relacionadas 136 opciones 147
pasos sucesivos hacia adelante valores perdidos 147
en modelos lineales 63
ndice 221
Regresin lineal (continuacin) rotacin varimax subconjuntos homogneos
grficos 71 en Anlisis factorial 105 pruebas no paramtricas 142
mtodos de seleccin de subtotales
variables 70, 74 en el informe de estadsticos en
ponderaciones 69
residuos 71
S suma
columnas 165
S-stress
valores perdidos 74 en Cubos OLAP 29
en Escalamiento
variable de seleccin 71 en Descriptivos 9
multidimensional 171
regresin mltiple en Frecuencias 5
scale
en Regresin lineal 69 en Medias 25
en Anlisis de fiabilidad 167
Regresin ordinal 75 en Resumir 22
seleccin de caractersticas
Caractersticas adicionales del suma de cuadrados 45
en Anlisis de vecinos ms
comando 78 en MLG 44
prximos 95
enlace 76
seleccin de caractersticas y k
estadsticos 75
en Anlisis de vecinos ms
modelo de escala 78
modelo de ubicacin 77
prximos 95 T
seleccin de k T 2 de Hotelling
opciones 76
en Anlisis de vecinos ms en Anlisis de fiabilidad 167, 168
Regresin por mnimos cuadrados
prximos 95 T2 de Tamhane
parciales 83
seleccin hacia delante en ANOVA de un factor 40
exportar variables 85
en Anlisis de vecinos ms en MLG 48
modelo 85
prximos 90 T3 de Dunnett
residuos
en Regresin lineal 70 en ANOVA de un factor 40
almacenamiento en Estimacin
seleccin por pasos en MLG 48
curvilnea 80
en Regresin lineal 70 tabla de clasificacin
almacenamiento en Regresin
simulacin 179 en Anlisis de vecinos ms
lineal 71
ajuste de distribucin 185 prximos 95
en Tablas cruzadas 18
anlisis de sensibilidad 188 Tablas cruzadas 15
residuos de Pearson
anlisis hipottico 188 capas 16
en regresin ordinal 76
correlaciones entre entradas 189 estadsticos 16
residuos eliminados
creacin de nuevas entradas 184 formatos 19
en MLG 51
creacin de un plan de grficos de barras agrupadas 16
en Regresin lineal 71
simulacin 179, 180, 181 presentacin de casillas 18
residuos estudentizados
criterios de parada 189 supresin de tablas 15
en Regresin lineal 71
diagramas de caja 192 variables de control 16
residuos no tipificados
diagramas de dispersin 192 Tablas cruzadas de respuestas
en MLG 51
editor de ecuaciones 183 mltiples 157
residuos tipificados
ejecucin de un plan de definicin de rangos de valores 158
en MLG 51
simulacin 181, 193 emparejamiento de las variables entre
en Regresin lineal 71
especificacin de modelo 182 los conjuntos de respuestas 158
respuestas mltiples
formatos de visualizacin de destinos porcentajes basados en casos 158
Caractersticas adicionales del
y entradas 192 porcentajes basados en
comando 159
funcin de densidad de respuestas 158
resumen de error
probabilidad 190 porcentajes de casillas 158
en Anlisis de vecinos ms
funcin de distribucin valores perdidos 158
prximos 95
acumulada 190 tablas de contingencia 15
resumen de hiptesis
Generador de simulaciones 182 tablas de frecuencias
pruebas no paramtricas 138
grficos de tornado 192 en Explorar 12
resumen de intervalo de confianza
grficos interactivos 196 en Frecuencias 5
pruebas no paramtricas 138, 139,
guardar datos simulados 193 tabulacin cruzada
140
guardar plan de simulacin 193 en Tablas cruzadas 15
Resumir 21
modelos admitidos 182 respuesta mltiple 157
estadsticos 22
muestreos de cola 189 tau-b
opciones 21
opciones del diagrama 197 en Tablas cruzadas 16
rho
percentiles de distribuciones de Tau-b de Kendall
en Correlaciones bivariadas 55
destino 192 en Correlaciones bivariadas 55
en Tablas cruzadas 16
personalizacin del ajuste de en Tablas cruzadas 16
riesgo
distribucin 187 tau-c
en Tablas cruzadas 16
reajuste de distribuciones a nuevos en Tablas cruzadas 16
riesgo relativo
datos 193 Tau-c de Kendall 16
en Tablas cruzadas 16
resultados de ajuste de en Tablas cruzadas 16
rotacin equamax
distribucin 187 tau de Goodman y Kruskal
en Anlisis factorial 105
salida 190, 192 en Tablas cruzadas 16
rotacin oblimin directa
Simulacin de Monte Carlo 179 tau de Kruskal
en Anlisis factorial 105
Student-Newman-Keuls en Tablas cruzadas 16
rotacin quartimax
en ANOVA de un factor 40 trminos de interaccin 45, 77, 78
en Anlisis factorial 105
en MLG 48
ndice 223
224 IBM SPSS Statistics Base 24
IBM
Impreso en Espaa