Estatistica Descritiva
Estatistica Descritiva
Estatistica Descritiva
DESCRITIVA:
UNIVARIADA E BIVARIADA
ÍNDICE DE TABELAS
Tabela 1: Alguns procedimentos de análise descritiva univariada 7
Tabela 2: Distribuição do tempo de leitura do semanário preferido, em minutos 13
Tabela 3: Relação entre o semanário preferido e o sexo 36
Tabela 4: Distribuição do semanário preferido por sexo 38
Tabela 5: Distribuição do tempo de leitura do semanário por semanário preferido 38
Assim, a Estatística tem como objetivo recolher, analisar e interpretar dados. Os dados
correspondem a um conjunto de informações sobre uma ou mais variáveis para um conjunto de
elementos. A Estatística pode analisar uma variável apenas, mas nunca analisa só um indivíduo
(ou elemento).
Corresponde ao conjunto de métodos que pretende descrever e caracterizar uma situação na qual
se conhecem todos os elementos.
Para uma análise univariada, pretende-se estudar o comportamento de uma variável a partir do
resumo dos dados em gráficos, medidas descritivas e/ou tabelas de frequência.
1. Identificação do problema
O problema a estudar tem de ser definido de forma muito concreta. Esta definição dve ser feita de
forma a evitar ambiguidades e vai condicionar todas as etapas seguintes.
2. Recolha de dados
O tratamento incial dos dados antes de se proceder a qualquer cálculo deve ser verificado de forma
a detectar problemas/erros.
Exemplos: dados em falta (não respostas/missings), valores impossíveis (ex: idade de 115 anos),
outliers (valores muito invulgares).
Os resultados apresentados nas tabelas e figuras têm de ser explicados ao leitor e interpretados
en função das questões que levaram à recolha dos dados.
Elemento (ou unidade de análise): constitui a base de toda a estatística. É a cada um deles que
se refere a informação inicial (valores da variável) e ao seu conjunto que se referem os indicadores,
figuras (médias, %, etc). Os elementos não têm de ser necessariamente pessoas; podem ser
documentos, empresas, países, etc..
População (ou universo): corresponde ao conjunto de todos os elementos que têm pelo menos
uma característica comum. Por exemplo, todos os alunos do ISCTE, todos os portugueses, todas
as cidades europeias, etc.
Variável: é o conceito básico da estatística que se pretende estudar. Cada variável tem um conjunto
de valores/categorias. Estes são os atributos ou características de cada um dos elementos da
população (exemplo: cor de olhos, idade, lóngua, rendimento, etc.).
A variável corresponde à “pergunta” enquanto as categorias ou os valores são as “respostas”.
Exemplos:
se a pergunta for a idade (a variável), as respostas (categorias1 ou valores) são 25, 35, 45,
etc.
Se a pergunta são as habilitações, as respostas podem ser 9ª ano, 12ª ano, etc.
Existem vários tipos de variáveis de acordo com as escalas de medida utilizadas para os medir. É
necessário identificarmos a natureza das variáveis de que dispomos para trabalhar e, deste modo,
escolher as análises adequadas.
1
Numa variável, as suas categorias são mutuamente exclusivas.
©ISCTE-Instituto Universitário de Lisboa 6
Qualitativas – se registam qualidades, i.e., se não estão expressas em números, ou estando, não
as quantificam:
Qualitativas nominais se as qualidades são registadas sem ordem, i. e., são meras
categorias: género, cor dos olhos, etc.
Qualitativas ordinais se as qualidades são registadas com ordem: habilitações
académicas, escalões etários, etc. Mas as qualidades também podem ser expressas numa
escala ordinal (exemplo: Qual o seu grau de satisfação com o estado atual da economia
portuguesa?). Estas variáveis podem ter tratamento quantitativo porque são definidas em
intervalos a distâncias constante entre 1 e 7.
Extremamente Recusa Não sabe
insatisfeito(a) responder (NS)
1 2 3 4 5 6 7 77 88
Elementos
A 35 F Casado Lisboa
B 43 F Divorciado Sintra
C 19 M Solteiro Cascais
D 67 M Viúvo Almada
Dados de variáveis qualitativas nominais são melhor representados por gráficos circulares
(pie) em que a soma das partes é 100%.
Dados de variáveis qualitativas ordinais ou de quantitativas discretas são melhor
representados por gráficos de barras.
Dados de variáveis quantitativas contínuas são melhor representados por histogramas.
As medidas descritivas podem também ser apresentadas graficamente. É o caso de perfis
de médias ou de medianas (gráficos de linhas), diagrama de extremos e quartis, etc.
Versão a) Versão b)
2
Os gráficos devem ter títulos, indicando-se claramente qual a caraterística/variável em estudo.
Versão a) Versão b)
Figura 2: Distribuições das respostas ao atributo lê-se facilmente
Para dados contínuos, o histograma é adequado para representar as frequências por classes.
Quantos intervalos (classes) se devem considerar?
Regra para o cálculo do número de classes (k):
𝐾 = 5 para 𝑛 < 25 𝐾 ≈ √𝑛 para 𝑛 ≥ 25
Classes definidas por conveniência, por exemplo, de acordo com outros estudos, ou de
acordo com os dados agregados disponíveis de estatísticas oficiais
Usar o BOM SENSO!
Quando se pretender definir classes de diferentes amplitudes, o histograma deixa de ser adequado.
Neste caso, recodifica-se a variável original em escalões, passando a ser tratada como qualitativa
ordinal.
Este gráfico, tal como está, não deve constar de um relatório uma vez que estão identificados os
casos (id) que são outliers (32 e 68).
Q3=9 Intervalo de
variação
Intervalo
interquartílico
Q1= 5
Mínimo = 2
Este gráfico é muito útil em análise de dados uma vez que contempla muita informação, incluindo
a identificação de outliers. Outliers3 são valores anómalos e, por isso mesmo, afastam-se do padrão
considerado (entre Q3 e Q1), sendo classificados em moderados e severos:
O fim dos “bigodes” não coincide necessariamente com o mínimo e máximo se existirem outliers.
OUTPUT:_____________________________________________________________________
Extreme Values
Case Number Value
Número de Highest 1 32 16
semanários 2 68 16
lidos por 3 33 15
mês
4 34 15
5 69 14a
Lowest 1 52 2
2 14 2
3 90 3
4 89 3
5 67 3b
a. Only a partial list of cases with the value 14 are shown in the table
of upper extremes.
b. Only a partial list of cases with the value 3 are shown in the table
of lower extremes.
3
Há autores que definem os outliers como desvios face à média de um, ... , desvios padrão. Por exemplo: 𝑋 ± 3 𝑠′.
©ISCTE-Instituto Universitário de Lisboa 11
Note-se que no output estão identificados alguns dos valores extremos e os outliers sobrepostos.
Os casos 32 e 68 são outliers.
Vantagem - Temos uma ideia da localização dos valores observados, da sua dispersão, e do grau
de assimetria da distribuição. No exemplo dado, a distribuição do Número de semanários lidos por
mês é assimétrica; e, como a mediana está mais próxima do Q1, caraterizamos esta distribuição
como assimétrica positiva.
O gráfico de linhas é adequado quando se pretende descrever em simultâneo mais de uma variável
medidas nas mesmas unidades. Podem ser utilizados para representar uma medida de tendência
central (media ou mediana). Por exemplo, se as variáveis forem qualitativas ordinais medidas
numa escala tipo Likert e, portanto, passíveis de serem tratadas como quantitativas, pode usar-se
este tipo de gráfico.
2.4.5 Frequências
Os valores que uma variável pode assumir podem ser representados em frequências:
Quando a variável é qualitativa nominal, não se calculam as frequências acumuladas por estas
pressuporem uma ordenação dos valores da variável. Note-se ainda que as frequências relativas
usualmente são apresentadas em percentagens.
As medidas descritivas (ou de síntese) resumem os valores da variável (dos dados) num só valor e
estão classificadas em diversos tipos: i) localização de tendência central; ii) localização de
tendência não central; iii) dispersão e concentração; iv) assimetria; e v) achatamento. No entanto,
para descrever corretamente o comportamento duma variável são necessárias sempre mais do que
uma medida, sendo fundamental apresentar, pelo menos, uma de localização de tendência central
e uma de dispersão.
No SPSS Statistics existem vários comandos que permitem calcular as principais medidas
descritivas. Por exemplo:
Analyze Descriptive statistics Frequencies
1) Variáveis qualitativas nominais MODA (o valor que mais vezes foi observado)
MODA: pode ser calculada qualquer que seja o tipo de variável. A moda representa a modalidade
da variável que ocorre mais vezes.
MEDIANA: pode ser também calculada para variáveis quantitativas. É a medida de localização
preferida para distribuições fortemente assimétricas. Para ser calculada, os valores da variável
têm de ser ordenados.
𝑋 𝐹 % % ac
1 2 9,09 9,09
2 2 9,09 18,18
3 3 13,64 31,82
4 4 18,18 50,00
5 4 18,18 68,18
6 3 13,64 81,82
7 2 9,09 90,91
8 2 9,09 100,00
n 22
OUTPUT: ___________________________________________________________________________
1,1,2,2,3,3,3,4,4,4,4,5,5,5,5,6,6,6,7,7,8,8
Interpretação: metade dos leitores leem, no máximo, 4,5 diários por semana.
OUTPUT:__________________________________________________________________
MÉDIA APARADA: excluindo os 5% dos valores ordenados mais baixos da variável e os 5% dos
valores mais elevados, calcula-se a média dos valores que correspondem a 90% das observações
centrais. É uma medida útil quando existem outliers uma vez que podem ser eliminados neste
processo.
Percentis: dividem a distribuição de frequências em 100 partes iguais. Por exemplo, P80 acumula
até si 80% das observações, etc.
OUTPUT:___________________________________________________________________
Percentiles
Percentiles
5 10 25 50 75 90 95
Weighted Tempo de leitura do
30,00 45,00 52,50 75,00 120,00 163,50 180,00
Average(Definition 1) semanário (minutos)
Tukey's Hinges Tempo de leitura do
55,00 75,00 120,00
semanário (minutos)
Como se pode ver, dependendo do critério utilizado (do comando usado no SPSS Statistics),
assim os valores dos percentis podem ser diferentes. Se utilizarmos o critério da Média
ponderada, o P25 = 52,5 min; se for utilizado o critério de Tukey, esse valor passa a ser igual a
55 min! Se acedermos a estas medidas via Explore, é utilizado o critério da Média ponderada,
mas, se acedermos a Custom Tables, já é utilizado o critério de Tukey.
Interpretação: Q3= 120 min, i. e., 75% dos leitores inquiridos demoram, no máximo, 120 minutos
a ler o semanário preferido. De outra forma, 25% dos leitores demoram, no mínimo,
120 minutos a ler o semanário preferido.
As medidas de dispersão permitem-nos ter uma ideia da variabilidade dos valores da variável.
∑ ( ) ∑ ( ) ∑ ( )
1. Variância4 ; ;
4∑ (𝑋 − 𝑋) corresponde à variação total relativamente à média (𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 = 𝑇𝑆𝑆) e dividida pelo
número de observações (ou 𝑛 − 1) corresponde à variância que mais não é do que variação média.
Corresponde à amplitude definida pelo valor resultante da diferença entre o valor máximo e o
valor mínimo;
4. Intervalo interquartílico (𝑄 − 𝑄 )
Corresponde à “caixa” da caixa-de-bigodes e indica-nos onde se encontram os 50% de
observações “centrais”.
A variância e o desvio-padrão só podem ser calculados para variáveis quantitativas porque medem
o afastamento em relação à média.
Permite avaliar a dispersão de uma distribuição, ou comparar a dispersão entre duas ou mais
distribuições, e permite ainda medir a representatividade da média. É usual aceitar-se que, se este
coeficiente for superior a 50%, a média deixa de ser representativa. Neste caso, deve-se preferir-
se a mediana ou a média aparada.
OUTPUT: ____________________________________________________________________
Interpretações:.
(1) os desvios dos valores do tempo de leitura do semanário preferido em relação à respetiva média (88,38
minutos) são, em média de 45, 237 minutos.
A comparação das medidas de tendência central permite-nos avaliar o enviesamento dos dados.
Em distribuições unimodais:
∑ ( ) ∑ ( )
𝑺𝒌𝒆𝒘𝒏𝒆𝒔𝒔 = ( )( )
𝑆′ com 𝑀 = e 𝑆′ =
Assimétrica positiva
Assimétrica negativa
Simétrica
OUTPUT: ___________________________________________________________________________
OUTPUT: ___________________________________________________________________________
Numa análise descritiva bivariada pretende-se descrever a relação entre duas características, isto
é, perceber de que forma a distribuição de uma delas se comporta perante a alteração na
distribuição da outra. O objectivo é fazer análises comparativas entre diversos grupos; comoas
dimensões dos grupos podem não ter a mesma dimensão, é necessário utilizar uma unidade de
comparação que é a percentagem. Importa também referir que as relações entre variáveis, que se
pretendem aqui identificar, estabelecem ou não relações de dependência. As relações de
dependência, em que há uma variável que é explicada pela outra (relação causa-efeito), são
definidas pelas teorias.
Tal como na análise descritiva univariada, as técnicas a utilizar dependem da natureza das variáveis
em estudo, havendo sempre a possibilidade de se recorrer a gráficos, tabelas e a medidas de
associação (entre as quais se encontram as de correlação). A Figura 7 mostra as diferentes técnicas
possíveis de serem utilizadas numa análise descritiva bivariada.
Circular em painel
Se o gráfico circular é adequado para representar graficamente uma variável qualitativa nominal,
continua a ser adequado para representar graficamente duas variáveis qualitativas nominais.
No SPSS Statistics:
O gráfico de barras empilhadas a 100% é um gráfico adequado a duas variáveis qualitativas quando
se pretende ver se há alguma relação entre elas. No SPSS Statistics:
Interpretação: a percentagem de leitores que preferem o Expresso é maioritária no grupo dos leitores do
sexo masculino (54,5%), quando comparada com o grupo do sexo feminino (41,2%). Em
contraste, a % de leitores que preferem o Sol é bastante mais relevante no grupo de leitores
do sexo feminino (44,1%), já que apenas 15,2% dos leitores do sexo masculino preferem
este semanário. Deste modo, identificam-se algumas diferenças nas preferências entre os
dois sexos: enquanto que no grupo de leitores do sexo masculino há uma preferência clara
pelo Expresso, já no grupo das leitoras, essa preferência, já não sendo tão clara, vai para o
Sol, seguido de perto pelo Expresso (41,2%). Assim, conclui-se haver uma relação entre
estas características.
O gráfico de barras agrupadas decorre da representação gráfica das percentagens que resultam do
cruzamento de duas variáveis e, usualmente, apresentadas numa tabela de contingência
(Crosstabs). Contudo, quando se pretende identificar relações entre as variáveis, deve pedir-se as
percentagens segundo uma das variáveis e não sobre o total.
Sempre que o registo de uma categoria (ou barra de uma cor) dominante num grupo corresponder
a um registo minoritário da categoria (barra da mesma cor) no outro grupo (ou num outro grupo),
diz-se que as variáveis estão relacionadas a uma inversão dos pesos de uma categoria em cada
um dos grupos da outra variável.
Analisam-se dois casos, um com a percentagem do total, outro com a percentagem segundo o sexo.
Interpretação: a Figura 10 evidencia que o grupo de leitores mais expressivo corresponde aos leitores do
sexo masculino e que preferem o Expresso (36%), sendo o menos expressivo, com uma
percentagem de apenas 5%, o grupo de leitores do sexo feminino e que preferem o
Regional.
Histograma
No SPSS Statistics só se conseguem fazer histogramas com classes de igual amplitude e, em alguns
casos, apresentar as frequências absolutas (contagens de leitores), situações estas que restringem
a utilidade destes gráficos para caracterizar a relação entre duas variáveis, uma quantitativa
contínua e outra qualitativa. Apresentam-se dois casos.
Após algumas formatações, diferentes das apresentadas nas caixas de diálogo anteriores, obtém-
-se a Figura 12.
Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo
Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário
preferido
No SPSS Statistics:
O gráfico de dispersão (Scatter Dot) é adequado para representar relações, em particular relações
lineares, entre duas variáveis quantitativas. Se existir uma forte relação linear (positiva ou
negativa) entre as variáveis, os pares de valores posicionam-se bastante próximos de uma reta
traçada à mão (ou de uma reta ajustada); se, pelo contrário se afastam dessa reta, visualiza-se que
a relação linear entra as variáveis é fraca ou mesmo inexistente. A Figura 16 apresenta diferentes
tipos de relação e uma situação em que não existe qualquer relação linear ou não linear (c).
(a) Relação linear positiva e (b) Relação linear negativa e (c) Ausência de relação (d) Relação, mas não linear
forte moderada
Fonte: Doane e Seward (2008: 491)
Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y)
No SPSS Statistics5:
5
A partir do tempo de leitura do semanário preferido por mês constrói-se uma variável para representar o tempo de
leitura do semanário preferido por semana. Para o efeito recorre-se no SPSS Statistics ao comando Transform,
Compute variable e insere-se a expressão que permite dividir o tempo mensal por quatro semanas (Tempo de leitura
do semanário preferido por mês/4).
©ISCTE-Instituto Universitário de Lisboa 33
Escala 𝑋𝑋’ Escala 𝑌𝑌’
Após algumas formatações, a Figura 17 apresenta a relação linear positiva entre as duas
características.
Reta ajustada
Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura
semanal dos diários
Interpretação: a relação linear entre os tempos de leitura dos dois tipos de jornais (quanto à periodicidade)
evidencia ser forte e positiva, uma vez que os círculos correspondentes aos pares de valores
estão bastante próximos da reta traçada que apresenta declive positivo, ou seja., ambas as
variáveis variam no mesmo sentido: quando o tempo de leitura dos diários cresce, o tempo
de leitura dos semanários também cresce e de forma muito clara.
As tabelas estatísticas apresentam maior precisão nos resultados relativos às variáveis em estudo.
Se as variáveis forem qualitativas, as tabelas adequadas são as tabelas de contingência (Crosstabs);
se uma delas for quantitativa e a outra qualitativa, a tabela de (comparação de) medidas descritivas
(via Tables, Custom Tables ou via Explore) é a tabela adequada. No caso de duas variáveis
Interpretação: identifica-se uma potencial relação entre o semanário preferido e o sexo uma vez que dos
66 leitores que são do sexo masculino, 36 preferem o Expresso (54,5%), enquanto que, dos
34 leitores do sexo feminino, 44,1% (𝑛 = 5) preferem o Sol e 41,2% (𝑛 = 14) preferem o
Expresso. De outra forma, verificam-se algumas alterações nas preferências do semanário
quando se passa da análise dos leitores para a análise das leitoras.
Mas podem também ser obtidas com o comando Analyze Tables Custom Tables:
São mais adequadas para caracterizar a relação entre uma variável quantitativa e uma qualitativa,
em que se calculam as medidas descritivas para a quantitativa em cada grupo definido pela
qualitativa. No SPSS Statistics:
Interpretação: a média do tempo de leitura do semanário Expresso é maior (118,2 minutos) do que as
médias dos tempos de leitura dos outros dois semanários (Regional = 61,4 minutos e Sol =
57 minutos); os desvios padrão, quando comparados com as respetivas médias, são menos
São indicadores que pretendem medir a intensidade da relação e em algumas medidas também o
sentido (positivo ou negativo) da relação entre duas variáveis. Quando pelo menos uma variável é
qualitativa nominal fala-se em associação, quando ambas são quantitativas ou qualitativas ordinais
fala-se em correlação6, e nestes casos os indicadores dão a intensidade e o sentido da relação.
Não havendo um consenso, alguns autores apontam valores de referência para a interpretação dos
coeficientes de associação. No entanto, é consensual que valores próximos de 0 traduzem relações
fracas, valores em torno de 0,5 traduzem relações moderadas e que valores próximos de 1
representam relações fortes. No caso dos coeficientes de correlação, valores negativos traduzem
relações negativas e valores positivos relações positivas. A Figura 16 ilustra os tipos de correlações
e a Figura 18 evidencia diferentes intensidades (e sentidos) das relações.
Por fim, importa referir que as medidas de associação, em geral e per si, não permitem descrever
a relação entre as duas características, devendo ser apresentadas como um complemento à análise
dos gráficos e/ou tabelas.
6
No entanto, podemos generalizar o termo associação para qualquer tipo de relação entre quaisquer dois tipos de
variáveis.
7
Quando ambas as variáveis nominais são dicotómicas, a medida de associação Phi é a adequada.
©ISCTE-Instituto Universitário de Lisboa 39
medida varia entre 0 e 1 e quanto mais se aproxima de um mais forte é a associação e em que
o zero representa ausência de associação.
2. Coeficiente Eta () – deve ser utilizado quando se tem uma variável quantitativa e uma
variável qualitativa nominal (ou tratada como tal), em que uma delas assume o estatuto de
variável dependente e a outra o de variável independente. O Eta varia entre 0 e 1 e tem a
mesma interpretação que o V de Cramer. Sempre que não seja muito evidente qual das duas
variáveis é a independente deve-se evitar esta medida.
Importa realçar que é usual calcular e interpretar o Eta2. Este indicador traduz a proporção (ou
a percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.
Tal como no caso do Eta, existindo uma relação de causa-efeito entre as duas variáveis em
estudo, é usual calcular e interpretar o R2. Este indicador traduz a proporção (ou a
percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.
As medidas de associação / correlação podem ser calculadas em três comandos distintos, dependo
a sua seleção do tipo de variáveis em estudo. Assim, têm-se as seguintes possibilidades:
8
Se forem duas variáveis quantitativas e se não existir uma relação de tipo linear entre elas não se deverá calcular o
coeficiente R de Pearson.
Interpretação: a relação entre as variáveis semanário preferido e sexo é de intensidade fraca a moderada
(0,324).
OUTPUT:____________________________________________________________________________
Correlations
Lê-se Leitura
facilmente agradável
Spearman's Lê-se Correlation Coefficient 1,000 ,582
rho facilmente Sig. (2-tailed) . ,000
N 100 100
Leitura Correlation Coefficient ,582 1,000
agradável Sig. (2-tailed) ,000 .
N 100 100
Intrepretação: a relação entre as variáveis lê-se facilmente e leitura agradável é de intensidade moderada
e positiva (0,582).
Previamente ao cálculo do Eta é necessário identificar os papéis das duas variáveis. Assim:
- Variável dependente (quantitativa): tempo de leitura do semanário preferido, em minutos
- Variável independente (qualitativa): sexo
OUTPUTS: __________________________________________________________________________
Measures of Association
Eta
Eta Squared
Tempo de leitura do
semanário por mês ,163 ,026
(minutos) * sexo
Interpretação: a relação entre o tempo de leitura do semanário por mês e o sexo é de intensidade baixa
(0,163). Ou seja, apenas 2,6% da variação do tempo de leitura do semanário preferido é
explicada pelo sexo (𝐸𝑡𝑎 = 0,026).
No SPSS Statistics,
OUTPUT: _____________________________________________________________________
Interpretação: a relação linear entre os tempos de leitura semanal dos semanários e dos diários é quase
perfeita, i. e., é muito forte (0,987) e positiva, o que significa que ambas as variáveis variam
no mesmo sentido.
4.1.1 Compute:
Com o comando Transform é possível operar diversas alterações na tabela de dados, como seja a
construção de novas variáveis com base nas que já existem. Uma possibilidade é a construção de
novos indicadores, por exemplo, índices, baseadas na informação de variáveis já existentes e que
se efectuam na opção Compute.
Exemplo:
Pode ser interessante construir a partir de duas variáveis originais associadas aos atrtibutos que os
jornais devem deter, Lê-se facilmente e Leitura agradável, construir-se uma nova variável latente,
Leitura Aprazível.
A construção desta nova variáve latente só é possível se duas condições prévias estiverem
validadas: se (1) as modalidades da escala ordinal de concordância estiverem todas ou quase todas
preenchidas e se (2) o coeficiente de 𝐴𝑙𝑝ℎ𝑎 𝑑𝑒 𝐶𝑟𝑜𝑛𝑏𝑎𝑐ℎ ≥ 0,7. O valor do Alpha deverá ser
próximo de 1 para indicar uma forte consistência dos indicadores, de forma a que possam ser
tratados como uma só variável. Este último coeficiente dá-nos a conhecer a consistência interna
das respostas dadas pelos respondentes: se umas forem num sentido e as restantes forem em sentido
oposto, o coeficiente será fraco e dizemos que os respondentes não foram consistentes nas suas
respostas. No caso contrário, pode ser construída uma nova variável cujos valores sejam a média
das respostas atribuídas às questões de concordância. Neste caso é possível recorrer à função média
(Mean) disponível entre as inúmeras funções de cálculo. Deve seguir-se criteriosamente as
indicações dadas para a construção da expressão numérica.
1.
Statistics
Lê-se Leitura
facilmente agradável
N Valid 100 100
Missing 0 0
Frequency Frequency
Valid Discordo completamente 2 Valid Discordo completamente 4
Discordo 17 Discordo 7
Nao concordo nem discordo 35 Nao concordo nem discordo 25
Concordo 28 Concordo 48
Concordo completamente 18 Concordo completamente 16
Total 100 Total 100
OUTPUT: ___________________________________________________________________
Reliability Statistics
Cronbach's Alpha N of Items
,768 2
Logo, pode passar-se à construção da Leitura Aprazível, utilizando para isso, os comandos
Transforme, Compute
Cumulative
Frequency Percent Percent
Valid 1,00 1 1,0 1,0
1,50 4 4,0 5,0
2,00 3 3,0 8,0
2,50 10 10,0 18,0
3,00 12 12,0 30,0
3,50 31 31,0 61,0
4,00 20 20,0 81,0
4,50 7 7,0 88,0
5,00 12 12,0 100,0
Total 100 100,0
A recodificação no SPSS efectua-se através das opções Transform, Recode. Pode ser importante
alterar a codificação de uma dada variável, e por isso, proceder à substituição de códigos, mas
criando uma variável nova. Para tal executamos Recode into Different Variables.
Por exemplo, podem ser criados escalões etários a partir da idade. Os escalões pretendidos são:
Deve salientar-se que as alterações efectuadas substituem o cenário anterior, o SPSS não guarda a
variável com as codificações anteriores.
No conjunto de opções que surgem no lado esquerdo é possível introduzir os valores da variável
de origem que se pretende recodificar, no lado direito da janela atribuem-se os novos valores.
Analisemos as opções em cada situação.
Old value:
All other values: permite a recodificação de todos os outros valores não mencionados
anteriormente.
New value:
System-missing: quando é conveniente que algum valor (ou intervalo de valores) passe para não
resposta.
Copy old values: para manter alguns valores da variável inicial.
A variável nova será colocada no final da tabela de dados. Para confirmar a recodificação deverá
ser realizada uma tabela de frequências para a antiga e para a nova variével. De seguida é
necessário configurar os values da nova variável recodificada, utilizando a folha de variable view
da base de dados.
O SPSS permite uma recodificação automática de variáveis. A mesma é feita por ordem crescente
ou decrescente. Pode ser bastante útil quando se obtém a tabela de dados vinda, por exemplo, de
um ficheiro de Excel. Se considerar a variável Concelho, as categorias introduzidas estão em texto.
Permite seleccionar grupos de indivíduos de acordo com alguma condição. As situações onde se
recorre mais a esta opção são a selecção de um determinado grupo de casos (por exemplo, em
situações de questões de filtro), ou quando se pretende efectuar uma selecção aleatória dentro da
Por exemplo, ao pretender trabalhar apenas com elementos que possuem o ensino básico, activa-
se Data, Select Cases, selecciona-se If condition is satisfied, If.
Com a activação de If, surge uma nova janela que permite colocar a condição de selecção. Neste
caso, a variável é “Habilitações literárias” e até ensino secundário está codificado com o valor 1,
logo a condição fica “habilit = 1”. Ao correr esta condição com Continue e depois OK, fica a
tabela de dados com elementos filtrados (aparece um traço sobre as linhas de casos inactivos)
passando produzir resultados apenas com os casos seleccionados.
Para voltar a utilizar todos os casos basta fazer Data, Select Cases, All Cases (guarda a última
condição de filtro, ou de selecção) ou Reset (volta à caixa de diálogo inicial, não guardando
qualquer condição).
Ainda é possível criar um ficheiro de “Syntax” a partir dos dos comandos que podem ficar
registados no output, ou seja, quando pedimos – Edit – options – Viewer – Display commands in
the log: