Modelagem de Equações Estruturais No Software R
Modelagem de Equações Estruturais No Software R
Modelagem de Equações Estruturais No Software R
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
Banca Examinadora:
Profª. Drª. Lisiane Priscila Roldão Selau
Prof. Dr. João Riboldi
2
Agradecimentos
3
Resumo
4
Sumário
1. INTRODUÇÃO .................................................................................................................... 7
1.1 Motivação e Objetivos .................................................................................................. 8
1.2 Estrutura do Trabalho .................................................................................................... 9
2. MODELAGEM DE EQUAÇÕES ESTRUTURAIS .......................................................... 10
2.1 Tipos de Variáveis....................................................................................................... 10
2.2 Escala de Medida ........................................................................................................ 10
2.3 Associação entre as Variáveis ..................................................................................... 11
2.4 Análise Fatorial ........................................................................................................... 12
2.5 Modelo de Equações Estruturais ................................................................................. 13
2.5.1 Submodelos ......................................................................................................... 13
2.5.2 Representação Gráfica do Modelo ...................................................................... 14
2.6 Pressupostos para a Modelagem de Equações Estruturais .......................................... 15
2.6.1 Independência das Observações .......................................................................... 15
2.6.2 Normalidade Multivariada .................................................................................. 16
2.6.3 Covariâncias Amostrais Não Nulas ..................................................................... 16
2.6.4 Ausência de Multicolinearidade .......................................................................... 17
2.6.5 Inexistência de Outliers ....................................................................................... 17
3. ETAPAS DA MODELAGEM DE EQUAÇÕES ESTRUTURAIS ................................... 18
3.1 Construção do Modelo Teórico ................................................................................... 18
3.2 Obtenção dos Dados .................................................................................................... 19
3.3 Especificação e Identificação do Modelo .................................................................... 19
3.4 Estimação do Modelo .................................................................................................. 22
3.4.1 Método de Máxima Verossimilhança (ML) ........................................................ 22
3.4.2 Mínimos Quadrados Generalizados (GLS) ......................................................... 23
3.4.3 Distribuição Assintótica Livre ou Mínimos Quadrados Ponderados .................. 23
3.5 Avaliação do Ajuste do Modelo e Validação do Modelo............................................ 24
3.5.1 Teste de Ajustamento...................................................................................... 24
3.5.2 Índices de Avaliação do Ajuste do Modelo......................................................... 25
3.5.3 Validação do Modelo .......................................................................................... 31
4. O SOFTWARE R E O PACOTE LAVAAN ...................................................................... 32
4.1 O Pacote Lavaan ......................................................................................................... 32
4.2 Especificando Modelos no Lavaan ............................................................................. 33
5
4.3 Resultados dos Modelos .............................................................................................. 35
4.4 Medidas de Ajuste ....................................................................................................... 38
4.5 Análise de Múltiplos Grupos....................................................................................... 39
4.6 Modificação do Modelo .............................................................................................. 39
4.7 Outros Recursos .......................................................................................................... 40
5. APLICAÇÕES DA MODELAGEM DE EQUAÇÕES ESTRUTURAIS .......................... 41
5.1 Regressão Linear Multivariada ................................................................................... 41
5.2 Análise Fatorial Confirmatória.................................................................................... 47
5.3 Análise de Múltiplos Grupos (Multiple-Group Analyses)........................................... 57
5.4 Análise de um Instrumento de Medida........................................................................ 68
6. CONSIDERAÇÕES FINAIS .............................................................................................. 86
REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................................ 88
6
1. INTRODUÇÃO
7
também pode ser utilizada com caráter exploratório a fim de obter o modelo que melhor
se adequa aos dados.
8
Apresentar a aplicação computacional de SEM em dados publicados na
literatura e a análise de um instrumento de medida realizado para
entender o relacionamento de uma empresa com seus clientes,
ressaltando os aspectos computacionais e a interpretação dos
resultados.
9
2. MODELAGEM DE EQUAÇÕES ESTRUTURAIS
Como SEM tem uma linguagem própria, sua nomenclatura se diferencia muito
da forma normalmente utilizada em outras técnicas estatísticas, tanto nas variáveis,
quanto nos gráficos, e também em outros aspectos que envolvem as análises. Desta
forma, neste tópico serão abordados os tipos de variáveis utilizados nesta técnica.
As variáveis observadas, ou manifestas, são variáveis que são medidas
diretamente. São obtidas através de questionários, pesquisas, escores de entrevistas. Por
sua vez, variáveis latentes, fatores ou construtos, são variáveis que não podem ser
medidas ou observadas diretamente (como satisfação, confiança, inteligência), mas que
podem ser representadas ou medidas através de uma ou mais variáveis observadas.
Por exemplo, as atitudes e impressões das pessoas em relação a algum produto
não são possíveis de se medir de forma precisa e direta. Entretanto, fazendo-se várias
perguntas é possível avaliar os aspectos da atitude da pessoa. Essas respostas
conjuntamente formam uma medida razoavelmente precisa do construto latente (atitude)
para um indivíduo (HAIR et al., 2005).
As variáveis observadas e latentes podem ser classificadas como exógenas
(independentes) e endógenas (dependentes), respectivamente. As variáveis exógenas
causam flutuações em outras variáveis no modelo. Já as flutuações nesse tipo de
variável não podem ser explicadas pelo modelo, podendo, apenas, ser influenciadas por
fatores externos ao modelo. Endógenas são as variáveis influenciadas pelas exógenas, e
a variação destas variáveis é explicada por variáveis presentes no modelo.
10
frequentemente, havendo simulações que indicam que os resultados obtidos são de
confiança desde que se obtenha pelo menos 5 classes (ATKINSON, 1988 apud
LEMKE, 20051) e que a distribuição de frequências se aproxime da curva normal
(BOLLEN, 1989 apud MARÔCO,20102).
1
ATKINSON, L. The measurement –statistics controversy: Factor analysis and subinterval data. Bulletin
of the Psychometric Society, 26, p. 361-364, 1988.
2
BOLLEN, K. A. Structural Equations with Latent Variables. John Wiley & Sons, New York, 1989.
3
JORESKOG, K. G., & Sorbom, D. LISREL 8: users’s reference guide. Licolnwood: Scientific Software
International, 1996
11
2.4 Análise Fatorial
A Análise Fatorial foi uma das primeiras técnicas multivariadas que teve por
objetivo descobrir e analisar a estrutura de um conjunto de variáveis inter-relacionadas
de modo a construir uma escala de medida para os fatores (MARÔCO,2010). O
principal objetivo desta análise é explicar a relação entre muitas variáveis observadas
através de um número reduzido de variáveis latentes. Desta forma, a análise fatorial
pode ser considerada como uma técnica de redução. Existem dois tipos de análise
fatorial: Análise Fatorial Exploratória e Análise Fatorial Confirmatória.
Análise Fatorial Exploratória (EFA) é utilizada quando as variáveis
observadas e latentes não possuem especificação predefinida de um modelo que as
relacione. Através da EFA, o pesquisador identifica fatores que explicam correlações
dentro de um conjunto de variáveis. É um procedimento de redução da dimensão dos
dados originais que visa identificar um pequeno número de fatores que explique a maior
parte da variação observada em um número muito maior de variáveis (LEMKE,2005).
Portanto é utilizada pelos pesquisadores como uma técnica exploratória para determinar
o número de fatores comuns e descobrir quais variáveis mensuradas são indicadores
razoáveis das dimensões latentes.
Análise Fatorial Confirmatória (CFA) é recomendada quando o pesquisador
possui uma ideia a priori sobre a estrutura relacional entre as variáveis observadas e
latentes em estudo (fatores), ou seja, a intenção é testar um modelo definido
previamente. Essa ideia prévia pode ser baseada na teoria ou em resultados de estudos
anteriores. Devido a esta característica de permitir o teste de um modelo teórico que
estruture o relacionamento entre as variáveis observadas e as variáveis latentes, a
análise fatorial confirmatória é amplamente utilizada em SEM, seja simplesmente para
testar um instrumento de medida ou compor um modelo completo de Equações
Estruturais, em que o objetivo é verificar hipóteses de causas entre as variáveis latentes.
Ambos serão detalhados nas próximas seções.
12
2.5 Modelo de Equações Estruturais
2.5.1 Submodelos
Modelo
Estrutural
Figura 1. Submodelos
[adaptado de Byrne, 2001]
13
2.5.2 Representação Gráfica do Modelo
Descrição Símbolo
Relação de causa
Associação correlacional
onde r1 e r2 são os resíduos que representam os erros de predição dos fatores endógenos
P3 e P1 a partir de fator exógeno P2.
Modelo de Medida:
14
onde os e1 a e9 são os erros de medida das variáveis observadas. Eles refletem a
adequação destas em medir os fatores em estudo.
15
2.6.2 Normalidade Multivariada
16
2.6.4 Ausência de Multicolinearidade
17
3. ETAPAS DA MODELAGEM DE EQUAÇÕES ESTRUTURAIS
18
de variáveis no modelo, deve-se preservar a parcimônia e reconhecer seus benefícios e
os de modelos teoricamente concisos (HAIR et al., 2005).
Depois de estabelecido o modelo teórico que vai ser testado, o próximo passo é
obter os dados para a análise. Nessa etapa o instrumento de medida deve ser definido,
bem como as variáveis que vão ser mensuradas e também o tamanho da amostra.
19
O modelo estrutural considera que as relações são desenhadas sempre de causa
para efeito e que a variância das variáveis exógenas, que não é explicada pelas variáveis
endógenas, é explicada por erros associados às variáveis latentes (MARÔCO, 2010).
Cada variável latente que possui uma ou mais retas que vão até ela é considerada
variável dependente em uma equação separada. Isso significa que as variáveis preditoras
estão todas nos terminais extremos das setas que conduzem até a variável endógena
(HAIR et al., 2005).
onde:
Parâmetros livres são aqueles que vão ser estimados a partir das covariâncias e
variâncias das variáveis observadas. Os parâmetros fixos são definidos pelo pesquisador
20
a partir de seu conhecimento a priori ou considerações teóricas sobre o valor do
parâmetro.
Overidentified são modelos cujo número de graus de liberdade é maior que zero
e por isso a qualidade do ajustamento pode ser avaliada. Porém os modelos devem
passar por alguma modificação ou restrição teórica para viabilizar essa avaliação. Em
SEM o objetivo é especificar esse tipo de modelo.
21
3.4 Estimação do Modelo
22
3.4.2 Mínimos Quadrados Generalizados (GLS)
23
3.5 Avaliação do Ajuste do Modelo e Validação do Modelo
Nesta etapa é analisado o quão bem o modelo teórico consegue reproduzir a
estrutura correlacional das variáveis observadas na amostra. Existindo inúmeros índices
de avaliação do modelo e estatísticas que podem ser utilizadas.
A avaliação do modelo é realizada através do teste de ajustamento e também
através de alguns índices que em sua maioria são utilizados em todos os softwares de
Modelagem de Equações Estruturais.
24
3.5.2 Índices de Avaliação do Ajuste do Modelo
Por conta das limitações do teste , os pesquisadores desenvolveram alguns
índices de avaliação do ajuste do modelo (goodness-of-fit). Os índices aqui apresentados
são baseados em Byrne (2001), Lemke (2005) e Silva (2006).
CMIN ( ) é o valor mínimo de discrepância.
CMIN/DF é a razão com os graus de liberdade, que deve ser < 5.
Root Mean Square Residual (RMR) é a raiz quadrada da matriz dos erros
dividida pelos graus de liberdade, assumindo que o modelo ajustado é o correto
(Joreskog & Sorbom,1996 apud MARÔCO,2010). Quanto menor o RMR melhor será o
ajustamento, com RMR = 0 tem-se um ajustamento perfeito. Para um modelo bem
ajustado, o valor deve ser pequeno, 0,05 ou menos.
Goodness-of- Fit Index (GFI) explica a proporção da covariância observada
entre as variáveis observadas, explicada pelo modelo ajustado (MARÔCO, 2010).
Portanto é a medida da quantidade relativa de variância e covariância em S (matriz
amostral de covariância dos escores das variáveis observadas) que é conjuntamente
explicada por (matriz populacional de covariância). O índice tem amplitude de 0 a 1,
sendo que valores perto de 1 são indicativos de bom ajuste. Pode ser escrito como
indicado abaixo.
̂
̂
onde:
25
Parsimony Goodness-of-fit Index (PGFI) é um índice que leva em conta o
número de parâmetros estimados do modelo teórico na avaliação geral do modelo.
Geralmente seus valores são baixos. Pode-se obter o PGFI através da equação:
onde:
̂ ̂
̂ ̂
onde:
Comparative Fit Index (CFI) foi criado para corrigir o erro do NFI que
apresentava certa tendência de subestimar o ajuste em amostras pequenas. O CFI leva
em conta o tamanho da amostra. É a razão entre o ajustamento do modelo em estudo e o
ajustamento do pior modelo possível. Valor acima de 0,90 indica bom ajuste do modelo.
Obtém-se o CFI através da equação:
(̂ )
(̂ )
26
Tucker-Lewis Index (TLI) também conhecido com NNFI, assume valores entre 0
e 1, com valores próximos a 0,95 (para amostras grandes) indicando bom ajuste.
onde:
PNFI é um índice contado de forma relativa ao índice NFI. Penaliza o NFI pela
razão de parcimônia.
PCFI é um índice contado de forma relativa ao índice CFI. Penaliza o CFI pela
razão de parcimônia.
27
o tem uma distribuição não central, com um parâmetro de não centralidade . O
intervalo de confiança indica que com 90% de confiança o intervalo contém verdadeiro
valor (populacional) do parâmetro de não centralidade .
√ populacional
̂
√ estimado
onde:
28
CAIC é um critério que leva em conta o tamanho da amostra, operando da
mesma forma que o AIC.
Nesta seção forma abordados vários índices que indicam o ajuste do modelo,
porém não sendo necessária a utilização de todos na análise de um modelo. Eles servem
para dar uma ideia de quão bem o modelo teórico se ajusta com os dados amostrais.
Todos os índices operam diferentemente de acordo com o tamanho da amostra,
parcimônia do modelo, método de estimação e violações dos pressupostos, tornando
difícil a tarefa de escolha dos índices que se deve utilizar (BYRNE, 2001).
29
ser utilizados sempre na forma padronizada para não tornar sua interpretação complexa
por dependerem da unidade de medida das variáveis observadas. Os resíduos
padronizados são os resíduos divididos pelos seus erros padrões assintóticos. Eles
representam uma estimativa do número de desvios padrões que os resíduos observados
estão do resíduo zero, que existiria caso o modelo fosse perfeitamente ajustado.
30
3.5.3 Validação do Modelo
31
4. O SOFTWARE R E O PACOTE LAVAAN
O pacote foi construído visando alguns aspectos que muitas vezes são essenciais
tanto na Modelagem de Equações Estruturais, quanto na escolha do software. Um dos
aspectos que procura suprir é que geralmente os programas livres para a modelagem não
são intuitivos ou não possuem muitos recursos de análise. O pacote Lavaan tenta
preencher esses objetivos. Como é de fácil obtenção e possui fácil instalação, pode ser
usado por qualquer estudante ou professor em suas aulas. Outro fator atraente é que por
ser um programa livre é interessante para estatísticos que trabalham na área de SEM e
gostariam de programar novas metodologias, pois permite acesso direto ao código do
pacote.
32
área possam ter se prejudicado pela falta de um software livre ou que pudesse ser
adaptado. É essa a justificativa que o autor utiliza para manter o pacote Lavaan
totalmente livre.
= + +
onde:
y ~ x1+x2+x3+x4
33
y1 ~ x1+x2+x3+x4
f1 =~ item1+item2+item3
Tipo Operador
Variável Latente =~
Regressão ~
(Co) Variância Residual ~~
Intercepto ~1
Parâmetro Definido :=
Restrição de Igualdade ==
Restrição de
Desigualdade <
Restrição de
Desigualdade >
34
HS.model = ~ ‘Visual=~ x1+x2+x3
Textual =~x4+x5+x6’
Tanto para a função cfa(), Lavaan() ou sem() existem diversas maneiras para
examinar as estatísticas e parâmetros estimados do modelo ajustado. Talvez a função
sumary() seja a mais útil. Se for chamada sem argumentos extras apresentará um breve
resumo do modelo ajustado juntamente com estimativas dos parâmetros (Rosseel,
2012). Abaixo são abordadas brevemente as funções que apresentam os resultados do
modelo:
35
inspect(): mostra a representação interna do modelo, retornando, por padrão,
uma lista de matrizes contendo os parâmetros livres do modelo, mas pode também ser
usada para extrair os valores iniciais, os valores de gradiente, e outros.
[ROSSEEL,2012].
A saída é constituída por três seções. A primeira seção (as primeiras seis linhas)
contém o número da versão do pacote, uma indicação sobre a convergência do modelo
36
(e em quantas iterações) e o número de observações utilizadas na análise. Em seguida, a
estatística de teste , graus de liberdade e o p-valor são impressos. Se fit.measures =
TRUE, a segunda seção é impressa contendo a estatística de teste do modelo de base
(onde todas as variáveis observadas são assumidas como não correlacionadas) e vários
índices de ajustamento populares. Se a estimativa de máxima verossimilhança é usada,
também haverá informações sobre o Loglikelihood, o AIC e o BIC.
[ROSSEEL,2012].
37
A terceira seção apresenta uma visão geral das estimativas de parâmetros,
incluindo o tipo de erros padrão utilizado e se a matriz de informação observada ou
esperada foi utilizada para calcular os erros padrão. Então, para cada um dos parâmetros
do modelo, a estimativa do erro padrão é exibida, os valores de z baseados no teste de
Wald e p-valor.
38
4.5 Análise de Múltiplos Grupos
O pacote Lavaan tem suporte completo para vários grupos SEM. Para solicitar uma
análise em vários grupos, a variável que define os grupos nos dados pode ser chamada
nas funções cfa(), sem() ou Lavaan(). Por padrão, o mesmo modelo é montado em todos
os grupos, sem quaisquer restrições de igualdade sobre os parâmetros do modelo
(ROSSEEL,2012).
39
4.7 Outros Recursos
O pacote Lavaan 0.5 possui suporte para variáveis categóricas, dados não
normais (Augmented Dickey-Fuller, Satorra-Bentler, bootstrapping), ANOVA, dados
faltantes (missings), igualdade linear e não linear e restrições de desigualdade, efeitos
indiretos e análise de mediação, entre outros. Recomenda-se a leitura de Rosseel (2012)
para obter mais informações de todos os pontos abordados neste Capítulo 4.
40
5. APLICAÇÕES DA MODELAGEM DE EQUAÇÕES ESTRUTURAIS
41
modelo=' TotTCAD ~ Genero+AntiDepr+PR+PrDiast+QRS
AMI~ Genero+AntiDepr+PR+PrDiast+QRS’
Para ajustar o modelo utiliza-se a função sem() como pode-se ver abaixo.
42
variáveis. Para obter essas estatísticas necessita-se de um resumo do modelo que pode
ser obtido através da definição apresentada a seguir.
43
Figura 12. Continuação da saída da função summary() para a Regressão
Na Figura 12, em R-Square pode-se ver o quanto o modelo ajustado explica das
variáveis dependentes, nesse caso, o modelo explica 88,7% da variabilidade de TotCAD
e 87,6% da variabilidade de AMI. Na última coluna observa-se as estimativas dos
coeficientes de regressão padronizados. Nenhum valor é elevado, o que sugeriria a
existência de multicolinearidade. Deve-se observar que os testes exigidos para que os
resultados da regressão sejam válidos precisam ser realizados, como o cálculo do VIF, a
presença de outliers, normalidade, entre outros.
44
Figura 13. Estimativas dos coeficientes de regressão padronizados e correlações no
modelo de regressão linear múltivariada da TotCad e AMI.
parameterEstimates(fit).
45
Figura 14. Coeficientes não padronizados (est), erros padrão (se), valores z (z) e p-valor
(pvalue) dos testes de significância dos coeficientes do modelo de regressão e
covariâncias.
46
5.2 Análise Fatorial Confirmatória
O banco de dados que será utilizado está no anexo B e foi adaptado de Marôco
(2010) e apresenta uma proposta da medida das preocupações parentais em crianças.
Por se tratar de um banco de dados didático a construção do modelo teórico e obtenção
dos dados ficaram por conta dos autores. Segundo Algarvio, Leal e Marôco (2008), os
principais fatores que dividem essas preocupações são cinco: Problemas familiares e
escolares (PrFE); Problemas para comer, dormir e físicos (PrCD); Preparação para
mudanças (Prpr); Medo; e Pensamentos negativos (PnsN). O objetivo é testar se o
modelo proposto para medir as preocupações parentais se ajusta bem aos dados. A
Figura 15 apresenta a especificação do modelo que se deseja testar.
47
2- Os cinco fatores são intercorrelacionados, indicados pelas setas
bidirecionais;
PrCD=~p7+p8+p9+p10+p11+p12
Prpr=~p13+p14+p15
Medo=~p16+p17+p18
PnsN=~p19+p20+p21+p22+p23+p24
Pensamentos negativos (PnsN) é explicado pelas variáveis p24, p23, p22, p21,
p20 e p19. Medo é medido pelas variáveis p18, p17 e p16. Preparação para mudanças
(Prpr) é medida pelas variáveis p15, p14 e p13. Problemas para comer, dormir e físicos
(PrCD) e Problemas familiares e escolares (PrFE) são explicados por p12, p11, p10, p9,
p8, p7 e p6, p5, p4, p3, p2, p1 respectivamente. Assim, o modelo especificado a priori
indica que as preocupações parentais podem ser explicadas por cinco fatores, que cada
item de medida tem carga não zero no fator que foi designado para medir (carga alvo) e
48
carga zero nos demais fatores. Também indica que os cinco fatores de preocupações
parentais são correlacionados.
Para ajustar o modelo utiliza-se a função cfa() por se tratar de uma análise
fatorial confirmatória.
Após o ajuste dos dados, obtêm-se, então, as estimativas. Para obter essas
estatísticas necessita-se de um resumo do modelo que pode ser obtido através da função
a seguir. A saída dos dados também é apresentada na Figura 16.
Ainda na Figura 16, existe uma coluna com as estimativas, erros padrão, valor z,
p-valor, estimativas padronizadas das variáveis latentes e estimativas padronizadas de
todas as variáveis. O método usado na estimação é o Método da Máxima
Verossimilhança. Outra maneira de ver as estimativas de todas as variáveis
padronizadas é olhando o diagrama de caminhos que é apresentado na Figura 17.
49
Figura 16. Saída da função summary() para o modelo de preocupações parentais
50
Figura 17. Modelo Fatorial de Preocupações Parentais com as estimativas padronizadas
e as correlações entre os fatores
rejeitada. Parâmetros que não foram significantes, com exceção das variâncias, podem
ser considerados não importantes ao modelo. Nesse momento é importante ter cuidado,
pois parâmetros não significativos pode ser um indício de que o tamanho da amostra é
muito pequeno (BYRNE, 2001). A Figura 16 indica que as estimativas são todas
razoáveis e estatisticamente significativas.
51
Ainda na Figura 16 é apresentado um valor do , os graus de liberdade e o
valor de probabilidade com a intenção de fornecer uma ideia geral sobre o ajuste do
modelo. Existem ainda muitas outras informações que devem ser analisadas. A hipótese
nula (H0) do processo de ajuste é que a matriz populacional de covariância (Σ) e a
matriz de covariância restringida pelo modelo (Σ(θ)) são iguais (Σ=Σ(θ)), ou seja, se o
modelo testado condiz com a população.
fitMeasures (fit)
52
Nesse caso, ⁄ , o que, segundo os valores de referência da Figura 4, é
considerado um bom ajustamento.
AGFI (Adjusted Goodness-of-fit ) difere do GFI apenas pelo fato de ser ajustado
pelo número de graus de liberdade do modelo especificado (agfi =0,876).
CFI (Comparative Fit Index) foi criado para corrigir o erro do NFI que
apresentava certa tendência de subestimar o ajuste em amostras pequenas. O modelo
apresentou cfi = 0,968, que conforme os valores de referência (0,9 a 0,95) é considerado
um bom ajustamento.
Lembra-se que esses índices servem para dar uma ideia de quão bem o modelo
hipotético se ajusta aos dados reais. Deve-se sempre analisar quais índices são mais
53
indicados para o tipo de amostra em analise e que eles sozinhos não garantem a
plausibilidade do modelo. Esse julgamento se dá através de um conjunto de
considerações, teóricas, estatísticas e práticas (LEMKE, 2005).
54
Figura 19. Matriz de covariância residual normalizada
55
Arbuckle (2009) recomenda que a significância dos índices seja avaliada para
um α=0,05, sendo assim, um Índice de Modificação superior a 4 ( 3,84)
indica uma alteração de um parâmetro do modelo que permite melhorar o ajustamento
com a probabilidade do erro tipo I (concluir que o modelo se ajusta bem quando o
ajustamento é ruim) de 0,001. Porém, por segurança, é melhor modificar os índices
superiores a 11 ( 10,82)
MI=modificationIndices(fit)
56
Após o processo de avaliação do modelo, pode-se concluir que o modelo
hipotético com cinco fatores representa adequadamente as preocupações parentais em
crianças. À plausibilidade e significância estatística de todos os parâmetros estimados
foram garantidos, ao bom ajuste dos índices principalmente CFI (0,968) e RMSEA
(0,046).
57
parâmetros pode ser feita através de um teste t-student (diferença entre médias) ou um
teste Z para a diferença dos parâmetros considerando as estimativas e erros padrão
assintóticos (MARÔCO, 2010). Com maior frequência na Modelagem de Equações
Estruturais existe mais de um parâmetro restrito no modelo. Deve haver uma
manutenção das restrições dos parâmetros, considerando todos os dados dos grupos em
simultâneo para obter estimativas eficientes dos parâmetros. A análise de variância do
modelo fatorial pretende demonstrar que o modelo é invariante (pesos fatorais e
covariância entre os fatores não diferem significativamente entre os grupos).
Segundo Byrne (2001), resultados recentes demonstram que mesmo quando não
se rejeita do teste omnibus possivelmente hipóteses subsequentes referentes aos
modelos de medida ou estruturais de grupos individuais devam ser rejeitadas. Porém
quando se rejeita do teste omnibus pode não ser possível rejeitar das
comparações posteriores. Assim, uma estratégia de analise adequada para confirmar ou
não à invariância do modelo fatorial, segundo Marôco (2010), é:
4
Testes Omnibus é uma espécie de teste estatístico para saber se a variância explicada em um conjunto
de dados é significativamente maior do que a variação não explicada, em geral. Um exemplo é o teste F
na análise de variância. Por exemplo, num modelo de duas variáveis independentes, se apenas uma
variável exerce um efeito significativo sobre a variável dependente e o outro não, então o teste omnibus
pode ser não significativo. Este fato não altera as conclusões que podem ser tiradas a partir da uma
variável significante.
58
Essa estratégia permite a estimação eficiente dos parâmetros, impondo restrições
de complexidade crescentes à estrutura fatorial.
Utiliza-se o mesmo banco do exemplo anterior que apresenta uma proposta da
medida das preocupações parentais em crianças, onde os principais fatores que dividem
essas preocupações são cinco: Problemas familiares e escolares (PrFE); Problemas para
comer, dormir e físicos (PrCD); Preparação para mudanças (Prpr); Medo; e
Pensamentos negativos (PnsN), que já foram comentados anteriormente. A intenção é
testar se a estrutura fatorial proposta é invariante para meninos e meninas. Para isso
avalia-se a plausibilidade do modelo de medida ajustado aos dois grupos e estuda-se a
invariância em relação aos pesos fatoriais e correlações. O banco de dados possui
informações para 153 meninos e 149 meninas. O modelo é o mesmo apresentado na
Figura 15.
ProblemasComerDormir=~p7+p8+p9+p10+p11+p12
Preparacao=~p13+p14+p15
Medo=~p16+p17+p18
PensamentoNegativo=~p19+p20+p21+p22+p23+p24'
Para ajustar o modelo utiliza-se a função cfa() por se tratar de uma análise
fatorial confirmatória entre grupos, conforme apresentado abaixo.
59
importante ressaltar que no banco de dados o número 1 indica sexo masculino e o
número 2 sexo feminino, portanto o grupo 1 é o grupo dos meninos e o grupo 2 é o
grupo das meninas. Com o modelo ajustado pode-se obter as estimativas do modelo.
Para obter essas estatísticas necessita-se de um resumo do modelo que pode ser obtido
através da definição a seguir. A saída é apresentada a seguir, na Figura 21.
60
Figura 21. Saída da função summary() para o modelo de preocupações parentais de
meninos e meninas.
61
Figura 22. Continuação da saída da função summary() para o modelo de preocupações
parentais de meninos e meninas.
62
Figura 23. Continuação da saída da função summary() para o modelo de preocupações
parentais de meninos e meninas.
63
As informações apresentadas anteriormente para os dois grupos são resumidas
na Figura 24 e na Figura 25.
Figura 24. Modelo Fatorial de Preocupações Parentais em meninos (grupo 1). Apresenta
as estimativas padronizadas e as correlações entre os fatores.
64
PCFI, GFI. Para isso utiliza-se a função abaixo, cujo resultado é apresentado na Figura
26.
Analisando os índices pode-se ver que a relação /gl = 1,45, olhando os valores
de referência da Figura 4, é um valor considerado como bom ajustamento. Já o CFI
(Comparative Fit Index) que é a razão entre o ajustamento do modelo em estudo e o
ajustamento do pior modelo possível, indica ajustamento muito bom (cfi=0,954). O GFI
(Goodness-of- Fit Index), que explica a proporção da covariância observada entre as
variáveis observadas, explicada pelo modelo ajustado, indica que o modelo tem um bom
ajustamento (gfi=0,947) e por último o RMSEA, um dos mais reconhecidos e
importantes critérios, com um valor igual a 0,055, apontando também bom ajustamento.
65
Modelo 4: As cargas fatoriais, interceptos e variâncias residuais são definidos
iguais em todos os grupos.
Cada vez que um modelo mais restrito é definido, um teste da diferença entre os
dos modelos é avaliado, comparando o modelo atual com o anterior, e comparando o
modelo atual com o modelo base (Modelo 1). O primeiro modelo que aparece nas
comparações é o modelo que é assumido como correto, por exemplo, Model 1 versus
Model 2, o Modelo 1 (modelo livre) é assumido como correto. Além disso, a diferença
de CFI é também relatada (delta.cfi). Em seguida a função e a saída são apresentadas.
66
Figura 27. Saída da função measurementInvariance()
67
fatoriais, interceptos, variâncias residuais e medias fixas. Sendo delta.df=62,
delta.chisq=110,636 e delta.p.value=0,000 para a primeira comparação e delta.df=67,
delta.chisq=111,337 e delta.p.value=0,009 para a segunda comparação. Pode-se
concluir, então, que a qualidade do ajustamento desses dois modelos é
significativamente diferente. Porém essa hipótese é considerada muito restritiva e
geralmente é ignorada no estudo da invariância (MARÔCO,2010). A invariância para
meninos e meninas fica assim demonstrada.
68
entre as variáveis do modelo. Segundo Milan (2006), muitos autores foram consultados
em relação à construção dos constructos teóricos a fim de medir a retenção de clientes.
Os dados foram obtidos em uma empresa do Rio Grande do sul, mais
especificamente localizados na região Nordeste do Estado e na Grande Porto Alegre
pela representatividade em sua carteira de clientes, tanto em relação ao número de
clientes, quanto ao volume de negócios gerados. A amostra foi então definida por
conveniência (amostragem não probabilística) baseando-se no julgamento do
pesquisador. É importante salientar que a utilização de uma técnica de amostragem não
probabilística pode acabar gerando um viés na amostra em relação à representatividade
das características e percepções dos clientes. Entretanto, segundo Milan (2006), mesmo
com estas ressalvas a técnica de amostragem adotada é adequada à pesquisa, impressão
esta compartilhada com a empresa.
O questionário utilizado foi elaborado e aplicado pelo autor, com o cuidado de
garantir que as perguntas feitas construíssem exatamente os construtos que deveriam ser
analisados. Foi realizada também uma validação do instrumento de coleta de dados e
pré-teste do mesmo. Segundo Milan (2006) os fatores que envolvem a prática do
marketing na retenção de clientes são cinco: Satisfação, Valor, Reputação, Confiança e
Fidelidade. O objetivo foi testar se o modelo de medida proposto para medir a retenção
de clientes se ajusta bem aos dados. Na Figura 29, pode-se ver a especificação do
modelo que se deseja testar.
Examinando o diagrama, percebem-se algumas características evidentes.
Observam-se os cinco fatores latentes, indicados pelos círculos (Fidelidade, Confiança,
Reputação, Valor e Satisfação). Os cinco fatores são intercorrelacionados, indicados
pelas setas bidirecionais. São 30 variáveis observadas, indicados pelos retângulos (p1-
p30), onde cada variável observada carrega um e apenas um fator. O fator Satisfação é
medido pelas variáveis observadas de 1 até 6, Valor é medido pelas variáveis de 7 até
10, Reputação é medido pelas variáveis de 11 até 15, Confiança e Fidelidade são
medidos pelas variáveis de 16 até 24 e 25 até 30, respectivamente.
69
Figura 28. Diagrama de caminho do modelo de retenção de clientes.
70
modelo=' Satisfacao =~ p1 + p2 + p3 + p4 + p5 + p6
Valor =~ p7 + p8 + p9 + p10
Confianca=~ p16 + p17 + p18 + p19 + p20 + p21 + p22 + p23 + p24
As Equações estruturais que constituem esse modelo podem ser vista abaixo. É
interessante reforçar, que cada equação possui uma carga fatorial diferente em relação a
variável latente.
71
Figura 29. Saída da função summary() para o modelo de retenção de clientes.
72
Figura 30. Continuação da saída da função summary() para o modelo de retenção de
clientes
Na Figura 29, observa-se que a amostra é constituída por 263 casos, o valor do
é igual a 1598,909 e o modelo possui 395 graus de liberdade. Como foi apresentado
na seção 3.2, o recomendado pelos autores é que o modelo tenha de 5 a 10 casos por
parâmetro o que não acontece, pois existem 70 parâmetros a serem estimados. O
método usado na estimação é o Método da Máxima Verossimilhança.
73
Figura 31. Diagrama de caminhos para o modelo de retenção de clientes com as
estimativas padronizadas e correlações.
fitMeasures (fit)
74
Figura 32. Índices de ajustamento do modelo
MI=modificationIndices(fit)
75
Figura 33. Índices de Modificação
76
Na Figura 33, o valor destacado na linha 58 indica um Índice de Modificação de
90,872, o maior entre os índices encontrados, significa que se colocarmos covariância
entre o erro das questões p20 e p19 baixaria pelo menos o valor do χ2. A estimativa
desse novo parâmetro incorporado ao modelo seria de aproximadamente 0,209. O
segundo maior dentre esses valores é o apresentado na linha 69, com um índice de
81,145 entre as questões p28 e p29 e a estimativa desse novo parâmetro incorporado ao
modelo seria de aproximadamente 0,511. Os valores para p1 e p2 são 66,966 e 0,087.
Os Índices de Modificação foram retirados um a uma para garantir que com a mudança
de um índice o segundo mais relevante não mudaria.
Modelo2=' Satisfacao =~ p1 + p2 + p3 + p4 + p5 + p6
Valor =~ p7 + p8 + p9 + p10
Confianca=~ p16 + p17 + p18 + p19 + p20 + p21 + p22 + p23 + p24
p19~~p20
p28~~p29
p1~~p2'
Com o novo modelo ajustado as mudanças que se obteve nos índices de ajuste
foram uma queda no χ2 (1356,315), os graus de liberdade (392). A relação entre os graus
de liberdade e o χ2 ainda está alto. Alguns índices como o CFI (de 0,882 para 0,906), o
GFI (de 0,690 para 0,735), o TLI (0,870 para 0,895) e o RMSEA (0,108 para 0,097)
apesarem de terem melhorado ainda não apresentam um ajustamento bom o suficiente.
Ver Figura 34.
77
Figura 34. Índices de ajustamento do modelo 2.
Valor =~ p7 + p8 + p9 + p10
Confianca=~ p16 + p17 + p18 + p19 + p20 + p21 + p22 + p23 + p24
p19~~p20
p28~~p29
p1~~p2
p8~~p9
p9~~p10
p13~~p17
p16~~p17
p28~~p30
p29~~p30
p17~~p24
p24~~p26
p1~~p4'
79
Com o novo modelo especificado os índices de ajuste sofreram uma melhora
(Figura 36).
Com o novo modelo ajustado as mudanças que obteve-se nos índices de ajuste
foi uma queda no χ2 (1069,671) e os graus de liberdade (382). A relação entre os graus
de liberdade e o χ2 melhorou ( ⁄ = 2,79). Os valores dos índices CFI (0,933), GFI
(0,791), TLI (0,924) melhoraram, porém o valor do RMSEA (0,083) ainda não é
satisfatório. Como ainda não chegou-se a um bom ajustamento do modelo, deve-se
verificar a significância das estimativas dos parâmetros incluídos no modelo, ou seja, as
covariâncias. Nas Figuras 37 a 39 todos os p-valores, inclusive das covariâncias entre os
termos de erro são significativos.
80
Figura 37. Informações básicas do modelo e estimativas.
81
Figura 38. Continuação das estimativas do modelo.
82
Figura 39. Continuação das estimativas do modelo.
Como foi visto na seção 5.2 pela limitação do cálculo da covariância dos
resíduos padronizados no pacote Lavaan, utiliza-se os resíduos normalizados.
83
Figura 40. Matriz de covariância residual normalizada
84
A matriz residual apresentou apenas poucos casos maiores que 1,96 mas bem
próximos a 1,96, não apresentando maiores problemas. Finalmente o modelo para medir
a retenção de clientes foi definido com algumas diferenças do modelo original,
covariâncias entre as questões do questionário, cinco variáveis latentes e 30 variáveis
observadas. O modelo final pode ser visto na Figura 42. Algumas correlações não
aparecem no modelo por conta da proximidade das variáveis observadas.
Figura 42. Diagrama de caminhos para o modelo final de retenção de clientes com as
estimativas padronizadas e correlações
85
6. CONSIDERAÇÕES FINAIS
86
Pode-se também estender a modelagem para além do modelo de medida, analisando-se
o modelo estrutural.
87
REFERÊNCIAS BIBLIOGRÁFICAS
ALGARVIO, S., LEAL, I., MAROCO, J., & MORENO,M. Parental Concerns:
Comparative Study between a group of Portuguese Parents and a group of Mozambican
Parents. Internacional Journal of Developmental and Educational Psychology, 1 (4),
199-208, 2008.
BENTLER, P. M., & WU, E. J. C. EQS for Windows: User’s Guide Encino, CA:
Multivariate Software, Inc., 1995b.
BROWNE, M., & CUDECK, R. Single Sample Cross-validation Indices for Covariance
Structures. Multivariate Behavioral Research,24, 445-455, 1989.
BOLLEN, K. A. Structural Equations with Latent Variables. John Wiley & Sons, New
York, 1989.
88
MILAN, G. S. A prática do Marketing de Relacionamento e a Retenção de Clientes:
Um Estudo Aplicado em um Ambiente de Serviços, Universidade Federal do Rio
Grande do Sul, Escola de Engenharia, Programa de Pós-Graduação em Engenharia de
Produção. Tese. Porto Alegre, 2006.
OLSSON, U. H, TROYE, S. V., & HOWELL, R. D. Theoretic fit and empirical fit:
The performance of maximum likelihood versus generalized least squares estimation in
structural equation models. Multivariate Behavioral Research, 34(1), 31-59,1999.
ROSSEEL, Y., The Lavaan tutorial. Departament of Data Analysis, Ghent University.
Belgium, 2013.
89