放送大学の「データの分析と知識発見」で学生の人が「回帰分析と主成分分析はどうちがうのですか?」の質問に対して、先生の答えがOh,No-いっぱんピープルには、その説明、わっかりません!となる説明だったので(でも、東大生とかにきくと、こう答えるのよね~。頭いい東大生は、わかるらしい。おいらバカにはわからん・・・)、私が理解できる程度で説明。
あるデータがあった時(そのデータは身長、体重、年齢とかのいくつかの項目からなりたっているとする。その項目を以下「変数」とよぶ)
・データの中にある「既存の変数」のうちの1つの変数を、他の変数を使って予測したいとき、
その予測したい1つの変数を目的変数(他にも言い方あるけど、ここでは目的変数とする)
目的変数を説明する他の変数を説明変数(他にも言い方あるけど、ここでは説明変数とする)
として、説明変数から目的変数を求めるのが、「回帰分析」
つまり、回帰分析は目的変数という「既存の(観測項目にある)変数」を求めている
・一方、変数がたくさんあって扱いづらいから、これらを代表する1つの「新しい変数」を作ろうかというのが、
主成分分析。この新しい変数は、観測変数の代表する値(主成分)であって、これが1つで言い表せればいいんだけど
漏れるときは、その代表する値と無関係な(関係があると回帰曲線のように傾きがでる。無関係=傾きない=)直交成分を
次の代表地、さらに直交する・・・「新しい変数」を増やす
とはいえ、代表する値だから、全ての変数よりかは少ない変数にする。つまり、次数削減する
つまり、主成分分析は、そのデータを代表する主成分という「新しい変数」を求める
・因子分析も次数削減になるけど、目的が違う。
観測変数は、共通の要素と変数個別の要素を合わせたものと考え、
共通の要素(これは観測変数でい、目に見えない変数なので、潜在変数という)
という「新しい変数」を求めるのが、因子分析
つまり、因子分析は、データの背後にある潜在因子(共通要素)という「新しい変数」をもとめる。
と、何を求めるかを説明したほうが、わかりやすいんでないかい?
あるデータがあった時(そのデータは身長、体重、年齢とかのいくつかの項目からなりたっているとする。その項目を以下「変数」とよぶ)
・データの中にある「既存の変数」のうちの1つの変数を、他の変数を使って予測したいとき、
その予測したい1つの変数を目的変数(他にも言い方あるけど、ここでは目的変数とする)
目的変数を説明する他の変数を説明変数(他にも言い方あるけど、ここでは説明変数とする)
として、説明変数から目的変数を求めるのが、「回帰分析」
つまり、回帰分析は目的変数という「既存の(観測項目にある)変数」を求めている
・一方、変数がたくさんあって扱いづらいから、これらを代表する1つの「新しい変数」を作ろうかというのが、
主成分分析。この新しい変数は、観測変数の代表する値(主成分)であって、これが1つで言い表せればいいんだけど
漏れるときは、その代表する値と無関係な(関係があると回帰曲線のように傾きがでる。無関係=傾きない=)直交成分を
次の代表地、さらに直交する・・・「新しい変数」を増やす
とはいえ、代表する値だから、全ての変数よりかは少ない変数にする。つまり、次数削減する
つまり、主成分分析は、そのデータを代表する主成分という「新しい変数」を求める
・因子分析も次数削減になるけど、目的が違う。
観測変数は、共通の要素と変数個別の要素を合わせたものと考え、
共通の要素(これは観測変数でい、目に見えない変数なので、潜在変数という)
という「新しい変数」を求めるのが、因子分析
つまり、因子分析は、データの背後にある潜在因子(共通要素)という「新しい変数」をもとめる。
と、何を求めるかを説明したほうが、わかりやすいんでないかい?