多元统计分析
多元统计分析是一种应用降维思想,去寻找变量之间关系并给出评价的方法上课没认真听讲,这部分不太懂
参考的教程
假设我们有如下数据
如何对所有公司进行综合评价并排序呢?
- X为n维观测变量,如上为4,其均值为$\mu$,协方差矩阵为$\sum$
- 假定X可以表示为m个公共因子和n个特殊因子的线性组合即
继续假设
- $E(F)=0, Var(F)=E(FF^T)=I_m (不太理解$
- $E(\varepsilon)=0, Var(\varepsilon) = E(\varepsilon\varepsilon^T)=\Psi=diag{\psi_1,\psi_2,\cdots,\psi_n}$
- $cov(F,\varepsilon)=0$
在该假设下有(不清楚怎么推的)
- $cov(Xi, F_j)=l{ij}$
- $\sum = Var(X)= Var(LF+\varepsilon)=LL^T+\Psi$
主成分分析
运用参数估计的想法,估计$\sum$和$\Psi$
- $\hat{L} =(\sqrt{\hat{\lambda_1}}\hat{e_1},\cdots,\sqrt{\hat{\lambda_m}}\hat{e_m})$
- $\hat{\Psi}=diag(\hat{\psi1},\cdots,\hat{\psi_n}), \hat{\psi_i}=s{ii}-\sum{j=1}^{m}\hat{l{ij}}$
其中$S$是样本协方差矩阵,$\lambda$是特征值,由大到小,$e$是对应的特征向量
简单粗暴的步骤
反正我也没搞懂,总之
- 求样本均值
- 求样本离差矩阵和样本相关矩阵
- 求矩阵特征值和标准化特征值向量
- 使用前m个比重加和大于P的特征值,此处P通常是0.8
- 根据选出来的因子求因子载荷阵
- 根据因子载荷阵将原始数据换算成主成分因子
- 根据主成分与特征值求得分