0%

多元统计分析

多元统计分析

多元统计分析是一种应用降维思想,去寻找变量之间关系并给出评价的方法
上课没认真听讲,这部分不太懂
参考的教程

假设我们有如下数据

数据

如何对所有公司进行综合评价并排序呢?

  • X为n维观测变量,如上为4,其均值为$\mu$,协方差矩阵为$\sum$
  • 假定X可以表示为m个公共因子和n个特殊因子的线性组合

继续假设

  • $E(F)=0, Var(F)=E(FF^T)=I_m (不太理解$
  • $E(\varepsilon)=0, Var(\varepsilon) = E(\varepsilon\varepsilon^T)=\Psi=diag{\psi_1,\psi_2,\cdots,\psi_n}$
  • $cov(F,\varepsilon)=0$

在该假设下有(不清楚怎么推的)

  • $cov(Xi, F_j)=l{ij}$
  • $\sum = Var(X)= Var(LF+\varepsilon)=LL^T+\Psi$

主成分分析

运用参数估计的想法,估计$\sum$和$\Psi$

  • $\hat{L} =(\sqrt{\hat{\lambda_1}}\hat{e_1},\cdots,\sqrt{\hat{\lambda_m}}\hat{e_m})$
  • $\hat{\Psi}=diag(\hat{\psi1},\cdots,\hat{\psi_n}), \hat{\psi_i}=s{ii}-\sum{j=1}^{m}\hat{l{ij}}$
    其中$S$是样本协方差矩阵,$\lambda$是特征值,由大到小,$e$是对应的特征向量

简单粗暴的步骤

反正我也没搞懂,总之

  1. 求样本均值
  2. 求样本离差矩阵和样本相关矩阵
  3. 求矩阵特征值和标准化特征值向量
  4. 使用前m个比重加和大于P的特征值,此处P通常是0.8
  5. 根据选出来的因子求因子载荷阵
  6. 根据因子载荷阵将原始数据换算成主成分因子
  7. 根据主成分与特征值求得分