十个技巧,让你成为“降维”专家
在许多情况下,可用的测量不是数值的,而是定性的或分类的。对应的数据变量表示类别,而不是数值数量,例如表型、队列成员、样本测序运行、调查应答评级等。当关注点是两个分类变量的水平(不同的值)之间的关系时,对应分析(CA)会用于分析列联表中类别的共现频率。如果有两个以上的分类变量时,多重对应分析(MCA)可以用来分析观测点之间的关系以及变量类别之间的联系。多重对应分析是对应分析的泛化,其本质就是将对应分析应用到一个将分类变量独热编码(one-hot encoding)的指示矩阵中。当输入数据既包括数值变量又包括分类变量时,则有两种策略可用。如果只有少数几个分类变量,那么可以对数值变量进行主成分分析处理,分类变量每个水平的平均值则可以通过投影为补充点(不加权)。另一方面,如果这个混合数据集包含大量的分类变量,则可以使用多因子分析法(MFA)。这个方法是对数值变量使用主成分分析,对分类变量使用多因子分析,然后加权并合并变量组的结果。 处理分类或混合数据的另一种方法是采用“最佳量化”的思想,利用PCA(即主成分分析法,下文直接采用PCA)对变量进行转换。由于目标是最大化方差,故传统PCA只能对数值型变量实行降维,不能作用在分类变量上。要想对定类(无序)或定序(有序)分类变量实行PCA降维,一种方式是将方差替换成由基于各类别的频数计算出的卡方距离(如在对应分析中),或者可以在执行PCA之前进行适当的变量变换。这里提供两种变量变换的方式:一种是将分类变量虚拟化编码为二分类特征;另一种是使用最佳缩放分类主成分分析法(CATPCA)。最佳缩放法的原理是将原有的分类变量进行类别量化,从而转换成新变量的方差最大化。通过最佳缩放可以将分类主成分分析转化成最优化问题,通过成分得分、成分加载和成分量化的交替变换,经过不断迭代使得量化后的数据和主成分之间的平方差最小。 最佳缩放的一个优点是它无需预先假定变量之间存在线性关系。 实际上,即使输入数据都是数值型时,分类主成分分析法在处理变量之间非线性关系的能力也很重要。 因此,当变量之间存在非线性关系且标准PCA只能解释方差的低比例时,最佳缩放法提供了可能的补救措施。 技巧4:使用嵌入方法降低输入数据的相关性和相异性 在既没有可用的定量特征也没有可用的定性特征时,用相异性(或相关性)度量的数据点之间的关系可以采用低维嵌入的方法进行降维。即使可以进行可变测量,计算相异性和使用基于距离的方式也是一种有效的方法。但要,你要确保你选择了一个能够最好地概括数据特征的相异度量标准。例如,如果源数据是二进制的,那就不能使用欧几里德距离,这时选择曼哈顿距离更好。但是,如果特征是稀疏,则应该优选Jaccard距离。 经典多尺度分析(cMDS)、主坐标分析(PCoA)和非度量多尺度分析(NMDS)使用成对数据之间的差异性来找到欧几里德空间中的嵌入,从而实现对所提供距离的最佳近似。尽管经典多尺度分析(cMDS)是一种类似于主成分分析(PCA)的矩阵分解方法,但非度量多尺度分析(NMDS)是一种力求仅保留相异性排序的优化技术。当对输入距离值的置信度较低时,后一种方法更适用。当相异性数据是非标准的、定性数据时,可以使用更专业的序数嵌入方法,可以参考Kleindessner和von Luxburg的详细讨论。当使用基于优化的多维缩放(MDS)时,可以选择仅通过局部交互将最小化问题限制在从数据点到其邻居(例如,k-最近邻)的距离。该方法称为“局部”MDS。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |