加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

十个技巧,让你成为“降维”专家

发布时间:2019-07-17 08:17:30 所属栏目:教程 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武
导读:副标题#e# 大数据文摘出品 来源:PLOS 编译:啤酒泡泡、刘兆娜、李雷、sirin、邢畅、武帅、钱天培 在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。 作为数据去噪简化的一种方法,它对处理大多数现代生物数据很有帮助。

相异性也可以用作t分布随机嵌入(t-SNE)的输入。与局部MDS类似,t分布随机嵌入(t-SNE)专门用于于表示短程交互。然而,该方法通过使用小尾的高斯核函数将所提供的距离转换为邻近度量,从而以不同的方式实现了局部性。目前,已经开发了一种基于神经网络的词向量(word2vec) 方法,该方法使用相似性数据(共现数据)来生成连续欧几里德空间中的对象的向量嵌入。 事实证明,这项技术在从由文本语料库衍生的数据中生成单词嵌入方面非常有效。 但是,这些高级计算方法的鲁棒性尚未在很多生物数据集上进行广泛测试。

技巧5:有意识地决定要保留的维数

在对数据进行降维时,关键问题是选择一个合适的新维度的数量。这一步决定了能否在在降维后的数据中捕获到感兴趣的信号,降维时维度数量的选择在统计分析或机器学习任务如聚类之前的数据预处理步骤中尤为重要。即使你的主要目标是进行数据可视化,但是由于可视化时一次只能显示两个或三个轴,你仍要选择降维后要保留的合适的新维度数量。例如,如果前两个或三个主成分对方差的解释不足时,就应该保留更多的成分,在这种时候就需要对成分的多种组合进行可视化(例如,成分1与成分2,成分2与成分4,成分3与成分5之间的对比等)。在某些情况下,最强信息是一个复杂的因子,并且有用的信息被高阶成分捕获。在这种情况,就必须使用高阶成分来显示其模式。

要保留的最佳维度数很大程度上取决于数据本身。在了解数据之前,您无法确定正确的输出维度数。请记住,最大的维度数量是数据集中记录数(行数)和变量数(列数)的最小值。例如,如果你的数据集包含10,000个基因的表达式,但只有10个样本,则降维时行不能超过10个(如果输入数据已居中,则为9个)。对于基于光谱分解的降维方法,例如主成分分析(PCA)或主坐标分析(PCoA),你可以根据特征值的分布情况来进行维度的选择。在实践中,人们在做决定时通常依赖于碎石图“scree plot”(见图1)和“肘部法则(也称为拐点法则)”。碎石图直观展示了输出结果中的每个特征的值,或者等价地展示,每个特征如一个成分对方差的解释比例。通过观察图形,你能够找到一个拐点,这个位置的特征的值比它之前紧挨着它的位置的值显著下降。或者,你可以观察特征值的直方图,并从所有特征中找出“脱颖而出”的值比较大的特征。马尔琴科—巴斯德分布(Marchenko-Pastur distribution)在形式上近似地模拟了大量随机矩阵的奇异值的分布。因此,对于记录数量和特征数量都很大的数据集,你使用的规则是只保留拟合的马尔琴科—巴斯德分布支持之外的特征值;但请记住,这仅在数据集至少包含数千个样本和数千个特征的情况下才可用。

十个技巧,让你成为“降维”专家

图1.碎石图

根据优化方法,特征值可用于确定保留多少维度是充分的。根据“肘部规则”,可以选择要保留的维度的数量。在上面的示例中,你应该保留前五个主成分。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读