大数据架构详解:从数据获取到深度学习
基于实例的算法:基于实例的算法常常用来对决策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似性把新数据与样本数据进行比较,从而找到最佳的匹配。因此,基于实例的算法常常被称为“赢家通吃学习”或者“基于记忆的学习”。常见的算法包括k-Nearest Neighbor(kNN)、学习矢量量化(Learning Vector Quantization,LVQ)及自组织映射算法(Self-Organizing Map,SOM)等。 正则化算法:正则化算法是其他算法(通常是回归算法)的延伸,根据算法的复杂度对算法进行调整。正则化算法通常对简单模型予以奖励,而对复杂算法予以惩罚。常见的算法包括Ridge Regression、Least Absolute Shrinkage and Selection Operator(LASSO)及弹性网络(Elastic Net)等。 决策树算法:决策树算法根据数据的属性采用树状结构建立决策模型,常用来解决分类和回归问题。常见算法包括分类及回归树(Classification and Regression Tree,CART)、ID3(Iterative Dichotomiser 3)、C4.5、Chi-squared Automatic Interaction Detection(CHAID)、Decision Stump、随机森林(Random Forest)、多元自适应回归样条(MARS)及梯度推进机(GBM)等。 贝叶斯算法:贝叶斯算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见的算法包括朴素贝叶斯算法、平均单依赖估计(Averaged One-Dependence Estimators,AODE)及Bayesian Belief Network(BBN)等。 基于核的算法:基于核的算法中最著名的莫过于支持向量机(SVM)。基于核的算法是把输入数据映射到一个高阶的向量空间,在这些高阶向量空间里,有些分类或者回归问题能够更容易地解决。常见的基于核的算法包括支持向量机(Support Vector Machine,SVM)、径向基函数(Radial Basis Function,RBF)及线性判别分析(Linear Discriminate Analysis,LDA)等。 聚类算法:聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所有的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类。常见的聚类算法包括K-Means算法及期望最大化算法(EM)等。 关联规则学习:关联规则学习通过寻找最能够解释数据变量之间关系的规则,来找出大量多元数据集中有用的关联规则。常见的算法包括Apriori算法和Eclat算法等。 人工神经网络算法:人工神经网络算法模拟生物神经网络,是一类模式匹配算法,通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法(深度学习就是其中的一类算法)。常见的人工神经网络算法包括感知器神经网络、反向传递、Hopfield网络、自组织映射及学习矢量量化等。 深度学习算法:深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天,深度学习算法试图建立大得多也复杂得多的神经网络。很多深度学习算法是半监督式学习算法,用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括受限波尔兹曼机(RBN)、Deep Belief Networks(DBN)、卷积网络(Convolutional Network)及堆栈式自动编码器 (Stacked Auto-encoders)等。 降低维度算法:与聚类算法一样,降低维度算法试图分析数据的内在结构,不过降低维度算法通过非监督式学习,试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化,或者用来简化数据以便监督式学习使用。常见的降低维度算法包括主成分分析(Principle Component Analysis,PCA)、偏最小二乘回归(Partial Least Square Regression,PLSR)、Sammon映射、多维尺度(Multi-Dimensional Scaling,MDS)及投影追踪(Projection Pursuit)等。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |