非监督学习最强攻略
高斯混合模型的核心思想,每个单独的分模型都是标准高斯分布模型,其均值和方差都是待估计的参数,还有一个参数π,可以理解为权重(or 生成数据的概率),其公式为: 它是一个生成式模型,并且通过EM算法框架来求解,具体的迭代过程如下: 首先,初始随机选择各个参数的值(总共3个参数,均值、方差和权重),然后迭代下面两步,直到收敛: 1)E步骤:根据当前的参数,计算每个点由某个分模型生成的概率。 2)M步骤:使用E步骤估计出来的概率,来改进每个分模型的均值、方差和权重。 高斯混合模型与K-Mean算法的相同点: 1)他们都是用于聚类的算法,都需要指定K值; 2)都是使用EM算法来求解; 3)往往都是得到局部最优。 而它相比于K-Mean算法的优点,就是它还可以用于概率密度的估计,而且可以用于生成新的样本点。 生成式模型(Generative Model):对联合分布概率p(x,y)进行建模,常见生成式 模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA 等。 判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,常见判 别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等。 自组织映射神经网络 自组织映射神经网络(Self-Organizing Map,SOM)是无监督学习方法中的一类重要方法,可以用于聚类、高维可视化、数据压缩、特征提取等等用途,因为提出者是Teuvo Kohonen教授,因此也被称为Kohonen网络。 讲SOM之前,先科普一些生物学研究: 1)在人脑的感知通道上,神经元组织是有序排列的; 2)大脑皮层会对外界特定的信息在特定的区域产生兴奋; 3)在生物神经系统中存在着一种侧抑制现象,即一个神经细胞兴奋后,会对周围其他神经细胞产生抑制作用,这种抑制作用会使得神经细胞之间出现竞争,其结果是某些获胜,某些失败,表现则为获胜细胞兴奋,失败细胞抑制。 而我们的SOM就是对以上的生物神经系统功能的一种人工神经网络模型。 SOM本质上是一个两层神经网络,包含输入层和输出层。输入层模拟感知外界输入信息,输出层模拟做出响应的大脑皮层。 1)输出层中,神经元的个数就是聚类的个数; 2)训练时采用"竞争学习"的方式,每个输入的样本,都会在输出层中找到与之最为匹配的节点,这个节点被称之为"激活节点"(winning neuron); 3)紧接着采用随机梯度下降法更新激活节点的参数,同时适当地更新激活节点附近的节点(会根据距离远近选择更新的"力度"); 4)上面说到的"竞争学习",可以通过神经元之间的横向抑制连接(负反馈路径)来实现。 一般,SOM模型的常见网络结构有两种,分别是一维和二维的: SOM的自组织学习过程,可以归纳为下面几个子过程: 1)初始化:所有连接权重都用小的随机值进行初始化。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |