副标题[/!--empirenews.page--]

数据挖掘入门与实战 ?公众号: datadw
Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib),集成经典机器学习算法的Python模块。
一、统计学习:scikit-learn中的设置与评估函数对象
(1)数据集
scikit-learn 从二维数组描述的数据中学习信息。他们可以被理解成多维观测数据的列表。如(n,m),n表示样例轴,y表示特征轴。
使用scikit-learn装载一个简单的样例:iris数据集
>>from sklearn import datasets >>iris = datasets.load_iris() >>data = iris.data >>data.shape
(150,4)
它有150个iris观测数据构成,每一个样例被四个特征所描述:他们的萼片、花瓣长度、花瓣宽度,具体的信息可以通过iris》DESCR查看。
当数据初始时不是(n样例,n特征 )样式时,需要将其预处理以被scikit-learn使用。
通过数字数据集讲述数据变形 数字数据集由1797个8x8手写数字图片组成
>>>digits = datasets.load_digits() >>>digits.images.shape
(1797,8,8) >>> import pylab as pl
>>>pl.imshow(digits.images[-1],cmap=pl.cm.gray_r)
<matplotlib.image.AxesImage object at ...>
在scikit-learn中使用这个数据集,我们需要将其每一个8x8图片转换成长64的特征向量
python
>>>data = digits.images.reshape((digits.images.shape[0],-1))
(2)估计函数对象
拟合数据 :scikit-learn实现的主要API是估计函数。估计函数是用以从数据中学习的对象。它可能是分类、回归、聚类算法,或者提取过滤数据特征的转换器。
一个估计函数带有一个fit 方法,以dataset作为参数(一般是个二维数组)
>>>estimator.fit(data)
估计函数对象的参数 :每一个估测器对象在实例化或者修改其相应的属性,其参数都会被设置。
>>>estimator = Estimator(param1=1,param2=2) >>>estimator.param11
估测后的参数 :
>>>estimator.estimated_param_
二、有监督学习:从高维观察数据预测输出变量
有监督学习解决的问题 有监督学习主要是学习将两个数据集联系起来:观察数据x和我们要尝试预测的外置变量y,y通常也被称作目标、标签。多数情况下,y是一个和n个观测样例对应的一维数组。 scikit-learn中实现的所有有监督学习评估对象,都有fit(X,Y)方法来拟合模型,predict(X)方法根据未加标签的观测数据X 返回预测的标签y。
词汇:分类和回归 如果预测任务是将观测数据分类到一个有限的类别集中,换句话说,给观测对象命名,那么这个任务被称作分类任务。另一方面,如果任务的目标是预测测目标是一个连续性变量,那么这个任务成为回归任务。 用scikit-learn解决分类问题时,y是一个整数或字符串组成的向量 注意:查看[]快速了解用scikit-learn解决机器学习问题过程中的基础词汇。
(1)近邻和高维灾难
iris分类 : iris分类是根据花瓣、萼片长度、萼片宽度来识别三种不同类型的iris的分类任务:
>> import numpy as np >> from sklearn import datasets >> iris = datasets.load_iris() >> iris_X = iris.data>> iris_y = iris.target >> np.unique(iris_y)
array([0,1,2])
最近邻分类器 : 近邻也许是最简的分类器:得到一个新的观测数据X-test,从训练集的观测数据中寻找特征最相近的向量。(【】)
训练集和测试集 : 当尝试任何学习算法的时候,评估一个学习算法 的预测精度是很重要的。所以在做机器学习相关的问题的时候,通常将数据集分成训练集和测试集。
KNN(最近邻)分类示例:
# Split iris data in train and test data # A random permutation,to split the data randomlynp.random.seed(0)
indices = np.random.permutation(len(iris_X))
iris_X_train = iris_X[indices[:-10]]
iris_y_train = iris_y[indices[:-10]]
iris_X_test ?= iris_X[indices[-10:]]
iris_y_test ?= iris_y[indices[-10:]] # Create and fit a nearest-neighbor classifierfrom sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(iris_X_train,iris_y_train)
knn.predict(iris_X_test)
iris_y_test
高维灾难: 对于一个有效的学习算法,你需要最近n个点之间的距离d(依赖于具体的问题)。在一维空间中,需要平局n1/d各点,在上文中提到的K-NN例子中,如果数据只是有一个0-1之间的特征和n个训练观测数据所表述的画,那么新数据将不会超过1/n。因此,最近邻决策规则非常高效,因为与类间特征变化的范围相比,1/n小的多。
如果特征数是P,你就需要n 1/d^p个点。也就是说,如果我们在一维度情况下需要10个点,在P维度情况下需要10^p个点。当P变大的时候,为获得一个好的预测函数需要的点数将急剧增长。
这被称为高维灾难(指数级增长),也是机器学习领域的一个核心问题。
(2)线性模型:从回归到稀疏性
Diabets数据集(糖尿病数据集)
糖尿病数据集包含442个患者的10个生理特征(年龄,性别、体重、血压)和一年以后疾病级数指标。
diabetes = datasets.load_diabetes() diabetes_X_train = diabetes.data[:-20] diabetes_X_test = diabetes.data[-20:] diabetes_y_train = diabetes.target[:-20] diabetes_y_test = diabetes.target[-20:] 手上的任务是从生理特征预测疾病级数 线性回归: 【线性回归】的最简单形式给数据集拟合一个线性模型,主要是通过调整一系列的参以使得模型的残差平方和尽量小。
线性模型:y = βX+b ? ?X:数据
? ?y:目标变量
? ?β:回归系数 ? ?b:观测噪声(bias,偏差)
from sklearn import linear_model
regr = linear_model.LinearRegression()
regr.fit(diabetes_X_train,diabetes_y_train)print(regr.coef_) # The mean square errornp.mean((regr.predict(diabetes_X_test)-diabetes_y_test)**2)# Explained variance score: 1 is perfect prediction# and 0 means that there is no linear relationship# between X and Y.regr.score(diabetes_X_test,diabetes_y_test)
收缩(Shrinkage): 如果每一维的数据点很少,噪声将会造成很大的偏差影响:
X = np.c_[ .5,1].T
y = [.5,1]
test = np.c_[ 0,2].T
regr = linear_model.LinearRegression()import pylab as pl
pl.figure()
np.random.seed(0)for _ in range(6):
? this_X = .1*np.random.normal(size=(2,1)) + X
? regr.fit(this_X,y)
? pl.plot(test,regr.predict(test))
? pl.scatter(this_X,y,s=3) ?
高维统计学习的一个解决方案是将回归系数缩小到0:观测数据中随机选择的两个数据集近似不相关。这被称为岭回归(Ridge Regression):
regr = linear_model.Ridge(alpha=.1)
pl.figure()
np.random.seed(0)for _ in range(6):
? this_X = .1*np.random.normal(size=(2,s=3)
这是一个偏差/方差(bias/variance)的权衡:岭α参数越大,偏差(bias)越大,方差(variance)越小
我们可以选择α以最小化排除错误,这里使用糖尿病数据集而不是人为制造的数据:
alphas = np.logspace(-4,-1,6)from __future__ import print_functionprint([regr.set_params(alpha=alpha
? ? ? ? ? ?).fit(diabetes_X_train,diabetes_y_train,? ? ? ? ? ?).score(diabetes_X_test,diabetes_y_test) for alpha in alphas])
【注意】扑捉拟合参数的噪声使得模型不能推广到新的数据被称为过拟合。岭回归造成的偏差被称为正则化(归整化,regularization)
稀疏性: 只拟合特征1和特征2:
【注意】整个糖尿病数据包含11维数据(10个特征维,一个目标变量 ),很难对这样的数据直观地表现出来,但是记住那是一个很空的空间也许是有用的。
我们可以看到,尽管特征2在整个模型中占据很大的系数,但是和特征1相比,对结果y造成的影响很小。
(编辑:西安站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|