阿里云 |机器学习基础任务快速入门教程
3.切换到字段信息栏,如下图所示,可以查看输入表的字段名、数据类型和前100行数据的数值分布。 三.数据预处理 1.数据准备完成后,单击组件,在工具和数据预处理文件夹下将SQL脚本、类型转换、归一化组件拖到画布中,并拼接成如下实验。
2.单击SQL脚本组件,在画布右侧的SQL脚本输入栏中输入sql语句,根据每个字段的含义将字符型转为数值。 select age, (case sex when 'male' then 1 else 0 end) as sex, (case cp when 'angina' then 0 when 'notang' then 1 else 2 end) as cp, trestbps, chol, (case fbs when 'true' then 1 else 0 end) as fbs, (case restecg when 'norm' then 0 when 'abn' then 1 else 2 end) as restecg, thalach, (case exang when 'true' then 1 else 0 end) as exang, oldpeak, (case slop when 'up' then 0 when 'flat' then 1 else 2 end) as slop, ca, (case thal when 'norm' then 0 when 'fix' then 1 else 2 end) as thal, (case status when 'sick' then 1 else 0 end) as ifHealth from ${t1}; 3.单击数据转换组件,在画布右侧的字段设置页签,单击转换为double类型的列下方的选择字段,选择全部字段,将字段类型转换为double。 4.单击归一化组件,在画布右侧的字段设置页签,选择全部字段。完成后单击画布下方的运行,系统将自动开始运行实验,在运行过程中可右键查看各组件的输出。 5.在数据预处理文件夹下,将拆分组件拖到画布中,并拼接运行,如下图所示。 说明:此步骤的目的是将数据拆分成两份,80%作为模型训练集,20%作为模型预测集。 四.数据可视化1.在统计分析文件夹下,将全表统计组件拖入画布中,连接并运行,如下图所示。 2.待实验运行结束后,右键单击全表统计,选择查看数据,可看到数据的全表统计信息,如下图所示。 五.算法建模 1.在机器学习->二分类文件夹下,将逻辑回归二分类组件拖入画布。 2.在右侧的字段设置页签,将目标列设置为“ifhealth”,训练特征列选择除目标列以外的全部列,并拼接运行,如下图所示。 六.模型评估 1.在机器学习文件夹下,将预测组件拖入画布,并连接对应的组件流和数据流,如下图所示。 2.在机器学习->评估文件夹下,将二分类评估组件拖入画布。在画布右侧的字段设置页签,将原始标签列列名设置为“ifhealth”,并连接对应的组件流和数据流。 3.单击运行。完成后右键单击二分类评估组件,选择查看评估报告,单击图表页签,得到不同参数下训练的LR模型的ROC曲线,如下图所示。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |