加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一图胜千言!这10种可视化技术你应该知道

发布时间:2019-07-25 00:31:17 所属栏目:教程 来源:读芯术
导读:副标题#e# 相比于浩如烟海的数据表格,大部分人还是更喜欢视觉资料,这一点已不足为奇。也是出于这个原因,人们通常才会在学术论文的前几页加上一张图表,并且清楚地标记上各种注释。 当数据科学家应用可视化技术后,数据的分布情况以及分析的重点将清楚而

一旦获得了这些有效信息,你就可以提出一系列的假设,并且对新的领域进行研究。例如,机器学习分类器能够对A药、C药,或者是X药的使用做出准确的预测。然而,由于Y药与所有的特征值都有关联,因此在做出预测之前需要补充其他的特征值。

一图胜千言!这10种可视化技术你应该知道

患者处方关系图

资料来源:https://ibm.box.com/s/rxixq3fto3bkmr7xi5t55pcbj9sb4der

6. 热图

另外一种能够把二维图升高一个维度的方法就是热图,这种方法同样很厉害并且色彩也比较丰富。在热图中会有一个矩阵或者地图显示,其上的颜色用来表示频率或者浓度。大部分的人都觉得热图非常直观,而且浅显易懂,因为图中颜色的浓度会显示出某些趋势以及需要特别关注的区域。

下面这幅热图展示的是在互联网电影数据库中,各电影名之间的编辑距离。某个电影名与其他电影名之间的编辑距离越远,它在图中显示的颜色就越深。比如就编辑距离而言,《超人》 (Superman) 就离《永远的蝙蝠侠》 (BatmanForever) 很远,离《超人2》 (Superman2) 很近。

一图胜千言!这10种可视化技术你应该知道

电影名编辑距离热图

7. 地图

如果你的数据里包含经度和纬度的信息,或者其它通过地理位置来组织数据的方法,比如邮政编码、区域代码、县级数据或者机场数据等,那么在这个时候,绘制地图将会非常有助于对数据的可视化处理。

还记得之前在介绍直方图时举的那个有关于恒温器折扣的例子吗?回想一下,不同的地区所享受的折扣是不同的。由于这些数据里包含经度和纬度的信息,因此我们可以把折扣情况绘制在一张地图上。然后,只要在地图上添加一个色谱,即从表示最低折扣的蓝色一直到表示最高折扣的红色,就可以将数据全部绘制到一张美国地图上。

恒温器折扣地图

恒温器折扣地图

资料来源:https://ibm.box.com/s/6fltz5ilap8pbwzu2tt1yxil6ldosc9d

8. 词云

其实目前,我们所研究的大量数据都是以自由文本的形式出现的,并且这种文本也相对简单。在对此类数据进行第一遍处理时,可能本想更加直观地了解这些词在语料库中出现的频率。然而,不论是直方图还是饼状图,都对于这些文字类的数据显得力不从心,而更适合分析数字数据的频率。因此在这种情况下,可以求助于词云。

在处理自由文本数据时,首先应过滤掉所有的停用词,比如像“a”、“and”、“but”、“how”等,并且将所有的文本统一转为小写。如果要进一步整理数据,就要进行额外的工作,比如移除变音符、提取词干等。但需不需要进行这一步,则具体视目标而定。一旦数据整理好了以后,就可以立刻使用词云可视化技术,来分析语料库中哪些词出现得最普遍。

以下,我们根据Large Movie Reviews Dataset数据库绘制了两个词云,一个展示的是好评,另一个展示的则是差评。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读