非常好,在该图中可看到很多信息。
- 工资和价值高度相关。
- 大多数其它值也是相关的,然而“潜力”与“价值”的比的趋势是不寻常的。可以看到,当到达特定的潜在阀值时,价值如何呈指数增长。这些信息对建模很有帮助,可以对“潜力”进行转换使其更具有相关性吗?
警告:没有分类列!
在此基础上能做得更好吗?总能做到。
- g = sns.pairplot(filtered_player_df[['Value','SprintSpeed','Potential','Wage','Club']],hue = 'Club')

图上的信息很多,只需添加“hue”参数到分类变量“club”中即可。
- 波尔图队的工资分配趋向于工资少的那一端。
- 该图无法看出波尔图队球员价值的急剧分布,波尔图队的球员们总是在寻求机会。
- 许多粉红点(代表切尔西队)在“潜力”和“工资”图上形成了一个集群。切尔西队有很多工资较低的高潜力球员,需要更多关注。
还可从工资/价值子图中获取一些信息。
年薪50万的蓝点是梅西。此外,比梅西更有价值的橙点是内马尔。
尽管该技巧仍然不能解决分类问题,但还有一些其它方法来研究分类变量分布,虽然是个例。
分类散点图
如何查看分类数据和数字数据之间的关系?
就像输入名字一样,输入分类散点图的图片。为每个类别绘制一组点,在y轴上稍微分散,以便于查看。
这是我们目前绘制这种关系的首选方法。
- g = sns.swarmplot(y = "Club",
- x = 'Wage',
- data = filtered_player_df,
- # Decrease the size of the points to avoid crowding
- size = 7)
- # remove the top and right line in graph
- sns.despine()
- g.figure.set_size_inches(14,10)
- plt.show()

分类散点图
为什么不用箱形图呢?中位数在哪?可以绘制出来吗?当然可以。在顶部覆盖一个条形图,就得到了一个好看的图形。
- g = sns.boxplot(y = "Club",
- x = 'Wage',
- data = filtered_player_df, whis=np.inf)
- g = sns.swarmplot(y = "Club",
- x = 'Wage',
- data = filtered_player_df,
- # Decrease the size of the points to avoid crowding
- size = 7,color = 'black')
- # remove the top and right line in graph
- sns.despine()
- g.figure.set_size_inches(12,8)
- plt.show()

有趣的分类散点图+箱形图
很好,在图表上可看出各个点的分布和一些统计数据,并能明确地了解工资差异。
图中最右边的点是梅西,这样一来,就不用通过图表下方的文字来说明。
该图可用来做演示,如果老板要求把梅西写在这张图上,那么就可加上图片注释。
- max_wage = filtered_player_df.Wage.max()
- max_wage_player = filtered_player_df[(player_df['Wage'] == max_wage)]['Name'].values[0]
- g = sns.boxplot(y = "Club",
- x = 'Wage',
- data = filtered_player_df, whis=np.inf)
- g = sns.swarmplot(y = "Club",
- x = 'Wage',
- data = filtered_player_df,
- # Decrease the size of the points to avoid crowding
- size = 7,color='black')
- # remove the top and right line in graph
- sns.despine()
- # Annotate. xy for coordinate. max_wage is x and 0 is y. In this plot y ranges from 0 to 7 for each level
- # xytext for coordinates of where I want to put my text
- plt.annotate(s = max_wage_player,
- xy = (max_wage,0),
- xytext = (500,1),
- # Shrink the arrow to avoid occlusion
- arrowprops = {'facecolor':'gray', 'width': 3, 'shrink': 0.03},
- backgroundcolor = 'white')
- g.figure.set_size_inches(12,8)
- plt.show()

带注释的统计信息和点群,可用于演讲中。
- 看看该图下方的波尔图队,工资预算如此之小,难以和其它高收入的球队们竞争。
- 皇马和巴塞罗那有许多高薪球员。
- 曼联的工资中位数最高。
- 曼联和切尔西注重平等,许多球员的工资水平都差不多。
- 虽然内马尔比梅西更受重视,但梅西和内马尔的工资差距巨大。
由此可知,在这个疯狂的世界中,有些正常只是表面的。
本文讨论了计算和读取不同变量类型之间的相关性、绘制数值数据之间的相关性、以及使用分类散点图绘制分类数据和数值数据之间的相关性。十分有趣的是,可以在Seaborn 中将图表元素叠加在一起。 (编辑:西安站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|