Python,Numpy,Pandas…数据科学家必备排序技巧
通过df.sort_values(by = my_column)对Pandas DataFrame进行排序。有许多可用关键字参数。
按照相同的句法对Pandas系列进行排序。用Series时,不需要输入by关键字,因为列不多。 Pandas用到了Numpy计算法,动动手指即可轻松获得同等优化的排序选项。但是,Pandas操作需要更多的时间。 按单列排序时的默认设置是Numpy的quicksort。如果排序进度很慢,那么实际为内省排序的quicksort会变为堆排序。Pandas确保多列排序使用Numpy的mergesort。Numpy中的mergesort实际用的是Timsort和Radix排序算法。这些排序算法都很稳定,而且多数列排序中稳定排序是很有必要的。 使用Pandas需记住的关键内容:
在进行探索性数据分析时,常发现自己是用Series.value_counts()在Pandas DataFrame中对值进行求和排序的。这是一个代码片段,用于每列常用值的求和和排序。
Dask,实际上是用于大数据的Pandas,到2019年中期还没有实现并行排序,尽管大家一直在讨论这个。 对小数据集进行探索性数据分析,Pandas排序是个不错的选择。当数据很大,想要在GPU上并行搜索时,你也许会想到TensorFlow或PyTorch。 TensorFlow ![]() TensorFlow是最受欢迎的深度学习框架。以下是TensorFlow 2.0的简介。 tf.sort(my_tensor)返回tensor排序副本。可选参数有:
(编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |