在Fedora上搭建Jupyter和数据科学环境

发布时间：2019-07-09 20:37:27 所属栏目：建站来源：Avi Alkalay

导读：副标题#e# 在过去，神谕和魔法师被认为拥有发现奥秘的力量，国王和统治者们会借助他们预测未来，或者至少是听取一些建议。如今我们生活在一个痴迷于将一切事情量化的社会里，这份工作就交给数据科学家了。数据科学家通过使用统计模型、数值分析，以及统计

StatsModels 为统计学和经济计量学的数据分析问题（例如线形回归和逻辑回归）提供算法支持，同时提供经典的时间序列算法家族 ARIMA。

Normalized number of passengers across time (blue) and ARIMA-predicted number of passengers (red)

Normalized number of passengers across time (blue) and ARIMA-predicted number of passengers (red)

Scikit-learn

作为机器学习生态系统的核心部件，Scikit 为不同类型的问题提供预测算法，包括回归问题（算法包括 Elasticnet、Gradient Boosting、随机森林等等）、分类问题和聚类问题（算法包括 K-means 和 DBSCAN 等等），并且拥有设计精良的 API。Scikit 还定义了一些专门的 Python 类，用来支持数据操作的高级技巧，比如将数据集拆分为训练集和测试集、降维算法、数据准备管道流程等等。

XGBoost

XGBoost 是目前可以使用的最先进的回归器和分类器。它并不是 Scikit-learn 的一部分，但是却遵循了 Scikit 的 API。XGBoost 并没有针对 Fedora 的软件包，但可以使用 pip 安装。使用英伟达显卡可以提升 XGBoost 算法的性能，但是这并不能通过 pip 软件包来实现。如果你希望使用这个功能，可以针对 CUDA （LCTT 译注：英伟达开发的并行计算平台）自己进行编译。使用下面这个命令安装 XGBoost：

$ pip3 install xgboost --user

Imbalanced Learn

Imbalanced-learn 是一个解决数据欠采样和过采样问题的工具。比如在反欺诈问题中，欺诈数据相对于正常数据来说数量非常小，这个时候就需要对欺诈数据进行数据增强，从而让预测器能够更好地适应数据集。使用 pip 安装：

$ pip3 install imblearn --user

NLTK

Natural Language toolkit（简称 NLTK）是一个处理人类语言数据的工具，举例来说，它可以被用来开发一个聊天机器人。

SHAP

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页