我们最近发布了一系列文章,探讨了顶级 Python 库,包括数据科学、深度学习和机器学习。随着一年即将结束,我们决定给你一个特别的圣诞礼物,将这些整理成 KDnuggets 官方的 2018 年顶级 Python 库。
一如既往,我们想听听你的意见!如果你认为我们遗漏了任何内容,或对我们的选择有不同看法,请在下面的评论区告诉我们。
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 工作
图 1:按 GitHub 星标和贡献者排名的顶级 Python 库。形状大小与提交次数成正比。
所以这就是我们 2018 年顶级的 15 个 Python 库(所有数据截至 2018 年 12 月 16 日):
1 – TensorFlow** (贡献者 – 1757, 提交 – 25756, 星标 – 116765)**
“TensorFlow 是一个开源的软件库,用于通过数据流图进行数值计算。图节点代表数学操作,而图边代表在节点之间流动的多维数据数组(张量)。这种灵活的架构使你能够将计算部署到一个或多个 CPU 或 GPU 上,无论是桌面、服务器还是移动设备上,无需重写代码。”
2 – pandas** (贡献者 – 1360, 提交 – 18441, 星标 – 17388)**
“pandas 是一个 Python 包,提供快速、灵活且富有表现力的数据结构,旨在使处理“关系型”或“标记”数据变得既简单又直观。它旨在成为在 Python 中进行实际的真实世界数据分析的基础高层构建块。”
3 – scikit-learn** (贡献者 – 1218, 提交 – 23509, 星标 – 32326)**
“scikit-learn 是一个建立在 NumPy、SciPy 和 matplotlib 上的 Python 机器学习模块。它提供了简单高效的数据挖掘和数据分析工具。SKLearn 对所有人开放,并可以在各种环境中重用。
4 – PyTorch** (贡献者 – 861,提交 – 15362,星标 – 22763)**
“PyTorch 是一个 Python 包,提供两个高级特性:
-
强大的 GPU 加速的张量计算(如 NumPy)
-
基于磁带自动梯度系统构建的深度神经网络
当需要时,你可以重用你喜欢的 Python 包,如 NumPy、SciPy 和 Cython 来扩展 PyTorch。
5 – Matplotlib** (贡献者 – 778,提交 – 28094,星标 – 8362)**
“Matplotlib 是一个 Python 2D 绘图库,可以生成各种硬拷贝格式和跨平台的交互环境中的出版质量图形。Matplotlib 可用于 Python 脚本、Python 和 IPython shell(类似 MATLAB 或 Mathematica)、Web 应用服务器以及各种图形用户界面工具包。”
6 – Keras** (贡献者 – 856,提交 – 4936,星标 – 36450)**
“Keras 是一个高层次的神经网络 API,用 Python 编写,能够在 TensorFlow、 CNTK 或 Theano 之上运行。它的开发重点是实现快速实验。* 能够以最少的延迟从想法到结果对于进行良好的研究至关重要。*”
7 – NumPy** (贡献者 – 714,提交 – 19399,星标 – 9010)**
“NumPy 是进行科学计算的基本包。它提供了强大的 N 维数组对象、复杂的(广播)函数、集成 C/C++ 和 Fortran 代码的工具以及有用的线性代数、傅里叶变换和随机数功能。”
8 – SciPy** (贡献者 – 676,提交 – 20180,星标 – 5188)**
“SciPy(发音为‘Sigh Pie’)是用于数学、科学和工程的开源软件。它包括统计、优化、积分、线性代数、傅里叶变换、信号和图像处理、常微分方程求解器等模块。”
9 – Apache MXNet** (贡献者 – 653,提交 – 9060,星标 – 15812)**
“Apache MXNet(孵化中)是一个旨在实现高效和灵活的深度学习框架。它允许你混合符号化和命令式编程 以最大化效率和生产力。MXNet 的核心包含一个动态依赖调度器,可以自动并行化符号化和命令式操作。”
10 – Theano** (贡献者 – 333, 提交次数 – 28060, 星标 – 8614)**
“Theano 是一个 Python 库,允许你高效地定义、优化和评估涉及多维数组的数学表达式。它可以使用 GPU 并执行高效的符号微分。”
11 – Bokeh** (贡献者 - 334, 提交次数 - 17395, 星标 - 8649)**
“Bokeh 是一个交互式可视化库,旨在为 Python 提供美观且有意义的数据展示。通过 Bokeh,你可以快速轻松地创建交互式图表、仪表盘和数据应用。”
12 – XGBoost** (贡献者 – 335, 提交次数 – 3557, 星标 – 14389)**
“XGBoost 是一个优化的分布式梯度提升库,旨在具有高效率、灵活性和便携性。它在 梯度提升 框架下实现了机器学习算法。XGBoost 提供了并行树提升(也称为 GBDT、GBM),以快速且准确的方式解决许多数据科学问题。相同的代码可以在主要的分布式环境(Hadoop、SGE、MPI)上运行,并解决超过数十亿个样本的问题。”
13 – Gensim** (贡献者 - 301, 提交次数 - 3687, 星标 - 8295)**
“Gensim 是一个用于 主题建模、文档索引 和 相似性检索 的大规模语料库的 Python 库。目标用户是 自然语言处理 (NLP)和 信息检索 (IR)社区。”
14 – Scrapy** (贡献者 – 297, 提交次数 – 6808, 星标 – 30507)**
“Scrapy 是一个快速的高级网页爬虫和网页抓取框架,用于爬取网站并从其页面提取结构化数据。它可用于从数据挖掘到监控和自动化测试的广泛用途。”
15 - Caffe** (贡献者 – 270, 提交次数 – 4152, 星标 – 26531)**
“Caffe 是一个深度学习框架,旨在表达性、速度和模块化。由 Berkeley AI Research (BAIR)/伯克利视觉与学习中心(BVLC)及社区贡献者开发。”
资源:
相关: