Skip to content

Latest commit

 

History

History
71 lines (36 loc) · 5.77 KB

getting-started-python-data-analysis.md

File metadata and controls

71 lines (36 loc) · 5.77 KB

开始使用 Python 进行数据分析

原文:www.kdnuggets.com/2017/07/getting-started-python-data-analysis.html

一位朋友最近问了这个问题,我认为如果在这里发布可能会对其他人有帮助。这是为那些对 Python 完全陌生的人准备的,旨在提供从零到一的最简单路径。

  1. 下载适用于你的操作系统的 Python 3.X 版本的 Anaconda 发行版,点击这里。选择这个预打包的发行版可以避免很多安装相关的问题。它附带了大多数重要的数据分析包。

  2. 一旦安装完成,测试以确保默认的 Python 解释器是你刚刚安装的那个。这很重要,因为你的系统可能已经安装了一个 Python 版本,但它不包含 Anaconda 包中的所有好东西,因此你需要确保新安装的版本是默认的。在 Mac/Linux 上,这可能意味着在终端中输入 which python。或者你可以直接运行 Python 解释器,确保版本与你下载的一致。如果一切顺利,安装时应该已经完成。如果没有,你需要在这里停止并修复它。

  3. 在你的 shell 中输入 jupyter notebook 命令。这应该会打开一个浏览器窗口。如果没有,打开浏览器并导航到 http://localhost:8888。在那里,创建一个新的 Python 笔记本。

  4. 前往 www.kaggle.comkernels 部分,并筛选 Python kernels。这些大多是其他人在 Kaggle 网站上免费提供的数据集上进行分析或构建模型的 jupyter 笔记本。寻找标题中包含 EDA(探索性数据分析)的笔记本,而不是那些构建预测模型的笔记本。找一个感兴趣的,开始在你的笔记本中重建它。

注意:你会发现当你尝试重建这些分析时会遇到导入错误。这可能是因为他们安装了不包含在 Anaconda 发行版中的包。你最终需要学习如何与 conda 包管理器交互,这将是你将来需要面对的众多问题之一。通常只需使用 conda install <package_name>,但你需要找到正确的包名称,有时还需要指定其他详细信息。有时你还需要使用 pip install <other_package_name>,但这些都将在后面学习。

高级库总结

这是你将频繁互动的重要库的快速总结。

  1. NumPy:具有很多科学计算的核心功能。在底层调用的是 C 编译代码,因此比用 Python 编写的相同函数要快得多。不是最用户友好的。

  2. SciPy:类似于 NumPy,但提供了更多从分布中抽样、计算检验统计量等的手段。

  3. MatPlotLib:主要的绘图框架。一个必要的恶习。

  4. Seaborn:在 MatPlotLib 后导入,它会默认使你的图表更美观。虽然也有自己的功能,但我发现最酷的功能运行得太慢。

  5. Pandas:主要是对 NumPy/SciPy 的一个简单封装,使其更易于使用。非常适合与称为 DataFrame 的数据表交互。还提供了绘图功能的封装,以便快速绘图,同时避免了 MPL 的复杂性。我主要使用 Pandas 来处理数据。

  6. Scikit-learn:拥有许多监督和无监督机器学习算法。还提供许多用于模型选择的指标和一个很好的预处理库,用于执行如主成分分析或编码分类变量等任务。

快速提示

  1. 在 jupyter 笔记本中,在运行单元格前在任何对象前加上问号,它将打开该对象的文档。当你忘记了你尝试调用的函数需要你传递哪些参数时,这非常有用。例如,?my_dataframe.apply 将解释 pandas.DataFrame 对象的 apply 方法,这里用 my_dataframe 代表。

  2. 你可能总是需要参考你使用的任何库的文档,所以最好在浏览器中保持文档打开。因为可选参数和细节太多了。

  3. 在不可避免的故障排除任务中,stackoverflow 可能有答案。

  4. 接受你将会做一些你暂时无法完全理解的事情,否则你可能会被那些不重要的细节所困扰。有一天你可能需要了解虚拟环境,这其实并不难,但有许多这样的绕道会给刚入门的人带来不必要的痛苦。

  5. 阅读其他人的代码。这是学习规范和最佳实践的最佳方式。这就是 Kaggle 内核真正有帮助的地方。GitHub 还支持在浏览器中显示 jupyter 笔记本,因此网络上有大量的示例。

原文。已获得许可转载。

简介: Zak Jost 是亚马逊网络服务公司在西雅图地区的研究科学家。

相关:

  • 相关性介绍

  • 掌握 Python 数据准备的 7 个步骤

  • 数据科学基础:从数据中可以挖掘出哪些模式?

更多相关话题