评论
图片由 Héizel Vázquez 提供
我多年来一直在寻找一个可以运行数据科学项目的平台,而不必为安装和填满电脑上各种工具和环境而烦恼。
1. Google 网络安全证书 - 快速进入网络安全职业生涯
2. Google 数据分析专业证书 - 提升你的数据分析水平
3. Google IT 支持专业证书 - 支持你的组织 IT
幸运的是,我发现 MatrixDS 提供了所有这些功能,并且是免费的!在这篇文章中,我将测试几乎所有他们提供的工具,这样你就不必这样做了。
项目在平台上是公开的,你可以在这里查看:
MatrixDS 是一个用于构建、分享和管理各种规模的数据项目的平台。 community.platform.matrixds.com
如果你想试用,只需将其叉车加载即可。
还有一个 GitHub 仓库:
FavioVazquez/matrix_languages_tools
测试 MatrixDS 的不同工具和语言。贡献于 FavioVazquez/matrix_languages_tools 开发… github.com
Jupyter Notebook
我目前最喜欢的编程语言是 Python。使用这种语言有很多很棒的工具和功能。其中一个最受欢迎的工具是 Jupyter Notebook。要在 MatrixDS 中启动笔记本,请执行以下操作:
-
转到平台中的工具标签。
-
编程愉快 ;)
在笔记本内部,你可以随意做任何事情。我创建了一个简单的 Python 笔记本来测试 PySnooper,你可以尝试一下。
这是该笔记本的要点,你可以在 MatrixDS 项目中找到:
Jupyter Lab
JupyterLab 是 Project Jupyter 的下一代基于网页的用户界面。它就像是升级版的 Jupyter Notebooks。
在 MatrixDS 中启动一个笔记本,请执行以下操作:
-
转到平台上的工具标签。
-
更加有趣 :)
我在 JupyterLab 实例中创建了一个简单的 Python 笔记本进行测试,你可以尝试一下。
如果你到现在为止一直关注我,这就是你应该看到的:
哦,顺便说一句,如果你想知道如何在 MatrixDS 中使用 git,请查看这篇文章:
[用 Optimus 进行数据科学。第二部分:设置你的 DataOps 环境。
*用 Python、Spark 和 Optimus 分解数据科学。今天:数据科学的数据操作。 ..::第一部分在这里…*towardsdatascience.com](https://towardsdatascience.com/data-science-with-optimus-part-2-setting-your-dataops-environment-248b0bd3bce3)
我创建的测试笔记本测试了新的库 fklearn,用于功能性机器学习。这里是该笔记本的要点,你可以在 MatrixDS 项目中找到:
www.computerworld.com/video/series/8563/do-more-with-r
我开始我的数据科学职业生涯时使用了 R。它是进行数据分析、数据清理、绘图等的绝佳工具。我认为现在机器学习部分用 Python 更好,但要成为成功的数据科学家,你需要同时掌握这两者。
要在 MatrixDS 中启动 RStudio,请执行以下操作:
-
转到平台上的工具选项卡。
-
玩 R 很有趣 :)
我创建的测试 R 环境正在测试一个名为 g2r 的新库,该库使用 g2 创建互动可视化图形。
顺便说一下!我在运行 g2r 之前必须这样做:
sudo su
apt-get install libv8-dev
所以,通常你需要这样做以获得 ggplot2 图:
library(ggplot2)
ggplot(iris, aes(Petal.Length, Petal.Width, color = Species)) +
geom_point() +
facet_wrap(.~Species)
然后你将会得到:
不算太糟,但如何为其添加互动性呢?使用 g2r 很简单。这是实现该功能的代码:
library(g2r)
g2(iris, asp(Petal.Length, Petal.Width, color = Species)) %>%
fig_point() %>%
plane_wrap(planes(Species))
然后你将会得到:
在代码中你需要更改:
aes -> asp
geom_point() -> fig_point()
facet_wrap(.~Species) -> plane_wrap(planes(Species))
我仍在想为什么他们没有使用相同的 API,不过这是一个非常酷的项目。你可以在这里查看更多示例:
开始使用 g2r,发现它与 ggplot2 的相似之处,并查看一些示例来指导你… g2r.dev
这是所有代码:
install.packages("remotes")
remotes::install_github("JohnCoene/g2r")
# So normally this is what you do for getting a plot with ggplot2
library(ggplot2)
ggplot(iris, aes(Petal.Length, Petal.Width, color = Species)) +
geom_point() +
facet_wrap(.~Species)
# Now with g2r
library(g2r)
g2(iris, asp(Petal.Length, Petal.Width, color = Species)) %>%
fig_point() %>%
plane_wrap(planes(Species))
当我在两年前攻读物理硕士学位时,我真的认为 Julia 会彻底改变科学编程世界。不要误会我,它确实做得很棒,但我认为 Python 的新进展已经让这个项目在很多方面处于第二位。
为测试 MatrixDS 的 Julia 能力,我想了解一下该语言的数据库。你可以在下面看到。
要在 MatrixDS 中启动 Julia Notebook,请执行以下操作:
-
转到平台上的工具选项卡。
-
选择 Julia 1.1.0 和 JupyterLab:
-
让我们用 Julia :) (听起来有点奇怪)
这是我为测试 Julia 在数据科学中的能力而创建的笔记本:
在这里我测试了一些库,如 DataFrames、Gadfly、Queryverse、Vega 用于绘图等 :)
如你所见,对我来说,这是在云端进行数据科学的最完整平台。你只需最低配置,甚至可以通过 docker 安装自己的工具。
还有很多内容需要涵盖和在平台上做的事情,我将在其他文章中进行。如果你想和我保持联系,请在这里关注我:
Favio Vázquez (@FavioVaz) | 推特
*Favio Vázquez (@FavioVaz) 的最新推文。数据科学家。物理学家和计算工程师。我有一…*twitter.com](https://twitter.com/faviovaz)
简介:Favio Vazquez 是一位物理学家和计算机工程师,专注于数据科学和计算宇宙学。他对科学、哲学、编程和音乐充满热情。他是 Ciencia y Datos 的创始人,这是一个西班牙语的数据科学出版物。他喜欢新挑战,喜欢与优秀团队合作,并解决有趣的问题。他参与了 Apache Spark 的协作,帮助进行 MLlib、Core 和文档工作。他喜欢应用自己的知识和专业技能于科学、数据分析、可视化和自动学习,致力于让世界变得更美好。
原文。经许可转载。
相关:
-
Julia 的顶级机器学习项目
-
数据科学笔记本使用最佳实践
-
在 Jupyter 中运行 R 和 Python