原文:
www.kdnuggets.com/2020/11/data-science-without-degree.html
评论
本文适合以下几类人群:
-
你没有高等教育学位,但你对数据科学感兴趣。
-
你没有 STEM 相关的学位,但你对数据科学感兴趣。
-
你在一个完全与数据科学无关的领域工作,但你对数据科学感兴趣。
-
你只是对数据科学感兴趣,并希望了解更多相关知识。
你可能会想,“我真的有机会吗?”
答案是,“是的,这是可能的。”
好消息是,你已经通过了第一步,那就是你对数据科学感兴趣。 现在这将不是一条容易的路,因为你是一个黑马,但把它作为每天激励自己的动力。
此外,我将提供一些我希望自己在刚开始时能够得到的建议。
首先,关于我自己一点……
我有一个商学学位,但从大学二年级开始就对机器学习产生了兴趣。因此,我自学了今天所知道的大部分内容,并有幸在一些数据分析/数据科学岗位上工作过。
我为什么告诉你这些?我想让你明确,我曾经也处于与你类似的境地!
记住,这是一个长期目标,因此你应该期望长期见到结果。如果你愿意全身心投入,我建议至少坚持一年,然后再决定是否继续。
说到这里,让我们深入探讨一下:
进入数据科学归结为两件事,成长和展示你的技能。
不久前,我写了一篇文章,“如果我能重新开始,我会如何学习数据科学。” 在这篇文章中,我将学习内容按主题进行了划分,即统计学与数学、编程基础和机器学习。
在这篇文章中,我将根据你的理解水平对应该学习的内容进行划分。
Level 0: 基础知识
你必须从基础知识开始,构建块,或者你想怎么称呼它都可以。但相信我,基础越扎实,你的数据科学之旅就会越顺利。
特别是,我建议你在以下主题中建立基础:统计学与概率论、数学和编程。
统计学和概率论: 如果你读过我以前的文章,可能已经听过千万次,但数据科学家实际上只是现代的统计学家。
-
如果你对统计学和数学几乎没有接触,我推荐Khan Academy 的统计学和概率论课程。
-
然而,如果你对微积分和积分有一定的了解,我强烈推荐你学习乔治亚理工学院的课程“统计方法”。虽然它讲解的证明较多,难度略高,但它会帮助你理解每个概念的复杂性。
数学: 根据你在高中时对数学的关注程度,决定了你需要花多少时间学习基础数学。你应该学习三个领域:微积分、积分和线性代数:
-
微积分在优化相关的任何内容中都是必不可少的(在数据科学中相当相关)。我推荐可汗学院的微积分课程。
-
积分在概率分布和假设检验中至关重要。我推荐学习可汗学院的积分课程。
-
线性代数在深度学习中尤其重要,但即便如此,对于其他基础机器学习概念,如主成分分析和推荐系统,也很有用。惊喜惊喜,你可以猜到我推荐哪个课程。链接在这里。
编程: 就像对数学和统计有基本了解很重要一样,掌握编程的核心基础将使你的生活变得轻松许多,特别是在实现阶段。因此,我建议你在深入研究机器学习算法之前,花时间学习基本的SQL和Python。
-
如果你完全没有 SQL 的基础,我建议你学习Mode 的 SQL 教程,因为它非常简洁且全面。
-
类似地,如果你完全没有 Python 的基础,Codecademy是一个很好的资源来熟悉 Python。
第 1 级:专业化
一旦你掌握了基础知识,你就可以开始专业化。此时,你可以决定是否专注于机器学习算法、深度学习、自然语言处理、计算机视觉等领域……
-
如果你想了解更多关于机器学习算法和实现的知识,我建议你查看Kaggle 的机器学习入门、斯坦福的机器学习课程或Udemy 的机器学习 A-Z 课程。查看一下,看看哪个最适合你!
-
如果你想深入了解深度学习,可以查看ai 的专门化课程。这是值得投资的!
-
如果你想深入了解 NLP,这里有 来自斯坦福大学和牛津大学的 5 个免费自然语言处理课程。
你可以专注的领域有很多,所以在做出决定之前,请多做探索!
第二级:实践
和其他任何事情一样,你必须练习你所学的知识,因为你会失去你不用的知识!以下是我推荐的 3 个资源,用于练习和提升你的技能。
-
Leetcode 是一个很棒的资源,帮助我学习了许多技能和技巧。我在找工作时大大依赖了这个资源,它是我会一直回去的资源。最好的部分是,它通常有推荐的解决方案和讨论板块,因此你可以学习到更高效的解决方案和技巧。
-
Pandas 练习题:这个资源是一个专门为 Pandas 提供练习题的仓库。通过完成这些练习题,你将学会:过滤和排序数据,汇总数据,使用 .apply() 操作数据,等等。
-
Kaggle 是世界上最大的 data science 社区之一,提供了数百个数据集供你选择。通过 Kaggle,你可以参加竞赛或仅仅利用可用的数据集来创建自己的机器学习模型。
学习数据科学是一回事,但人们常常忘记的是推销自己——你最终会想展示你所学的内容。如果你没有与数据科学相关的学位,这一点尤其重要。
一旦你完成了几个个人数据科学项目,下面是一些展示它们和推销自己的方法:
你的简历
首先,利用你的简历展示你的数据科学项目。我建议创建一个名为“个人项目”的部分,在这里列出你完成的两到三个项目。
同样,你可以在 LinkedIn 的“项目”部分添加这些项目。
Github 仓库
我强烈建议你创建一个 Github 仓库,如果你还没有的话。*既然我们谈到了 Github,学习 Git 也是一个好主意。*在这里,你可以包含你所有的数据科学项目,更重要的是,你可以与其他人分享你的代码。
如果你有一个 Kaggle 账户并在 Kaggle 上创建笔记本,这也是一个很好的替代方案。
一旦你有了活跃的 Kaggle 或 Github 账户,确保在你的简历、LinkedIn 和你的网站(如果有的话)上提供你的账户网址。
个人网站
说到网站,我强烈建议以网站形式建立数据科学作品集。HTML 和 CSS 非常容易学习,这将是一个有趣的项目!如果你没有时间,像 Squarespace 这样的工具也会很有效。
在 Medium 上写博客
我可能有些偏见,因为这个方法对我很有效,但这并不意味着我不能推荐博客写作!借助像 Medium 这样的平台,你可以撰写项目 walkthroughs,例如我在葡萄酒质量预测上的文章。
非营利机会
最后,利用非营利的数据科学机会。我遇到了一篇由 Susan Currie Sivek 撰写的有用文章, 提供了几个你可以参与真实数据科学项目的组织。
原文。经许可转载。
相关: