原文:
www.kdnuggets.com/2021/06/10-mistakes-avoid-data-science-beginner.html
评论
由 Isabelle Flückiger,高级主管 | 国际顾问 | 演讲者 | 思想领袖 | 学习领导力 | 讲师 | 创业顾问
图片由 Steve Buissinne 提供,来自 Pixabay
1. Google 网络安全证书 - 快速进入网络安全职业轨道。
2. Google 数据分析专业证书 - 提升你的数据分析能力
3. Google IT 支持专业证书 - 支持你的组织的 IT
数据科学正在取得成功。全球成千上万的学生报名参加在线课程,甚至数据科学硕士项目。
数据科学领域是一个竞争激烈的市场,特别是在获得大科技公司(所谓的)梦想职位时。好消息是,你可以通过充分准备获得这种职位的竞争优势。
另一方面,有(过多的)MOOC、硕士项目、训练营、博客、视频和数据科学学院。作为初学者,你会感到迷茫。我应该参加哪个课程?我应该学习哪些主题?我需要关注哪些方法?我必须学习哪些工具和编程语言?
事实上,每个数据科学家都有她/他的个性化学习之旅,并且对这种学习路径存在偏见。因此,在不了解你的情况下,很难说出最适合你的方法。
但所有数据科学家都反复犯一些共同的错误。即使知道这些错误,你也无法完全避免它们,但最终可以更早地停止这些错误,并更快地回到成功的道路上。
基于我在数据科学领域超过 20 年的经验,领导最多 150 人的团队,并且仍在全球领先大学之一兼职讲授课程,我为你总结了避免常见错误的核心要点,以帮助你更快实现梦想。
错误按初学者数据科学家的学习进度排序。
我知道你被所有课程搞得不知所措,并且你尝试不犯任何错误。你想有效地投资时间和金钱,并选择承诺最快和最佳成功的方法。
不幸的是,没有像在任何技术和科学领域那样的即时成功,为了获得最佳成功,你将没有任何比较。
事实是,如今所有成熟的平台、学院和机构都有很好的课程。所以,不要过度考虑和分析课程。勇敢地选择一个,完成该课程,然后再选择另一个。
最关键的方面是开始和实践。你不能在这里犯错,因为你既不知道你的旅程,也不知道选择另一条路会有什么不同。没有人能告诉你这一点。完毕。
也重要的是要认识到学习是循环的,而非线性的。学习一门数据科学课程并不排除你同时学习另一门课程。
尽管有多年的经验,我仍然进行数据科学、机器学习和人工智能培训。在每一门看似“简单”的入门课程中,我都会发现一个新的方面和新的视角。这正是成为一个高需求的数据科学家的关键。就是理解一个主题的所有不同视角。
许多有志于数据科学的人员认为,简历上列出尽可能多的方法有助于更快找到工作。但事实正好相反。当申请工作时,如果你只开始学习数据科学六个月,对于每个招聘人员来说,很明显这只是空谈,没有实质内容。
如果我们看回归模型,有很多书籍专门讲回归。回归类型超过 50 种,每种都有不同的前提条件。因此,简历上只写“回归”并不能说明问题。此外,回归模型仍然是应用中最重要的模型,并且为数据科学的一般理解奠定基础。
你必须理解一个方法解决了什么;假设是什么;参数是什么意思;有哪些陷阱;等等。
根据简历和回归知识的描述,每个经验丰富的招聘人员——或如今的招聘算法——都可以识别你理解的深度。
只有对少数几种方法有深入的知识和经验,比知道很多方法但没有实质内容要好。
开始编码时,人们认为必须尽快开始编码和重新编程尽可能多的算法。同样,你应该专注于理解一些算法,而不是数量。
首先,你需要了解编码的前提条件:线性代数、数学归纳法、离散数学、几何学——是的,这些是优秀程序员的强项,但数据科学家常常忽视,统计学和概率论、微积分、布尔代数和图论。
我并不是通过更多编码变得更好和更快。我通过理解数学基础、审查他人的代码以及在不同数据和问题上运行和测试代码变得擅长编程。
是的,编码很重要,但更重要的是理解代码的(优秀)架构。这只能通过审查其他代码来学习。
一个事实是,代码越来越成为商品,甚至有无代码工具。差异将不再是能编码和不能编码之间,而是理解其架构和不理解之间。
我给你另一个例子:我假设你已经使用过 TensorFlow。但你了解它是什么吗?它做了什么?为什么它叫做“TensorFlow”?你知道什么是张量吗?不仅仅是张量积的机械计算,而是它在几何上的意义是什么?
学习数据科学是试错的过程。只有当你尽可能多地积累经验,犯错并解决问题时,你才会获得更深刻的理解。
理论是可以接受的且至关重要。你需要对基础知识有一定的理解。
不幸的是,在实践中,它很少像理论中那样运作。相反,它往往恰恰是你学到的不应该这样做的方式。
所以,你必须从头开始,使用实际的例子。通常,你会觉得还没准备好进行实践工作:基础知识不够或编程经验不足。
但我强烈建议:即使你觉得还没准备好做练习,也要从头开始。这不需要是一个全天或一周的项目。一个小的 1-2 小时项目就足够了。
你可以从像 RapidMiner 或 KNIME 这样的无代码工具开始,或者使用别人的代码并进行应用。例如,使用一个简单的情感分析代码来分析推文或产品描述。然后,你可以开始修改代码以适用于其他例子并比较结果。
当你作为小孩学习说话时,你是从单个词或两三个词的表达开始的。一步一步地,你建立了对语言的感觉。数据科学中的实践经验也是如此。
专家提示:学习是循环的。所以,保存你的工作。以后你可以回来,改进它,上传到 GitHub,并使用 Tableau 添加可视化。
认证是可以的。有很多声音告诉你不要做认证。但它们可以作为一种动力,并且最终它们可以正式展示你的进步和学习的渴望。我仍然会做证书。这没什么错,当你投入时间时,获得证书是合理的。
但这在市场上并不具备差异化。事实上,有成千上万的人拥有相同的证书。所以,要拥有竞争优势,你必须超越这些。
例如,我的一位学生找我寻求在金融领域实习的支持。他想应用所学知识,了解数据科学团队的文化和合作。我能帮他安排在一家银行实习,他将以此作为学期论文。是的,同时进行学习、实习和学期论文确实很有压力。但这将为他提供无价的竞争优势。
大多数有志成为数据科学家的人士担心其他数据科学家的看法。听到的争论越多,他们就越困惑。尽管困惑是通向清晰的必经之路,但它不应成为常态。
每个数据科学家都是一个具有个人经验、学习历程和职业路径的个体。我常说,“如果你有两个数据科学家在一个房间里,你就有至少四种不同的观点。”
采纳意见作为灵感和寻找信息的指导是好的,但不应将其视为信息本身。
寻找确凿的事实。得出逻辑结论,验证,并再次更新。这是成功推进数据科学职业生涯的重要技能。
许多数据科学家认为他们可以将方法应用于每一个问题和行业,但从超过 20 年的经验来看,我可以告诉你这是错误的。
我常常看到数据科学家向业务人员展示发现,而他们的反应是,“哦,我们已经知道这个了。我们需要的是‘为什么会这样’和‘如何解决’。或者在最坏的情况下,是‘这完全是胡说八道,因为这不是我们业务的运作方式。’哗啦!
拥有领域知识比掌握所有花哨的方法更为重要。数据科学家解决的是业务问题,而非技术问题。通过解决业务问题,你为公司的业务带来价值,而你所能带来的价值仅限于你的解决方案的价值。只有了解业务,你才能成功完成这项任务。
我在许多不同的行业工作过。每次在开始与业务接触之前,我都会大量阅读有关该行业的资料。
-
我从维基百科开始,了解了整体情况和相关公司。
-
我查看了行业前 10 家公司年度报告和投资者关系信息。
-
我阅读了过去几年关于这个行业和公司的所有新闻文章。
-
我联系了在这个行业工作的 LinkedIn 联系人。
只有到那时,我才开始与业务互动。
你的一半学习内容应包括行业和商业知识的发展。
很容易因为不理解主题而分心或早早放弃。学习数据科学是一个马拉松,而不是短跑。因此,建立一个持续和一致的学习例程至关重要。就像马拉松训练一样,你每天都在小单位进行训练。
如前所述,学习是循环的。曾经学习过的主题并不意味着你已经掌握它。
举个例子。在数学金融课程中,我必须学习许多极限定理。考试非常成功,我确信我理解了它们。但七年后,当我需要审查复杂结构金融产品的估值代码时,才恍若顿悟,意识到直到那时我才真正理解它。
因此,每天,或至少每周,预留几个小时用于学习。这无关你是有抱负的还是已经是高级数据科学家。
学习应包括新的数据科学主题、从不同视角(例如另一个课程或书籍)学习过的主题、新技术和技术趋势、行业和商业知识、数据可视化和数据讲故事,以及数据应用。
这增加了层层理解,在面试中,你将能够通过从不同角度展示整体视图来给出令人信服的回答。
在数据科学工作中,你将主要把你的发现传达给非技术人员,特别是业务人员。而业务部门为你的工作提供资金。如果没有他们的支持,你的工作和数据科学团队将不存在。
你的工作是为业务创造价值,而不是仅仅为了应用而应用华丽的方法。
我有一个朋友是全球一家银行的数据科学负责人。当他们招聘数据科学家时,他们会提前两周发送一个数据集,并要求做一个 20 分钟的演讲。没有进一步的指导。他们想看到讲故事的能力。他们不关心使用的方法——除非候选人对所用方法讲出绝对无稽之谈。他们想看到的是,首先是商业问题的框架及其解决的重要性。其次,应该解决什么,最后,如何解决以及在商业环境中的结果。“这是我们整天最重要的工作。候选人不必在这方面完美,但必须展示她/他理解我们工作的重点。”
所以,学习数据讲故事——甚至有免费的课程——并学习在商业背景下的数据可视化。
许多人认为可以通过自己的努力学习数据科学。其他数据科学家被视为竞争者,人们不愿意交换知识。
但仅在你选择的世界中阅读和学习是高度偏颇的,许多关于某一主题或方法的观点被遗漏了。此外,关于某个话题的开放讨论和获得辩论经验的机会也缺失了——这是任何数据科学家都需要的技能。
任何有经验的招聘人员都知道在一两个问题之后,你是一个单打独斗的人,还是有一个活跃的网络帮助你获取知识。这对公司有益,并提高了你的市场价值和需求。
因此,发展一个网络至关重要。这可以通过参加训练营、黑客马拉松和 Meetup 会议来实现。
现在,你理论上知道了应该避免什么。
这些错误中的任何一个都可能成为你数据科学工作的障碍。
我知道你仍然会犯这些错误。我也不例外。人们天性会认为“我与众不同”——尽管数据却显示相反。但意识到这些潜在的错误将帮助你更快地调整路径,从而更有效地成为一个受欢迎的数据科学家。
如何战略性地利用 Meetup 会议来获得你梦想的数据科学工作
你应该选择哪六个项目中的哪个?
为你和你的职业制定的行动计划
个人简介:Isabelle Flückiger 是一位高级执行官,具有国际 C 级顾问经验,专注于端到端数字、数据和新技术转型项目,具有银行、保险、化学品、公用事业和制药/生命科学等关键行业经验。
原文。经许可转载。
相关:
-
如何在 6 个月内找到数据分析工作
-
初学者的十大数据科学项目
-
数据科学在 10 年内不会灭绝,你的技能可能会