原文:
www.kdnuggets.com/2020/12/6-things-data-science-employers.html
评论
照片由 Kristina Flour 提供,来源于 Unsplash。
1. 谷歌网络安全证书 - 加速你的网络安全职业发展。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
我想揭示一下作为数据科学家的阴暗面。这篇文章并不是为了打击你,但和其他任何工作一样,数据科学作为职业也有它的不足之处。我认为重要的是你要了解这些事情,这样当你在生活中遇到它们时,不会像我一样被击得措手不及!
根据你的个性和兴趣,你可能不会觉得这些事情有多糟,这是一件好事!那么,话虽如此,这里是雇主不希望你知道的 6 件关于数据科学的事。
你阅读关于数据科学的材料越多,就越会意识到数据科学的广度。事实上,它广泛到有专门讨论各种数据科学职位的文章(数据科学家、数据分析师、决策科学家、研究科学家、应用科学家、数据工程师、数据专家……你明白了)。
此外,由于数据科学是一个多学科领域,“数据科学”这一术语涵盖了各种各样的技能,这些技能很可能超出了你一生中能够精通的范围。
因此在你数据科学的旅程中一定要记住这些事情……
-
保持开放的心态,不要过于专注于数据科学的光鲜部分。例如,如果你发现自己在查询表格或从事数据架构工作,而不是进行机器学习模型的工作,不要气馁。任何与数据相关的技能都是宝贵的技能,并且很可能在未来会派上用场!
-
与第一点类似,数据科学没有固定的路径。因此,抓住你遇到的任何机会,从每个机会中尽可能多地学习。你获得的经验越多,未来你可以选择的机会也就越多。
-
作为最后的总括性陈述,尽量不要在你足够有经验和知识之前对你想做的事情设定过于严格的期望。乞丐不能挑肥揸瘦!
总结: 在你的数据科学旅程中保持开放的心态。它不仅仅是关于建模的。
当我刚开始我的职业生涯时,我总是认为 SQL 是只有数据分析师才会使用的技能。由于我最初有这种心态,我从未真正欣赏我在 SQL 上发展的知识。
这不是你应该思考 SQL 的方式!
如果你从事与数据相关的工作,无论是否为数据科学职位,SQL 永远不会离开你。
作为数据科学家,如果你想构建机器学习模型,你需要数据,这意味着你要么需要查询数据,要么需要在数据尚不存在时构建数据管道。了解 SQL 是至关重要的,以确保你的数据是稳健和可扩展的。
总结: SQL 永远是你最好的朋友,所以确保你花时间掌握它。
如果你曾经在 Kaggle 上处理过数据,现实世界完全不同。在 Kaggle 上,数据通常是干净的,每个表都有描述,每一列和特征名称都比较直观。
现实世界并非如此。你不仅可能不会有我上面列出的任何问题,而且你可能一开始就没有可靠的数据。
我写了一篇文章,标题为 我必须处理的 10 个非常混乱的数据例子,但这里给出几个例子:
-
处理不同拼写的类别,例如,美国、USA、US、美利坚合众国。
-
处理逻辑被破坏的数据。例如,如果有一条记录显示某用户在未重新安装的情况下两次卸载了同一个应用……真是让人感到困惑。
-
处理不一致的数据。例如,一张表可能告诉我我们的月收入是 50,000 美元,但另一张类似的信息表可能显示我们的月收入是 50,105 美元。
总结: 你大部分时间将花在清理数据上。你很可能无法直接跳到建模阶段。
不论你愿意与否,数据科学家实际上就是一个业务分析师。为什么?因为你需要对你所从事的领域和当前的业务问题有全面的理解。没有这些,你将错过关键的关系、假设和变量,这可能是 65%准确模型与 95%准确模型之间的差别。
例如,如果你是市场部门的数据科学家,你必须完全了解每种营销渠道,包括它的目的、在营销漏斗中的位置、通常吸引的用户类型,以及用于评估该渠道的指标。
举个例子,贸易展会通常比附属营销(CAC 更高)要贵。然而,来自贸易展会的客户的LTV 也更高。如果你只构建了一个关注 CAC 的模型,你可能会提供不完整的信息,导致不再通过贸易展会进行营销。
简而言之: 在开始任何模型构建之前,应该花费大量时间了解你所工作的业务问题和领域。
我之前说过,专注于少数几个工具并把它们做得非常好是更好的。我依然坚持这一观点,但悲哀的现实是,你的雇主很可能会期望你在工作中不断发展和学习更多工具。
你应该很好地掌握你的基本工具。这包括 Python、SQL 和 Git,以及几个 Python 库,如 Pandas、NumPy、scipy、scikit-learn 等等。
不过,如果你的雇主要求你尽快学习新工具,比如 Airflow、Hadoop、Spark、TensorFlow、Kubernetes 等等,不要感到惊讶。
此外,如果你在职业生涯中更换雇主,你很可能需要学习一套新的工具,因为每家公司都有自己期望的技术栈,所以在选择新雇主时要注意这一点。
简而言之: 学习永无止境。如果你不喜欢这个声音,数据科学可能不适合你。
这个点主要是针对那些认为成为数据科学家就是可以整天待在房间里建模的人。不管雇主怎么说,即便他们说你可以 24/7 在家工作或作为一个团队的一员工作,你仍然需要与其他利益相关者进行合作和沟通。
即使你是一个团队中的唯一成员,你也将不得不与高层管理人员沟通你正在做的工作以及它所带来的实际业务影响。你还可能需要与其他团队和业务分析师合作,建立我们之前提到的领域知识。
简而言之: 数据科学需要比你想象的更多的沟通,而这在成为成功的数据科学家方面至关重要。
原文。已获得许可重新发布。
相关: