Skip to content

Latest commit

 

History

History
79 lines (40 loc) · 8.56 KB

sql-remain-data-scientist-best-friend.md

File metadata and controls

79 lines (40 loc) · 8.56 KB

为什么 SQL 将继续是数据科学家的最佳伙伴

原文:www.kdnuggets.com/2022/07/sql-remain-data-scientist-best-friend.html

为什么 SQL 将继续是数据科学家的最佳伙伴

Sql 矢量图freepik 创建

数据工程和数据科学是快速发展的竞争领域。技术来来去去,因此保持技能更新是所有雄心勃勃的数据专业人士的共识。数据工程师和科学家们意见不一的是,未来哪些技能会最有价值。


我们的前三个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业轨道。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织 IT 工作


尽管数据科学家面临着令人眼花缭乱的工具和服务阵列,但 SQL 依然是数据科学家技术栈的基石。虽然 SQL 通常被视为基础技能,但实际上,它远不止于此。尽管 SQL 已经快 50 岁了,它却变得更加,而不是减少相关性。

机器学习、大数据分析或人工智能可能会抢占头条,但如果你想磨练一种可以提升职业生涯的智能、战略性技能,那么 SQL 是你最好的选择。这就是原因所在。

SQL 主导数据库

首先,SQL 确实是数据的语言 这是 Benjamn Rogojan(也叫 Seattle Data Guy)的话。这是因为大多数数据库都是基于某种 SQL 技术构建的。今天所有除了两个的最受欢迎的十个数据库都是基于 SQL 的,例外的(MongoDB 和 Redis)分别排在第五和第六名,甚至它们也可以与 SQL 一起使用。可以很容易地看出,任何需要查询、更新、修改或以任何方式与关系数据库中的数据进行交互的人,都将从扎实的 SQL 知识中受益,无论他们最终从事什么专业。

SQL 技能需求高,且不断增长

尽管 SQL 已经存在一段时间,但它远不是过时技能。随着数据工程向云端发展,SQL 也紧随其后。根据Dataquest,SQL 在 2021 年是数据行业中需求量最大的技能,尤其是在初级职位中。然而,即使是更有经验的数据科学家职位招聘也几乎在 60%的空缺中列出了 SQL 技能。而且,毫无疑问,由于对数据相关专业知识的需求激增,对 SQL 技能的需求似乎在2020 年短暂下降后仍在增长。疫情 notwithstanding,SQL 服务器转型市场预计将在十年结束前以超过 10%的年均增长率稳步增长。

精明的数据科学家是否应该优先考虑 SQL?

SQL 的未来看起来很安全,但这并不一定意味着已经掌握 SQL 的初学数据科学家会优先提高他们的 SQL 技能以推进职业发展。

他们应该。

在 ELT/ETL 阶段,有如此多的工具和新兴技术可以帮助他们进行 BI、预测和历史分析,数据科学家需要明智地选择投入精力的方向。高科技技能的半衰期不断缩短,意味着数据科学家需要关注。

学习的内容可以决定职业生涯的方向——或限制它。

SQL 如何成为核心?

没有人愿意花六个月的时间去弄清楚一个只能实现预期一半功能的工具,更不用说向更广泛的团队推荐它,然后发现它无法满足需求。因此,当数据科学家查看可以帮助他们更有效地查询数据的服务和技术时,

他们可能会查看最佳的 BI 工具和 ML 扩展,这些工具可以帮助他们准备数据、创建模型并进行训练。但所有这些不同的阶段都需要时间和高水平的专业知识。我们已经习惯了接受这样的事实:机器学习建模需要将数据从数据库中提取,通常使用 BI 工具,转换并加载到 BI 系统中,然后再导出(再次)到机器学习工具中,发生奇迹后,再传输回 BI 工具以进行可视化。

如果我告诉你有一种将机器学习模型带到数据的方法,允许你在数据库内部使用 SQL 查询预测,你会怎么想?确实有。这是一个小而快速增长的领域。

这种将智能融入数据层的运动,而不是费劲地将数据带到机器学习工具中的方法。

数据库内创新

数据库内机器学习是一种使用现有数据预测未来事件的更简单方法……并且它使用标准 SQL 命令。数据库内机器学习有点像给你的数据库装上了大脑。这意味着数据科学家——以及数据工程师,实际上任何具备 SQL 技能的人——都可以在数据库中工作,运行机器学习模型来回答几乎任何业务问题。预测客户流失、信用评分、客户生命周期优化、欺诈检测、库存管理、价格建模和预测患者健康结果只是数据库建模所支持的众多用例中的一部分。通过这种方法,所有的机器学习模型都可以像数据库表一样创建、查询和维护,使用 SQL 语言,为更广泛的数据专业人员带来了强大的预测能力。

数据库内机器学习(In-database ML)是一个相对较新的领域,但它是一个更广泛、快速发展的运动的一部分,旨在简化和普及数据工程和数据科学,打破当前在数据工作中存在的技术障碍。例如,看看 dbt Labs,这家公司在数据领域引起了轰动,最近获得了$2.22 亿的资金并被估值为 42 亿美元。其数据转换产品使数据工程师能够使用 SQL 命令从数据仓库内部构建生产级数据管道,从而彻底简化和加速数据准备的过程。

SQL – 不老,但常青

我们有幸生活在数字创新的黄金时代。然而,在重视数据洞察力的商业背景下,数据科学家面临前所未有的压力,需要从数据中创造奇迹。为了加快和扩大数据分析,出现了令人眼花缭乱的工具和服务。这些工具通常需要投入时间和技能发展,以充分实现其好处。然而,一个常被忽视的技能是谦逊的 SQL,数据科学家的最佳伙伴。SQL 不仅没有消失,随着向数据更近的创新运动的兴起,SQL 正成为数据科学家的战略秘密武器。

**Jorge Torres**是数据库机器学习公司 MindsDB 的首席执行官。他还是加州大学伯克利分校的访问学者,研究机器学习自动化和解释性。在创立 MindsDB 之前,他曾为多个数据密集型初创公司工作,最近与 Aneesh Chopra(美国政府的首位首席技术官)合作,建立了分析数十亿患者记录的数据系统,为数百万患者带来了最高的节省。

更多相关主题