由 Andrea De Mauro 和 Mahantesh Pattadkal
在我们从博客系列第一部分的“数据分析职业趋势”继续之前,我们的数据分析职业趋势和自然语言处理(NLP)作用的旅程仍在继续。
在第一部分中,我们介绍了“数据分析职业趋势”应用,介绍了如何收集数据并应用 NLP 进行分析,由KNIME 分析平台提供支持。我们讨论了用于收集有关数据分析职业市场的实时数据的网页抓取阶段,随后使用 NLP 技术清理数据。然后,我们介绍了一个主题模型,揭示了职位发布中的七种同质化技能集。这些技能集代表了各行业雇主在数据分析专业人员中寻找的能力和活动。
在系列博客的第二部分中,我们将描述已识别的技能集,并对数据科学职业发展的变化趋势进行一些基于数据的考虑。
为了标记技能集,我们使用了 LDA 算法在职位发布中识别的最常见术语和权重。我们进一步分析每个主题中的职位描述,以突出关键活动、必要技能和最常见的行业。了解这些主题有助于求职者将其技能集与市场需求对齐,增加在数据分析领域找到合适职位的机会。在接下来的段落中,您将找到每个技能集的简要描述。
下表展示了主题 0 的前五个术语及其权重。这些权重表示术语在定义特定主题时的重要性。考虑到这些术语及标记为主题 0 的文档,我们将这一技能集解释为“研究与数据分析”。
术语 | 权重 |
---|---|
研究 | 4510 |
职位 | 4195 |
信息 | 4112 |
健康 | 3404 |
大学 | 2118 |
表 0:主题 0 的术语权重
这项技能集包括进行研究、分析数据以及提供驱动决策的见解等活动。作为数据分析的基石,这项技能集促进了从数据中提取有价值的见解、识别趋势以及做出明智决策。
从我们收集的职位信息中,与此技能集相关的基本能力要求是:
-
强大的分析和解决问题的能力
-
精通统计软件(R,Python)
-
具有数据可视化工具的经验
-
有效的沟通和文档编写技能
-
相关领域的背景(数学、统计学或数据科学)
通过查看表 1 中的术语和权重以及与主题 1 相关的文件,我们决定将其标记为“行政和客户支持”。这项技能集包括管理客户互动、提供行政支持以及协调物流或采购流程。
术语 | 权重 |
---|---|
支持 | 2321 |
管理 | 2307 |
信息 | 2134 |
职位 | 2126 |
客户 | 1909 |
表 1:主题 1 的术语-权重
在我们看来,成功完成需要此技能集的工作的基本能力是:
-
强大的组织和时间管理能力
-
注重细节
-
精通办公软件和沟通工具
-
优秀的人际关系和解决问题的技能
根据表 2 中的术语,我们将其解读为“市场营销和产品管理”技能集。
术语 | 权重 |
---|---|
业务 | 8487 |
团队 | 8021 |
产品 | 6825 |
客户 | 3923 |
市场营销 | 3740 |
表 2:主题 2 的术语-权重
这项技能集涉及开发市场营销策略、管理产品生命周期和推动市场增长。在数据分析驱动的工作中至关重要,因为它允许专业人士利用数据驱动的见解来做出有关市场趋势、客户偏好和产品表现的明智决策。
市场营销和产品管理技能集中所需的基本能力是:
-
强大的分析和战略思维能力
-
精通市场研究和竞争情报
-
具有市场营销工具和平台的经验
-
优秀的沟通和领导能力
-
商业、市场营销或相关领域的背景
根据表 2 中的术语,我们得出结论,它指的是“业务管理、数据治理与合规”技能集。
该技能集涵盖了监督业务运营、确保数据质量和安全,以及管理风险和监管要求。在数据分析密集型工作中,这一技能集有助于维护数据完整性、监控合规性、识别风险和利用数据驱动的见解优化业务流程。
术语 | 权重 |
---|---|
商业 | 14046 |
管理 | 10531 |
团队 | 5835 |
分析 | 5672 |
项目 | 4309 |
表 3:主题 3 的术语权重
根据我们的发现,该技能集所需的能力有:
-
强大的组织和领导能力
-
精通数据管理、数据治理和风险评估
-
具备监管框架和行业标准的经验
-
有效的沟通和解决问题的能力
-
拥有商业、金融或相关领域的背景
观察到我们在主题 4 中找到的术语,我们将其称为“商业智能和数据可视化”技能集。
该技能集包括设计常见的 BI 解决方案,如仪表板和报告,创建有洞察力的可视化,并分析数据以做出明智的决策。在利用数据分析的工作中,这一技能集至关重要,将原始数据转化为推动战略决策的可操作见解。
术语 | 权重 |
---|---|
商业 | 19372 |
分析 | 7687 |
Power BI | 7359 |
智能 | 7040 |
SQL | 5836 |
表 4:主题 4 的术语权重
在我们看来,BI 和数据可视化领域的基本能力要求是:
-
强大的分析和解决问题的能力
-
精通 BI 工具(如 Power BI、Tableau、SQL)
-
数据可视化技术的经验
-
有效的沟通和讲故事能力
基于表 5 中显示的术语,我们将其解释为“数据仓库和云基础设施”技能集。
需要具备云计算和大数据工程技能的职位通常涉及设计和实施基于云的解决方案、管理大规模数据处理以及开发软件应用。它在数据分析密集型工作中至关重要,能有效处理和分析大量数据以获得有价值的见解。
术语 | 权重 |
---|---|
开发 | 4525 |
云计算 | 3998 |
工程 | 3692 |
软件 | 3510 |
设计 | 3494 |
表 5:主题 5 的术语权重
在我们看来,与该技能集相关的基本能力要求有:
-
强大的编程和解决问题的能力
-
精通云平台(如 AWS、Azure 和 Google Cloud)
-
具备大数据技术(如 Hadoop、Spark 和 NoSQL 数据库)的经验
-
信息安全政策及相关流程的知识
根据表 6 中显示的术语,我们将其解读为“机器学习”技能集,这一技能集围绕设计 AI 模型、研究前沿机器学习技术以及开发智能软件解决方案。在数据分析密集型的工作中,它是 AI 模型训练和性能优化的基础。
术语 | 权重 |
---|---|
机器 | 9782 |
科学 | 8861 |
研究 | 4686 |
计算机 | 4209 |
Python | 4053 |
表 6:主题 6 的术语权重
根据我们的发现,今天在机器学习中所需的基本能力是
-
强大的编程和数学能力
-
对机器学习框架(如 TensorFlow、PyTorch)的专业知识
-
具备先进 AI 技术经验(如深度学习和自然语言处理)
-
高效的沟通和协作技能
在本期中,我们将重点分析通过主题建模揭示的技能集关联,涉及三种不同的职业档案:数据工程师、数据分析师和数据科学家。为了将这些职业档案与职位发布对齐,我们利用了基于规则的分类器。该分类器根据职位标题中的关键词确定职位的档案分类。例如,标题为“数据架构师”的职位将被归类为数据工程师角色,而标题为“机器学习工程师”的职位将被归入数据科学家类别。
使用潜在狄利克雷分配(LDA)主题建模为每个职位发布提供了七种不同技能集的主题权重。通过计算所有专业档案中每种技能集的平均权重,我们得出了特定角色的平均技能集权重。值得注意的是,这些权重随后被标准化并表示为百分比。
如图 1 所示,我们展示了专业职位与相应技能集之间互动的深刻可视化。这一视觉图集成了雇主对数据工程师、数据分析师和数据科学家所需基本技能的集体期望。
正如预期,数据工程师的角色显著要求掌握“数据仓库与云基础设施”技能集。此外,对可视化和机器学习的额外理解也至关重要。这种对技能多样性的重视可以归因于对数据工程师将在支持数据分析师和数据科学家方面发挥关键作用的预期。
相反,数据科学家所需的主要专业技能在于“机器学习”,其次是“研究”方法的熟练程度。值得注意的是,涵盖“商业管理”和“产品管理”的混合技能集也具有重要意义。这概括了就业市场对有志数据科学家的复杂技能需求。
转向数据分析领域,一个关键要求是精通“BI 和可视化”。考虑到他们在生成业务报告、驱动仪表板和监控业务活力中的作用,这并不令人惊讶。作为辅助关键技能的“商业管理”需求也反映了这一角色的战略眼光。此外,与数据科学家角色类似,数据分析师领域也存在“产品管理”和“研究”能力的需求。
总结来说,这项探索突显了各类数据分析角色技能要求的复杂性。它描绘了雇主对数据工程师、数据分析师和数据科学家等职位的多方面期望。
图 1:雷达图显示了专业配置与维度中显示的技能集之间的关联(点击放大)。
我们对不断扩展的数据分析领域职位发布的分析旨在根据不同的技能集对职位进行分类,并阐明每个类别所需的多样化能力。随着该领域的指数级增长和基于数据做出的决策的关键性,数据的收集、存储和分析过程取得了显著进展,导致对数据分析专业人士的需求不断增加。
通过将职位发布分类为七个显著技能主题,我们揭示了在这一快速变化领域对专门技能和多面技能的需求。这些主题涵盖了数据分析、商业智能到机器学习和人工智能,突显了对能掌握数据、技术和跨职能团队合作的人的需求激增。
尽管如此,这项研究也有若干局限性。就业市场的动态性质以及新技术和方法的出现要求我们不断更新分析,而非静态的“快照”视图。此外,由于研究时依赖于现有的职位发布,我们的方法可能未能捕捉到数据分析领域多样化职位和技能的每一个细节。
我们所有的工作都可以在KNIME Community Hub Public Space - “Job Competency Application”上自由获取。你可以下载并尝试这些工作流,自己发现、扩展或改进。
展望未来,我们看到这项研究有显著扩展的潜力。这包括开发 KNIME 组件以实现第一部分中描述的“停止词移除”方法,以及在 KNIME 中建立一个人机交互的可视化框架。这样的框架将简化选择最连贯主题模型的过程,提升我们的工作规模。我们还设想使用 LLM 辅助机制来支持和简化主题建模阶段:这一场景无疑为进一步实验和研究留下了空间。
数据分析领域的专业人士必须保持信息灵通并具备适应能力,以应对新兴技术。这确保了他们的技能在不断变化的数据驱动决策环境中保持相关性和价值。通过识别和培养与所识别主题相关的技能,求职者可以在这一充满活力的市场中获得竞争优势。为了保持在该领域的相关性,数据分析专业人士必须在整个职业生涯中保持好奇心,并持续学习。
**玛汉特什·帕塔德卡尔**拥有超过 6 年的数据科学项目和产品咨询经验。他拥有数据科学硕士学位,专长于深度学习、自然语言处理和可解释的机器学习。此外,他积极参与 KNIME 社区的合作,以推进数据科学相关项目。
****安德烈亚·德·毛罗****在宝洁和沃达丰等跨国公司拥有超过 15 年的商业分析和数据科学团队建设经验。除了他的企业角色,他还在意大利和瑞士的几所大学教授市场营销分析和应用机器学习。通过他的研究和著作,他探讨了数据和人工智能的商业及社会影响,并坚信更广泛的分析素养将使世界变得更好。他的最新著作《数据分析简易指南》由 Packt 出版。他出现在 CDO 杂志 2022 年的全球‘40 位 40 岁以下’榜单中。