原文:
www.kdnuggets.com/2022/04/metadata-improves-security-quality-transparency.html
Spotify 如何与像 Apple 这样的巨头抗衡?一个字:数据。通过机器学习和 AI,Spotify 通过提供更个性化和定制化的体验为用户创造价值。让我们快速了解一下用于增强其平台的聚合信息层:
-
Spotify 使用自然语言处理(NLP)扫描关于你正在听的音乐的讨论论坛,然后将你的偏好与其他讨论相似的音乐匹配;
-
音乐的组成被分析以了解音调、声音、响度、音质(即大调或小调)以及其他用于推荐类似歌曲和艺术家的因素;
-
当然,Spotify 会在听音乐时测量行为,追踪重复播放或跳过歌曲,建立偏好,从而改进推荐。
这里的核心数据是音乐——歌曲的基本组成部分,如标题、艺术家和时长。选择一首歌来听定下了基线(也许你喜欢它的低音线)。其他一切都可以视为元数据:关于如何听歌、歌曲的构成以及其他类似的音乐的附加元素。
1. Google Cybersecurity Certificate - 快速进入网络安全职业道路。
2. Google Data Analytics Professional Certificate - 提升你的数据分析技能
3. Google IT Support Professional Certificate - 支持组织的 IT 需求
在这里,元数据是 Spotify 算法的驱动力,它被不断收集和应用,以提供智能推荐,保持你不断听歌。
简单来说,在技术行业中,“meta”指的是底层定义或描述。更直接地说,元数据提供了关于数据的上下文,超出你在行和列中看到的内容。
这个定义相当广泛,但主要是因为它几乎可以用于任何目的——它可以详细告诉你每一列标题的含义,谁上传了数据及何时,整个数据集的列数和行数,原始数据来源,甚至仓储和居留要求。
有 3 种主要的元数据类型相互作用:行政性、描述性和结构性。每种类型在解释相应数据方面发挥不同的作用。
结构化元数据 – 提供数据元素组织方式的见解。这便于快速和轻松的导航,如目录或页码。结构化元数据允许将类似数据分组,记录唯一数据集之间的关系。
管理性元数据 – 提供有关数据的技术信息。它涵盖数据的来源、数据类型和访问或使用许可等方面。
描述性元数据 – 添加有关所有者、数据创建/发布时间以及数据包含内容的信息。其基本目的是简化识别,并提供数据的快照。
这些类型的元数据的组合使组织能够高效地在大量数据中导航,使其在需要时容易找到所需的信息。
53%的分析消费者在定位和访问数据内容时遇到困难。随着数据量的增加,组织了解其拥有的数据、数据位置和使用方式变得越来越重要。
元数据的作用不仅限于描述数据。元数据可以使数据发现变得更加容易,并帮助增加对数据集的理解。例如,以图书馆书籍为例。如果文本是主要数据,则书籍封面可能包含书籍的简要总结和其他人的评论。重要的是,图书馆还可能附加数据,为书籍提供类别、类型和唯一标识符,以便于组织和检索。
元数据还可以通过确保组织在数据集级别跟踪使用情况、共享和许可权限,来协助遵守监管要求。通过附加使数据使用方式、目的以及可以或不可以共享对象的元数据,您可以将安全性和合规性内建于数据本身。
通过管理您的元数据,您实际上是在创建数据资产的百科全书。元数据管理是数据管理的一个子集,而数据管理本身属于数据治理的范畴。
因此,关注元数据管理的主要原因与实施数据治理策略的原因相同:提高数据安全性、数据质量和整体透明度。
提高数据安全性:
-
元数据将使用限制和许可直接与数据绑定
-
揭示数据所有权和维护者,以便明确角色
-
将与数据集相关的信息整合和编纂,以确保不会丢失
提高数据质量:
-
设计/实施组织范围的本体论
-
实体解析/记录关联变得更加简单
-
对于随时间变化的洞察
提高透明度:
-
增加了组织内部和跨团队的可发现性
-
创建可审计的使用、访问和更新记录
-
分享信息而不泄露敏感数据
精细的元数据管理不仅是将这些丰富信息与数据集本身连接起来,而是以一种易于访问、执行和管理的方式来处理。
使用 ThinkData Works 的特定工具和功能,你可以解锁源于元数据的宝贵收益:
自定义元数据 – 向数据集添加任何元数据的能力,包括关联/相关的数据集、上传使用协议、成本与许可以及数据字典
可配置的属性定义 – 数据目录允许你在数据集中输入模式描述,将元数据绑定到属性
数据集版本控制/修订 – 每个数据集结构随着模式的变化而产生的版本,以及每次数据更新时跟踪的修订。这样,用户可以在更新其模型和仪表板时跟踪数据的稳定版本
数据健康监控 – 一个用于报告和警报配置的仪表板,根据数据随时间变化的情况,包括“宏观”信息(如行和列计数)或“微观”信息(如值类型或值范围)
访问审计 – 具体的使用统计信息和描述用户行为、API 调用及对数据进行或进行的数据操作的信息。
元数据管理是健全数据治理的关键部分 – 是有效数据战略中最重要的部分之一。我们知道每个组织都有独特的需求,因此一个好的元数据解决方案应当强大且可执行,同时足够灵活以便按照每家公司量身定制的数据管理方式。
通过提供全面的元数据管理,ThinkData Works 使我们的客户能够在强大、安全的基础上构建数据驱动的解决方案。
你认为你的业务是否需要一个数据目录来查找、理解和使用可信的数据以推动业务成果? 联系我们 以解锁数据的价值。
Tim Lysecki 是 ThinkData Works 的产品营销经理,他负责塑造公司的市场战略,指导媒体报道公司和产品,并扩展客户名单。在业余时间,他还是一位热衷于创作歌曲、表演和摄影的人。