Skip to content

Latest commit

 

History

History
67 lines (34 loc) · 5.67 KB

community-synthetic-data-need.md

File metadata and controls

67 lines (34 loc) · 5.67 KB

合成数据社区的出现及其必要性

原文:www.kdnuggets.com/2022/04/community-synthetic-data-need.html

合成数据社区的出现及其必要性

OpenSynthetics 社区

合成数据是一项有前景的技术,目前正处于早期采用阶段。为了过渡到主流采用,研究社区需要一个可以了解、讨论最新创新和进行实验的地方。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升您的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT 需求


我很高兴地宣布 OpenSynthetics.com,这是一个用于计算机视觉和机器学习(ML)中创建和使用合成数据的开放社区。

合成数据是计算机生成的图像数据,用于模拟真实世界。在视觉领域,合成数据在创建更强大和更具伦理的 AI 模型方面展现了潜力。通过创建一个集中的数据集、论文、代码和资源的中心,我们旨在将业界和学术界的研究人员汇聚在一起,以推动最先进的合成数据发展。

为什么是现在?

下一代计算机视觉将由合成数据驱动。近年来,合成数据作为一种颠覆性的训练 AI 模型的新范式已经出现。通过视觉效果(VFX)、神经渲染和生成 AI 技术,研究人员展示了快速构建大量逼真、多样化且完全标注的数据集的能力,同时降低了成本。这将使自主驾驶、机器人、无人机、增强现实/虚拟现实/元宇宙、生成媒体等领域的模型更加强大,并扩展到从消费者到医疗等各种应用。

目前的计算机视觉模型需要大量人工标注的数据来帮助摄像头识别它们所看到的内容。这既费时又费力,成本高昂,并且有显著的缺陷。人类很难解释关键数据属性,如物体的 3D 位置或其与环境的互动。

此外,无法捕捉足够多样和均衡的数据集通常会导致偏见,这在以人为本的系统中具有重要的伦理影响。此外,监管审查的增加和消费者隐私问题使得收集和利用人像变得复杂。

使用合成数据的方法,每个场景中的每个像素的信息都被明确地定义。以前无法获得的 3D 地标、深度、材料属性、表面法线、子分割等的像素级标签现在都可以获得。此外,这些数据和标签可以根据需要提供,使得 ML 从业者能够比以往任何时候都快几个数量级地进行实验和迭代。合成数据还通过减少偏见、保护隐私和民主化数据访问来解决关键的伦理问题。

时机正好,需求也已出现。我们正处于合成数据的一个拐点:

  • 关于深度学习的第一本合成数据书籍 (link) 于 2021 年发布;

  • Gartner 预测,未来几年合成数据的体量将是实际数据的 10 倍;

  • 《MIT 技术评论》指出 (link) 合成数据被评为 2022 年十大突破性技术之一。

随着越来越多的研究人员对合成数据产生兴趣,OpenSynthetics 将作为一个强大的参考,帮助教育更广泛的社区。

为什么要贡献和参与?

合成数据代表了训练计算机视觉模型的范式转变,但它也是构建更通用智能的关键技术。未来,研究人员将越来越多地利用这些数字世界来构建能够深刻理解并互动和操控周围世界的 AI 模型。

OpenSynthetics 将汇集学术界和工业界的研究人员和从业者,建立一个开放且合作的社区,推动该领域的发展。我们相信,合成数据将驱动下一代计算机视觉的发展,我们可以共同帮助催化创新。通过在该网站上贡献和参与,社区将积极建立知识库,以帮助提高对这一新兴技术的理解并推动其采用。我们希望您能加入我们,共同创建一个蓬勃发展的 OpenSynthetics 社区。

Yashar Behzadi 博士 是 Synthesis AI 的首席执行官兼创始人。他是一位经验丰富的企业家,在 AI、医疗技术和物联网市场中建立了变革性的企业。

更多相关话题