Skip to content

Latest commit

 

History

History
133 lines (69 loc) · 10.4 KB

reading-papers-effective-data-scientist.md

File metadata and controls

133 lines (69 loc) · 10.4 KB

阅读论文如何帮助你成为更有效的数据科学家

原文:www.kdnuggets.com/2021/02/reading-papers-effective-data-scientist.html

评论

Eugene Yan,亚马逊的应用科学家

“与其手动检查我们的数据,为什么不尝试 LinkedIn 的方法呢?这帮助他们实现了 95%的精确度和 80%的召回率。”


我们的前三名课程推荐

1. Google Cybersecurity Certificate - 快速进入网络安全职业的快车道

2. Google Data Analytics Professional Certificate - 提升你的数据分析技能

3. Google IT Support Professional Certificate - 支持你的组织在 IT 领域


我的队友分享了 LinkedIn 如何使用k-最近邻算法来识别不一致的标签(在职位名称中)。然后,LinkedIn 在一致的标签上训练了一个支持向量机(SVM),并使用这个 SVM 来更新不一致的标签。这帮助他们在职位标题分类器上达到了 95%的精确度。

这个建议在我们的讨论中最为有用。跟进这个建议让我们的产品分类器最终达到了 95%的准确率。我问她是如何提供这样关键的见解的。她回答道:“哦,我只是偶尔读读论文”,她具体说她每周尝试阅读 1-2 篇论文,通常是与团队正在研究的主题相关的。

通过阅读论文,我们能够了解其他人(例如,LinkedIn)发现哪些方法有效(以及哪些无效)。然后,我们可以调整他们的方法,而不必重新发明火箭。这帮助我们用更少的时间和精力交付有效的解决方案

如果我比其他人看得更远,那是因为我站在巨人的肩膀上。

— 艾萨克·牛顿*

阅读论文也拓宽了我们的视野。虽然我们可能只关注数据科学的某些方面,但相关研究的进展往往是有帮助的。例如,词嵌入和图的理念在推荐系统中非常有用。同样,计算机视觉的思想 — 如迁移学习和数据增强 — 对自然语言处理(NLP)也很有帮助。

阅读论文也让我们保持最新。在过去十年间,NLP 领域取得了巨大的进展。然而,通过阅读最关键的 10 篇论文,我们可以迅速跟上最新进展。保持最新状态使我们在工作中更高效,从而减少时间和精力的投入。这样,我们将有更多时间来阅读和学习,从而形成良性循环。

如何选择要阅读的论文?

如果我们刚开始养成这个习惯,可以阅读任何感兴趣的内容——大多数论文都会教会我们一些东西。阅读我们感兴趣的话题也更容易养成习惯。

我们也可以根据实用性选择论文。例如,我们可能需要快速了解某个领域以完成一个项目。在开始一个项目之前,我几乎总是留出时间进行文献综述。花几天时间深入研究论文可以节省几周,甚至几个月的时间,避免走弯路和不必要的重复劳动。

推荐也是识别有用论文的便捷方法。一种窍门是关注我们欣赏的人在社交媒体上的动态,或订阅策划的通讯——我发现这些来源的信息噪声比率很高。

我阅读哪些论文?出于实际考虑,我主要阅读与工作相关的论文。这使我能立即应用所读内容,从而巩固学习。在工作之外,我对序列感兴趣,倾向于阅读关于NLP强化学习的论文。我特别喜欢那些分享有效和无效方法的论文,比如通过消融研究。这包括关于Word2vecBERTT5的论文。

如何阅读论文?

谷歌搜索“如何阅读论文”会返回大量有用的结果。但如果你觉得这些信息太多,以下是一些我觉得有帮助的:

我的方法类似于三遍法。在下面的例子中,我将分享如何阅读几篇推荐系统论文,以了解新颖性、多样性、偶然性等指标。

在第一遍,我扫描摘要以了解论文是否包含我所需的内容。如果包含,我会浏览标题以识别问题陈述、方法和结果。在这个例子中,我特别寻找如何计算各种指标的公式。我会对列表上的所有论文进行第一次阅读(并且在完成列表之前避免开始第二遍)。在这个例子中,大约一半的论文进入了第二遍。

图示

第一次阅读后,30 多篇论文减少到 14 篇——节省了不少精力。

在第二遍,我再次阅读每篇论文并突出相关部分。这有助于我在之后查阅论文时快速找到重要部分。然后,我为每篇论文做笔记。在这个例子中,笔记主要集中在指标(即方法、公式)上。如果是关于某个应用的文献综述(如推荐系统、产品分类、欺诈检测),笔记将重点关注方法、系统设计和结果。

图示

来自三篇论文的示例笔记;与指标相关的笔记用红色框出。

对于大多数论文,第二遍已经足够。我已经捕捉了关键信息,并可以在未来需要时参考。尽管如此,如果我在进行文献综述时阅读论文,或者想要巩固我的知识,我有时会进行第三遍。

阅读只为大脑提供知识材料;思考才使我们所读的内容成为我们自己的。

— 约翰·洛克*

在第三遍,我将论文中的共通概念整合到自己的笔记中。不同的论文有各自测量新颖性、多样性、偶然性等的方式。我将它们汇总到一个笔记中,并比较其优缺点。在这个过程中,我经常发现笔记和知识的 gaps,必须重新查阅原论文。

图示

关于偶然性和意外性指标的示例笔记。

最后,如果我认为对其他人有用,我会写下我所学到的,并在线发布。与从头开始相比,拥有笔记作为参考使得写作变得容易得多。这导致了如下作品:

亲自尝试一下

在深入下一个项目之前,花一两天时间浏览几篇相关论文。我相信这将为你节省中长期的时间和精力。不知道从哪里开始?以下是一些有用的资源供你参考:

  • 带代码的论文: 机器学习研究及其实现代码

  • [applied-ml](https://github.com/eugeneyan/applied-ml): 组织如何构建和部署机器学习系统的论文

  • [ml-surveys](https://github.com/eugeneyan/ml-surveys): 总结近期机器学习进展的调研论文

  • Google Scholar 提醒: 当有新出版物符合你的查询时会收到更新

  • 42 篇论文: AI 和计算机科学领域的热门论文

个人简介: Eugene Yan 在机器学习与产品的交叉领域工作,致力于构建实用的面向客户的机器学习系统。他目前是亚马逊的应用科学家。此前,他曾领导 Lazada 和 uCare.ai 的数据科学团队。他在 eugeneyan.com 上撰写和演讲关于数据科学、数据/机器学习系统和职业发展方面的内容,并在 @eugeneyan 上发推文。

原文。经允许转载。

相关资源:

  • 5 篇必读的数据科学论文(及其使用方法)

  • 2020 年十大计算机视觉论文

  • 深度学习先驱 Geoff Hinton 论最新研究及 AI 未来

更多相关主题