Skip to content

Latest commit

 

History

History
193 lines (97 loc) · 14.3 KB

start-statistics-all-over-again.md

File metadata and controls

193 lines (97 loc) · 14.3 KB

如果你必须重新开始学习统计学,你会从哪里开始?

原文:www.kdnuggets.com/2020/06/start-statistics-all-over-again.html

评论

李·贝克,Chi-Squared Innovations 的联合创始人兼首席执行官

Statistics


我们的前三名课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


多年来,我常常被初学者问到应该从哪里开始学习统计学,应该先做什么,以及在统计学的哪些方面应该优先考虑,以帮助他们实现目标(通常是获得更高薪水的职位)。

现在,由于我几乎完全是自学成才,我不太认为自己是应该从哪里开始的权威,我很难带有坚定的信念来回答这个问题。

当然,我对此主题有一些看法,但这些看法受到我自身经验的影响。

所以我想联系一些统计学界的朋友,看看他们能带来什么。

本文中每位统计学家都被问到了同一个问题:

如果你必须重新开始学习统计学,你会从哪里开始?

答案令人惊讶——它们竟然成为了一份从零开始成为现代统计学家的路线图。

简而言之,如何成为一名未来的统计学家 而无需接受任何课程

统计理论 vs 应用统计学

统计学中存在一条分界线。一方面,有那些接受了正式统计理论教育的人,另一方面,则是通过实践学习的人。如果你像我一样,你将是一个完全自学的统计学家,羡慕另一边的碧绿草地,希望自己当初能得到适当的教育,以避免犯那么多愚蠢的错误。

但其他统计学家对此有什么看法?

嗯,杰奎琳·诺利斯和我走过相同的道路,但她的感受与我不同。杰奎琳(@skyetetra),一位数据科学顾问以及《数据科学职业生涯构建》一书的作者之一,告诉我她从未接受过正式的统计学教育,而是通过工作中的学习掌握了所需的一切:

“如果我需要重新开始,我会做和第一次一样的事情!我的背景是应用数学,所以我在学术上只上了一门统计学课程。在工作中学习统计学对我来说效果很好,而我认识的一些有更严格统计学背景的人似乎并不常用他们所学的知识。每当我需要一些不寻常的统计方法时,我都能自己查阅和学习。作为数据科学家,你对数据的更广泛的理性思考可以来自统计学之外的许多领域。对我来说,是数学,但我见过许多人从不同的背景中获得这些能力。”

我对从有限的统计学教育中取得的职业生涯感到非常满意——如果我可以重新开始,我会担心踩到统计学的“蝴蝶”,从而改变时间线,最后变成一名用户体验设计师或其他什么职业。

另一方面,Kristen Kehrer 来自 Data Moves Me (@DataMovesHer),她有正式的统计学教育。她告诉我:

“我本科阶段大部分的概率和统计学习都非常理论化。如果我需要重新开始,我会在本科阶段选择一门更应用的统计课程。但即便如此,我不会改变我选择追求正式学位的决定。”

有趣的是,Chatroulette 的高级产品研究员 Lisa-Christina Winter (@lisachwinter) 向我建议了完全相反的做法:

“我会从统计学理论开始——理解基本概念以及它们为何重要。为了便于理解,我会将理论放在简单实验设计的背景下来看。”

所以统计学的理论基础对你来说为什么重要?

“虽然当初刚学习统计学时我没有意识到这一点,但现在我明白了亲自解决统计问题的重要性,比如使用公式书和分布表。现在与人合作时,很快就会发现更深层次的统计学理解是极其重要的。”

怎么说?

“在忙于应用统计学之前经过大量的理论统计学学习,帮助我避免了很多通过单纯编写语法而无法意识到的错误。”

Matt Dancho,他为商学院学生创建数据科学课程 (@mdancho84),他分享了一些关于学习统计学的建议,他告诉我:

“我会做尽可能多的项目——构建产品就是学习的方式。当你遇到错误时,进行故障排除,创造,学习。这是一项可以直接转移到业务中的技能。”

他也有话要对那些告诉我们要学会多任务处理的人说(我相信你们都有听过大学讲师让你们学会这一点):

“我会专注于一个学习目标——很容易分心。这会浪费你几年时间。相反,专注于一个项目或一个学习目标,而不是你听到的每一项新技术。这会杀死你的生产力。专注对学习至关重要。”

Mine Çetinkaya-Rundel 来自OpenIntro团队(@minebocek)也建议走应用统计学路线:

“我开始学习统计学时使用的是传统的入门统计学课程,该课程让我们记住一些公式,但实际上没有接触数据。在第一次课程之后,我花了一段时间才将这些知识拼凑起来,理解(并爱上!)整个数据分析周期。”

那么,如果她必须重新开始统计学,她会怎么做呢?

“如果我重新开始,我会希望从学习统计学开始,这样我可以处理数据,进行动手的数据分析(使用 R!),并且专注于如何提出正确的问题以及如何在真实复杂的数据集中寻找这些问题的答案。”

在给统计学新手的三部分建议中的第二部分,Garrett Grolemund(看,我不是说过我们会再听到他的声音吗?)表示,如果他有机会重新开始统计学:

“我会认真思考随机性到底是什么。统计学是这些东西的应用版本,但我们往往过快地跳到数学/计算部分。”

所以,我们得出了结论。10 只猫中有 9 只统计学家更喜欢应用统计学!所以,下次你在没有理论背景的情况下分析数据时感到难过时,只要记住你正在走许多正规训练统计学家如果有机会重新来过的路。如果对他们来说足够好,你知道接下来会发生什么……

频率派统计学 vs 贝叶斯统计学

统计学中存在一种分裂,即频率派和贝叶斯派。

我们来看看统计学家们对这场辩论有什么看法。

我们从柯克·伯恩@KirkDBorne)开始,他是天体物理学家和火箭科学家(好吧,火箭数据科学家)。令人惊讶的是,他告诉我他从未对成为宇航员感兴趣!

“我不是统计学家,也从未上过统计学课程,尽管我在大学教授过它。这怎么可能?”

有趣的是,我也是这样!那么,他的所有统计学知识从哪里来的呢?

“我在本科物理课程中学习了基础统计学,然后在研究生阶段及其之后,作为天体物理学家进行数据分析时学到了更多。我在大约 22 年前开始探索数据挖掘、统计学习和机器学习时学到了更多统计学。从那时起,我一直没有停止学习统计学。”

这开始听起来像我统计教育的经历。你只需将‘astro’从天体物理学中去掉,它们就是一样的!那么他如何看待重新开始统计学呢?

“我会从贝叶斯推断开始,而不是将早期所有时间都投入到简单的描述性数据分析中。这会让我更早地接触到统计学习和机器学习。而且我会更早地学会探索和利用贝叶斯网络的奇妙与强大。”

这也是Frank Harrell(范德比尔特大学医学院生物统计学教授)对重新开始统计学的看法(@f2harrell)。他告诉我:

“我会从贝叶斯统计学开始,并彻底学习它,然后再学习关于抽样分布或假设检验的内容。”

当我问Lillian Pierson数据狂人)她会从哪里开始时,她也提到了贝叶斯统计学:

“如果我必须重新开始统计学,我会从三个基本的概念入手:t 检验、贝叶斯概率和皮尔逊相关性。”

就个人而言,我没有做过很多贝叶斯统计学,这是我在统计学中最大的遗憾之一。我能看到用贝叶斯方法做事的潜力,但由于没有老师或导师,我一直没能真正找到入门的途径。

也许有一天我会这样做——但在那之前,我将继续传递这里统计学家的信息。

跟我重复一遍:

学习贝叶斯统计学。

学习贝叶斯统计学。

学习贝叶斯统计学!

模拟统计学是新的黑色

我还从谷歌决策智能部负责人 Cassie Kozyrkov 那里获得了一个非常有趣的观点(@quaesita),她告诉我她会:

“可能会享受把打印的统计表当作篝火烧!”

好吧,虽然说得对,但说真的,你会从哪里重新开始学习统计学呢?

“模拟!如果我必须重新开始,我希望从基于模拟的方法开始学习统计学。”

好的,我明白了,但为什么特别是模拟?

“大多数 STAT101 课程中教授的‘传统’方法是在计算机出现之前发展起来的,过分依赖于那些将统计问题挤入可以用常见分布和那些过时的打印表格进行分析的限制性假设。”

我明白了。那么你到底对打印表格有什么意见呢?

“嗯,我常常想传统课程是否弊大于利,因为我看到他们的幸存者在做‘III 型错误’——正确回答错误的方便问题。通过模拟,你可以回到最基本的原则,发现统计学的真正魔力。”

统计学有魔力吗?

“当然了!我最喜欢的一点是,通过模拟学习统计学迫使你面对假设所扮演的角色。毕竟,在统计学中,你的假设至少与数据一样重要,甚至更重要。”

当谈到提供建议时,KDnuggets@kdnuggets)的创始人 Gregory Piatetsky 建议:

“我会从 Leo Breiman 关于两种文化的论文开始,并且我会学习贝叶斯推断。”

如果你还没读过那篇论文(它是开放访问的),Leo Breiman 阐述了算法建模的案例,其中统计被模拟为一个黑箱模型,而不是遵循预定的统计模型。

这正是 Cassie 想表达的——统计模型很少适用于现实世界的数据,我们只能尝试将数据硬塞进模型中(得到对错误问题的正确答案),或者切换方法,做一些完全不同的事情——模拟!

还有更多内容...

这是我原始帖子的摘录,它相当长——长到无法在这里全部发布(有超过 30 位世界级的贡献者!)。

如果你喜欢阅读,你可能会对 Dez Blanchfield 对领域专家的看法,或 Michael Friendly 和 Alberto Cairo 对数据可视化的过去、现在和未来的看法感兴趣。

还有一本免费下载的书详细列出了贡献者们的所有评论,包括 Natalie Dean 和 Jen Stirrup 对信息流和侦探工作的看法。

更不要让我开始谈论 Charles Wheelan 和 Chelsea Parlett-Pelleriti 关于沟通的精彩建议,或者 Apache Crunch 项目创始人 Josh Wills 对统计食谱、微积分和模拟统计的比较。

太棒了——你真的不想错过它们!

欢迎过来阅读**原始帖子**。

个人简介:Lee Baker 是一位获奖的软件创作者,常常在黑暗的房间里坐在键盘后面。他的工作仅由显示器的光线照亮,他希望找到灯开关。拥有数十年的科学、统计和人工智能经验,他热衷于用数据讲故事,但尽管已经解释过十几次,他的母亲仍然不理解他是做什么的。他坚持认为数据分析比我们想象的要简单得多,因此他创作了友好易懂的书籍和视频课程,教授数据分析和统计的基础知识。作为 Chi-Squared Innovations 的首席执行官,他有一天希望退休去做一些更简单的事情,比如抓鳄鱼。

相关:

了解更多相关话题