原文:
www.kdnuggets.com/2020/11/10-principles-practical-statistical-reasoning.html
评论
Neil Chandarana,机器学习
Andreas Brücker拍摄的照片,来自Unsplash
1. Google 网络安全证书 - 快速进入网络安全职业轨道。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT 需求
成功应用统计学(数据科学)有两个核心方面:
-
领域知识。
-
统计方法论。
由于这一领域的高度专业性,任何书籍或文章都很难同时传达两者之间的详细和准确的描述。通常,人们可以阅读两种类型的材料:
-
关于统计方法的广泛信息,其中得出的结论是普遍适用的,但并不具体。
-
详细的统计方法,其中得出的结论仅在特定领域内有用。
在自己做数据科学项目的 3 年和在交易所操作数据的 3.5 年后,还有一个额外的学习类别。它与上述同样有用,我将其融入到每一个项目/副业/咨询工作中…
实用统计推理
我创造了这个术语,因为我不知道该如何称呼这个类别。然而,它涵盖了:
-
应用统计学/数据科学的性质和目标。
-
适用于所有应用的原则
-
改进结论的实际步骤/问题
如果你有应用统计方法的经验,我鼓励你利用你的经验来阐明和批评以下原则。如果你从未尝试过实施统计模型,可以尝试一下,然后再回来。不要把以下内容看作是需要记住的清单。如果你能与自己的经验相关联,你将获得最佳的信息综合。
以下原则帮助我提高了分析的效率和结论的清晰度。我希望你也能从中获益。
低数据质量通过更复杂的分析能够纠正的程度是有限的。值得完成的实际检查包括:
-
对逻辑上不一致或与各变量可能出现的范围先前信息相冲突的值进行视觉/自动检查。例如极端值、变量类型。
-
分布频率。
-
进行成对散点图以低层次检查共线性。
-
缺失观察值(0, 99, None, NaN 值)。
-
质疑收集方法是否存在因不一致引入的偏差,例如观察者之间的差异。
在几乎所有问题中,你都会处理未控制的变异。对这种变异的态度应根据这种变异是否是研究系统的固有部分或是否代表实验误差来有所不同。在这两种情况下,我们都考虑变异的分布,但动机不同:
-
**固有变异:**我们对分布形式的细节感兴趣。
-
**误差变异:**我们对如果消除了误差会观察到的内容感兴趣。
尝试将分析深度独立于可用数据量或可用技术来考虑。仅仅因为数据收集容易/便宜,并不意味着数据是相关的。方法和技术也一样。合理选择的分析深度支持明确的结论,明确的结论支持更好的决策。
数据量涉及个体的数量和每个个体的变量数量。**数据结构 = 数据量 + 个体分组。**大多数数据集呈现以下形式:
-
有许多个体。
-
对每个个体,观察到多个变量。
-
个体被认为是相互独立的。
鉴于这种形式,回答以下问题将缩短得出有意义结论的路径。
-
什么应被视为一个个体?
-
个体是否以需要纳入分析的方式分组/关联?
-
每个个体测量了哪些变量?
-
是否缺少任何观察值?可以做什么来替代/估计这些值?
注意:小数据集可以轻松检查数据结构,而大数据集可能只能对结构的少部分进行分析。将这一点纳入你的分析中,并根据需要花费时间。
-
**初步数据处理。**意图 = 检查数据质量、结构和数量,并将数据汇总为详细分析的形式。
-
**初步分析。**意图 = 明确数据的形式,并建议定量分析的方向(图表、表格)。
-
**定量分析。**意图 = 提供结论的基础。
-
**结论展示。**意图 = 准确、简洁、清晰的结论,并具有领域解释。
…但这些阶段存在一些警告:
-
阶段的划分是有用的,但不是严格的。初步分析可能得出明确结论,而最终分析可能揭示意外的差异,需要重新考虑分析的整体基础。
-
在给定清理过的数据集时跳过 1。
-
在已有大量现有分析的领域中跳过 2。
记住,统计分析只是更大决策过程中的一个步骤。向决策者展示结论对任何分析的有效性至关重要:
-
结论风格应根据观众调整。
-
用对关键非技术读者合理的形式解释分析的广泛策略。
-
包括结论和数据之间的直接链接。
-
以简单方式呈现复杂分析的努力是值得的。然而,请注意,简单性是主观的,并与熟悉度相关。
从技术角度看,分析风格指的是如何建模关注的基础系统:
-
概率/推断性: 得出受不确定性影响的结论,通常是数值的。
-
描述性: 旨在总结数据,通常是图形化的。
适当的分析风格有助于保持关注。早点考虑,它将减少返回到耗时数据处理步骤的需求。
技术选择渗透到应用统计分析的各个方面,包括:
-
原始数据的组织和存储。
-
结论的安排。
-
实施主要分析/分析。
那么,什么时候应该引起注意呢?
-
大规模调查 + 大数据 = 如果现有工具无法实现灵活性和性能,值得将资源投入到定制程序/库中。
-
大规模调查 + 小数据 = 计算考虑不重要。
-
小规模调查 + 大数据 = 定制程序不可行,灵活和通用程序/库的可用性至关重要。
-
小规模调查 + 小数据 = 计算考虑不重要。
尽管可以在多种调查类型中使用各种统计方法,但结果的解释将根据调查设计有所不同:
-
实验 = 系统由调查者设置和控制。可以自信地将明显的差异归因于变量。
-
观察性研究 = 调查者对数据收集没有控制,只有监控数据质量。真正的解释变量可能缺失,难以自信地得出结论。
-
样本调查 = 由调查者控制的方法(随机化)从总体中抽取的样本。对总体的描述性属性可以得出可靠结论,但解释变量如上所述受限。
-
受控前瞻性研究 = 由研究者选择的样本,解释变量被测量并随着时间的推移进行跟踪。具有实验的一些优点,但实际上不可能测量所有解释变量。
-
受控回顾性研究 = 现有数据集,适当地处理解释变量。
注意:调查设计的一个重要方面是区分反应变量和解释变量。
显然,调查的目的很重要。但你应该如何考虑目的呢?
首先,目标的一般定性区分:
-
解释性: 增强理解。任意选择适合的模型是危险的。
-
预测性: 主要的实际用途。容易在适合的模型中任意选择。
调查的具体目的可能表明,分析应该集中在研究系统的某个特定方面。这也影响到结论的类型和结论的呈现方式。
目的可能决定了结论的有效期。如果观察到变量之间关系的变化,任何完全基于经验选择的模型都会面临风险。
几乎生活中的所有任务都可以从这个框架来考虑:
输入 -> 系统 -> 输出
然后工作就变成了定义框架的每个方面。
实用统计推理涉及到“系统”。系统的某些部分无法脱离上下文来确定。有些部分可以。实用统计推理实际上只是能够轻松且熟练地定义你的“系统”的能力。这种能力绝对不仅限于这些原则。
如果你想看到编程/数据科学方面的副业展示在你面前,请查看我的YouTube 频道,我在其中发布了完整的 Python 构建过程。
目标是激励和合作,所以请与我联系!
简介:Neil Chandarana 从事机器学习工作,并且是前期权交易员。他正在从事改善生活和增强人类生活体验的项目,并且喜欢分享他的想法。
原文。经许可转载。
相关:
-
联合分析:入门
-
使用 Python 进行探索性数据分析
-
类固醇中的探索性数据分析