作者:Norbert Obsuszt,AnswerMiner。
与其他总结方法相比,直方图具有最丰富的描述能力,同时也是解释数据最快的方式——人脑更喜欢视觉感知。然而,如果不小心,观众可能无法理解你的直方图,或者你可能无法充分利用它。特别重要的是要指定最佳的分箱大小。
1. Google 网络安全证书 - 快速进入网络安全职业
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你所在组织的 IT
为什么选择直方图?
如果你有一组数据值,你可能想要与老板或同事分享这些信息,以便基于这些数据中的信息建立更好的业务。这些数据值可能是以下任何一种:
-
客户年龄
-
月度收入
-
访客在你的网站上停留的时间
-
经销商销售的汽车数量
你应该以简洁的方式分享信息,因为没人愿意逐一阅读数字值。
替代方案是错误的
假设你有一组数字:1、23、24、25、25、25、26、27、30、32、999
均值(112.45)对离群值非常敏感。几乎所有实际数据都有离群值,因此均值可能非常误导。
中位数(25)不能告诉你关于分布的任何信息。
完整范围(1 – 999)仅显示了离群值。
标准差(294.1436)没有统计背景很难解释。
方差(86520.47)没有统计背景很难解释。
四分位距(IQR)(24.5 – 28.5)是你值的中央 50%,不能告诉你其他 50% 的信息。
你认为哪种方式最能描述这些数字?答案是它们都不行,因为这些数字总结技术没有包含关于峰值或分布形状的信息。因此,你应该总是使用直方图。
小心分箱
直方图是柱状图,每个柱子代表一个值的范围,柱子的高度对应于该范围内的值的数量。
你使用的范围(分箱宽度)越宽,柱子(分箱)就会越少。
过宽的区间可能隐藏有关分布的重要细节,而过窄的区间可能会产生大量噪声,并隐藏有关分布的重要信息。区间的宽度应该相等,并且你应该只使用诸如 1、2、5、10、20、25、50、100 等整数值,以便观众更容易解释数据。
这些直方图是从包含 550 个值的相同示例数据集中创建的,这些值在 12 到 69 之间。
过宽:区间过宽,无法检测到大约 53 处的异常峰值
过窄:区间过窄,巧合中出现很多峰值
不美观:难以阅读,因为区间宽度为不美观的 7
不均等:难以阅读,因为区间宽度不相等
理想:这个很不错。
提示
如果你有少量数据,使用较宽的区间来消除噪声。如果你有大量数据,使用较窄的区间,因为直方图的噪声不会那么大。
可以使用的方法
对于上述数据集(包含 550 个值在 12 到 69 之间),我们得到以下结果:
平方根 | 斯特吉斯 | 赖斯 | 斯科特 | 弗里德曼-迪阿科尼斯 | |
---|---|---|---|---|---|
区间数量 | 23 | 11 | 17 | 14 | 16 |
区间宽度 | 2 | 5 | 3 | 4 | 4 |
开启或关闭
这并不容易决定。现在问题来了。如果你查看 10-15-20-25…的分箱直方图,值“20”的出现是表示在第二列、第三列还是两者都有?显然,你需要将每个具体值放入一个精确的区间中。
有两个选项可以做到这一点:
选项 A - 所有区间应为左开右闭的区间
第一个区间: | (10,15] | 包含这些值: | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|
第二个区间: | (15,20] | 包含这些值: | 16 | 17 | 18 | 19 | 20 |
第三个区间: | (20,25] | 包含这些值: | 21 | 22 | 23 | 24 | 25 |
选项 B - 所有区间应为左闭右开的区间
第一个区间: | [10,15) | 包含这些值: | 10 | 11 | 12 | 13 | 14 |
---|---|---|---|---|---|---|---|
第二个区间: | [15,20) | 包含这些值: | 15 | 16 | 17 | 18 | 19 |
第三个区间: | [20,25) | 包含这些值: | 20 | 21 | 22 | 23 | 24 |
避免陷阱
你可以自由选择这些选项中的任何一个,但要小心!使用这两个选项中的任何一个,都有一个值不会包含在直方图中。如果你选择选项#1,那么值“10”将不会包含在任何区间中。如果你选择选项#2,那么值“25”将不会包含在任何区间中。
解决方案是强制直方图的第一个或最后一个箱子为完全闭合区间。我们建议在使用选项#2 时选择最后一个箱子,因为均匀的箱子在左侧通常比右侧更重要。如果你有整数值,建议将箱子标记为“10-14”,“15-19”,和“20-25”,而不是写“10”,“15”,“20”,“25”。这样,直方图的观众会更容易理解。
简历: 诺伯特·奥布苏茨特 是 AnswerMiner(www.answerminer.com)的创始人、数据科学家和程序员。他获得了数学和编程学位。诺伯特对数据分析、预测分析和数据科学充满热情。他可以通过 [email protected] 或 LinkedIn 联系到。
相关