原文:
www.kdnuggets.com/2023/03/3-mistakes-could-affecting-accuracy-data-analytics.html
图片由编辑提供
现在是 2023 年,这意味着大多数行业的大多数企业都在借助大数据收集洞察并做出更聪明的决策。这在如今并不令人惊讶——能够收集、分类和分析大数据集在做出数据驱动的业务决策时极为有用。
1. 谷歌网络安全证书 - 快速进入网络安全职业道路
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT 管理
随着越来越多的组织接受数字化,掌握和依赖数据分析的能力只会持续增长。
关于大数据,有一点是这样的:随着更多组织依赖大数据,它们使用大数据的错误几率也会增大。为什么?因为大数据及其提供的洞察力只有在组织准确分析数据时才有用。
图片来源:dataladder
为此,让我们确保你避免一些常见错误,这些错误通常会影响数据分析的准确性。继续阅读以了解这些问题及如何避免它们。
在我们指责之前,我们需要承认大多数数据集都有一定的错误,这些错误在分析数据时对任何人都没有帮助。无论是打字错误、奇怪的命名惯例,还是冗余,数据集中的错误都会混淆数据分析的准确性。
所以,在你对深入数据分析的世界感到过于兴奋之前,你首先需要确保数据清理在你的待办事项的首位,并且始终正确地清理你的数据集。你可能会说,“嘿,数据清理对我来说太耗时了”,对此我们深表理解。
幸运的是,你可以投资于如增强分析等解决方案。这利用了机器学习算法来加速你的数据分析速度(并且它也提高了分析的准确性)。
底线是:无论你使用什么解决方案来自动化和改进数据清理,你仍然需要进行实际的清理——如果不这样做,你将没有一个合适的基础来进行准确的数据分析。
就像数据集一样,大多数算法并不是百分之百完美的;大多数都有其缺陷,并且并不总是按照你的期望工作。具有许多缺陷的算法甚至可能忽视对你的分析至关重要的数据,或者可能关注错误的数据类型,这些数据实际上并不重要。
大型科技公司不断审查其算法并尽可能调整到接近完美,这已不是秘密,因为很少有算法是完美无瑕的。你的算法越准确,你的程序完成目标并做你需要它做的事情的保证就越大。
此外,如果您的组织中即便只有几个数据科学家,也应确保他们定期更新其数据分析程序中的算法——甚至可能值得建立一个时间表,使团队对按照约定时间表维护和更新数据分析算法负责。
更好的做法可能是建立一个利用 AI/ML 基础算法的策略,这些算法应能自动更新。
大多数可以理解的是,许多不直接参与数据分析团队的商业领袖并没有意识到算法和模型并不是同一回事。如果你也不清楚,记住算法是我们用来分析数据的方法;模型是通过利用算法输出创建的计算。
算法可以全天处理数据,但如果其输出没有经过设计用于检查后续分析的模型,那么你将得不到任何可用或有用的见解。
想象一下:如果你有复杂的算法在处理数据,但没有任何洞察来展示,那么你做出的数据驱动决策不会比在拥有这些算法之前更好;这就像是想把用户研究纳入你的产品路线图,却忽略了例如市场研究行业在 2021 年创造了 764 亿美元的收入,自 2008 年以来增长了 100%。
你的意图可能很值得赞赏,但你需要利用现代工具和知识,尽最大能力提取这些洞察或将用户研究纳入你的路线图。
遗憾的是,次优模型无论算法多么复杂,都是让你的算法输出一团糟的可靠方式。因此,商业高管和技术领导者必须更紧密地与他们的数据分析专家合作,以创建既不太复杂也不太简单的模型。
根据他们处理的数据量,商业领袖可能会选择通过几种不同的模型,然后再决定一个最适合他们需要处理的数据量和类型的模型。
最终,如果你想确保你的数据分析不会持续出错,你还需要记住永远不要陷入偏见。偏见不幸的是保持数据分析准确性的最大障碍之一。
无论是影响收集的数据类型还是影响商业领袖解读数据的方式,偏见都是多种多样的,通常难以确定——高管们需要尽力识别自己的偏见并摒弃它们,以便从始终准确的数据分析中受益。
数据是强大的:当使用得当时,它可以为商业领袖及其组织提供极其有用的洞察,改变他们开发和交付产品给客户的方式。只需确保你尽一切努力确保你的数据分析准确,不会遭遇我们在本文中概述的那些容易避免的错误。
Nahla Davies 是一名软件开发人员和技术作家。在全职从事技术写作之前,她曾管理过——除了其他令人着迷的事情——在一家《财富》5000 强的体验品牌组织中担任首席程序员,该组织的客户包括三星、时代华纳、Netflix 和索尼。