原文:
www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html
第 15 届 KDnuggets 软件调查引起了分析和数据挖掘社区及供应商的巨大关注,吸引了超过 3,000 名选民。
这项投票测量了数据挖掘工具的使用范围,以及鉴于 KDnuggets 的受欢迎程度,供应商对其工具的宣传力度。许多供应商要求用户参与投票,但有一位供应商创建了一个特殊页面,硬编码仅投票支持其软件。在公平竞选中,支持你的候选人是正常的,但不给选民提供仅有一个选项的选票是不合适的。选民应该能够考虑所有选择。来自该供应商的无效票已从投票中移除,留下了 3,285 张有效票用于本次分析。
我们确实有来自许多供应商的广告,但这些供应商出现在投票的顶部、中部和底部,广告对投票结果完全没有影响。我们更关注通过本次投票揭示的总体趋势 - 见下文分析。
平均使用的工具数量为 3.7,显著高于 2013 年的 3.0。
商业软件和免费软件之间的差距继续缩小。(注意:由于 RapidMiner 最近相对较晚推出了商业版本,因此在下面的分析中我们将 RapidMiner 视为免费软件。)
今年,71%的选民使用了商业软件,78%使用了免费软件。约 22%仅使用商业软件,低于 2013 年的 29%(部分变化可能由于 2013 年 RapidMiner 商业版和免费版投票的混淆)。约 28.5%仅使用免费软件,略低于 2013 年的 30%。49%同时使用了免费和商业软件,高于 2013 年的 41%。
约 17.5%的选民报告使用 Hadoop 或其他大数据工具,相较于 2013 年的 14%有所增加(2012 年为 15%,2011 年为 3%)。
这表明大数据的使用增长缓慢,并且仍主要是网络巨头、政府机构和非常大型企业的少数分析师的领域。大多数数据分析仍然是在“中型”及小型数据上进行的。
以下词云表示了对工具的投票情况。
-
RapidMiner, 44.2%份额(2013 年为 39.2%)
-
R, 38.5%(2013 年为 37.4%)
-
Excel, 25.8%(2013 年为 28.0%)
-
SQL, 25.3%(2013 年为无数据)
-
Python, 19.5%(2013 年为 13.3%)
-
Weka, 17.0%(2013 年为 14.3%)
-
KNIME, 15.0%(2013 年为 5.9%)
-
Hadoop, 12.7%(2013 年为 9.3%)
-
SAS Base,10.9%(2013 年为 10.7%)
-
Microsoft SQL Server,10.5%(2013 年为 7.0%)
在市场份额至少为 2%的工具中,2014 年增长最多的是
-
Alteryx,增长 1079%,从 2013 年的 0.3%升至 2014 年的 3.1%
-
SAP(包括 BusinessObjects/Sybase/Hana),增长 377%,从 1.4%升至 6.8%
-
BayesiaLab,增长 310%,从 1.0%升至 4.1%
-
KNIME,增长 156%,从 5.9%升至 15.0%
-
Oracle Data Miner,2014 年增长 117%,从 1.0%升至 2.2%
-
KXEN(现为 SAP 的一部分),增长 104%,从 1.9%升至 3.8%
-
Revolution Analytics R,增长 102%,从 4.5%升至 9.1%
-
TIBCO Spotfire,增长 100%,从 1.4%升至 2.8%
-
Salford SPM/CART/Random Forests/MARS/TreeNet,增长 61%,从 2.2%升至 3.6%
-
Microsoft SQL Server,增长 50%,从 7.0%升至 10.5%
Revolution Analytics、Salford Systems 和 Microsoft SQL Server 已经连续 2 年表现出强劲的增长。
不断增长的分析市场也反映在更多的工具中(超过 70 种)。
2014 年获得至少 1%市场份额的新分析工具(不包括如 Perl 或 SQL 等语言)有
-
Pig 3.5%
-
Alpine Data Labs,2.7%
-
Pentaho,2.6%
-
Spark,2.6%
-
Mahout,2.5%
-
MLlib,1.0%
在市场份额至少为 2%的工具中,2014 年最大下降的是
-
StatSoft Statistica(现为戴尔的一部分),2014 年下降 81%,从 2013 年的 9.0%降至 1.7%(部分由于 Statistica 成为戴尔的一部分后缺乏宣传)
-
Stata,下降 32%,从 2.1%降至 1.4%
-
IBM Cognos,下降 24%,从 2.4%降至 1.8%
-
MATLAB,下降 15%,从 9.9%降至 8.4%
Statistica 的市场份额已连续 2 年下降(2012 年为 14%)。随着最近被戴尔收购,Statistica 很可能会继续失去市场和关注度。
下表显示了调查结果,包括工具(用户投票),仅使用百分比。
仅使用 是指工具投票者仅使用该工具的百分比。例如,仅 0.9%的 Python 用户只使用 Python,而 35.1%的 RapidMiner 用户表示他们仅使用该工具。
你在过去 12 个月中用于实际项目的分析、大数据、数据挖掘、数据科学软件是什么? [3285 名投票者] |
---|
| 图例:红色:免费/开源工具 绿色:商业工具
Fuchsia: 与 Hadoop 相关的工具 | 2014 年用户%
2013 年用户%
na - 2013 年未包含在调查中。 |
在这次调查中未列出的附加工具,但在评论中提到过的有
-
Frontline Systems XLMiner (数据挖掘工具用于 Excel) 和 Solver(优化工具),www.solver.com/products-overview
-
OmniScope,集成了与 R 的“回合处理”,使 Omniscope 中的任何人都能进行数据清洗等操作,www.visokio.com/download
-
DataDetective(数据挖掘与 Mapinfo / ArcGis GIS 和 I2 Analyst's Notebook 的结合)
-
Oracle R Enterprise
-
Vowpal Wabbit,hunch.net/~vw/
-
VISUAL PROCESS,www.visual-process.com
下表显示了按地区和工具类型的分类:商业/免费/两者兼有。仅使用 Hadoop 工具的人员大约有 12 人,他们被排除在以下分析之外。
尽管在所有地区,使用免费工具和商业工具的分析师比例都约为 50%,但只有美国是商业工具使用者多于免费工具使用者的地区(2/1 比例)。在欧洲、亚洲和拉丁美洲,这一比例正好相反,只有免费工具使用者的数量是商业工具使用者的 2 到 4 倍。
区域, 平均工具数量 | ![]() ![]() ![]() |
---|---|
美国/加拿大 (39%), 3.8 | ![]() |
欧洲 (36%), 3.5 | ![]() |
亚洲 (12%), 4.2 | ![]() |
拉丁美洲 (6.1%), 3.8 | ![]() |
非洲/中东 (3.2%), 3.6 | ![]() |
澳大利亚/新西兰 (3.0%), 4.2 | ![]() |
我们还研究了各地区 Hadoop 相关工具(包括 Spark)的使用情况,并注意到 Hadoop 的使用增长在美国之外的地区尤其是亚洲增长最快。
区域 | 2014 年使用 Hadoop 相关工具的百分比 | 2013 年使用 Hadoop 相关工具的百分比 |
---|---|---|
美国/加拿大 | 18% | 17% |
欧洲 | 13% | 12% |
亚洲 | 31% | 19% |
拉丁美洲 | 16% | 8% |
非洲/中东 | 17% | 11% |
澳大利亚/新西兰 | 12% | 9% |
全部 | 18% | 14% |
这里还有额外的 KDnuggets 软件调查分析,包括如何下载匿名调查数据。
相关内容:
-
KDnuggets 2013 年软件调查:RapidMiner 与 R 争夺第一名.
-
KDnuggets 2012 年调查:分析、数据挖掘、大数据软件使用情况
-
KDnuggets 2011 年调查:数据挖掘/分析工具使用情况
-
KDnuggets 2010 年调查:数据挖掘/分析工具使用情况
-
KDnuggets 2009 年调查:数据挖掘工具使用情况
-
KDnuggets 2008 年调查:数据挖掘软件使用情况
-
KDnuggets 2007 年调查:数据挖掘/分析软件工具