立方体计算 离线 kylin 在线 sparksql rdd mr
http://engineering.ooyala.com/blog/experience-building-olap-engine-spark-and-cassandra
https://github.com/SparklineData/spark-druid-olap
传统olap IBM Cognos PowerCube、Dynamic Cubes、TM1(内存cube)
kylin系
http://kylin.apache.org http://kyligence.io 商业公司 Kyligence Analytics Platform
druid系 http://druid.io/druid.html http://imply.io/ 商业公司 http://drill.apache.org/ Drill + Druid
其他开源 Presto+hbase/Cassandra + spark +drill
https://code.google.com/p/fast-el/ https://code.google.com/p/aviator
近期使用aviator-2.3.3.jar、fel、groovy、drools;比较了一下还是觉得aviator评价比较高
http://blog.csdn.net/lxzo123/article/details/6082338
Druid是一个基于列存储的分布式OLAP查询引擎,具有快速的数据聚合能力,提供亚秒级的查询响应。在阿里巴巴,我们使用Druid对每天百亿级别的数据进行实时的多维统计分析,帮助我们的用户制定决策。
在我们的使用场景和数据量下,对Druid的build和query性能都提出了更高的要求,我们针对这两点做了一系列的优化,同时,我们也对Druid的查询功能做了一些扩展,比如计算DistinctCount的Aggregator,在提供精确结果的同时具有很高的性能。
除此之外,为了填补Druid没有SQL接口的空缺,我们引入了Drill和Druid进行集成。Drill提供了标准的SQL接口,以及可扩展的分布式查询引擎。我们用drill替代了Druid的broker,获得了支持标准SQL以及支持更复杂Query的能力,比如具有超大结果集的group by和join查询。同时,通过对Drill + Parquet,Drill + Druid,Druid broker这三者进行性能对比,我们发现Drill + Druid具有最好的表现。
http://www.atscale.com/ http://www.kyvosinsights.com/solution Presto
rdd mr 做计算 hbase或Cassandra 列族库做宽表存储 web节目整合监控和查询,可视化
问题列表 效率 实时性
http://blog.csdn.net/wzy0623/article/details/52370045 http://geek.csdn.net/news/detail/49549
http://pasa-bigdata.nju.edu.cn/octopus/
组件
flume 日志收集
kafka 消息中间件
hadoop hdfs+yarn+mr hadoop核心
hive+impala ETL加工
hbase+pheonix 宽表存储查询
kylin olap数据集市
spark 实时计算
r+rstudioserver 分析挖掘
其他
mysql 元数据库
sbt+依赖库
scala
maven+依赖库
r软件包
工作量 2天集中部署,1周优化测试
工作量 1天 权限整理
天农商poc hive,mr,hbase等代码
外部数据平台 python爬虫
可视化平台 echarts d3
开发框架 jeso
数据标准、数据质量、 元数据(利旧,适应性融合)
数据质量产品定义文档 优先级低
各类型数据抽取、ETL、持久化
数据标准化、数据整合、统一指标
规则引擎 实时决策
分析 挖掘 机器学习 模型生命周期管理
olap开源实现,表达式计算引擎 规则引擎融入 主要利用 aviator kylin drools hbase等实现
整合现有adms+调度+管控系统 利用hive,spark,r实现客户画像
利用flume,kafka,sparksql,d3+echarts实现日志获取分析与展现 可与画像系统做有效融合