Skip to content

Latest commit

 

History

History
153 lines (105 loc) · 3.96 KB

201610todo.md

File metadata and controls

153 lines (105 loc) · 3.96 KB

数据获取

scrapy

Nutch

数据存储

hdfs

hbase

ETL基础数据加工

数据查询

数据分析

OLAP选型

立方体计算 离线 kylin 在线 sparksql rdd mr

http://engineering.ooyala.com/blog/experience-building-olap-engine-spark-and-cassandra

https://github.com/SparklineData/spark-druid-olap

http://www.ibm.com/developerworks/cn/analytics/library/ba-pp-performance-cognos_specific-page690/index.html

传统olap IBM Cognos PowerCube、Dynamic Cubes、TM1(内存cube)

kylin系

http://kylin.apache.org http://kyligence.io 商业公司 Kyligence Analytics Platform

druid系 http://druid.io/druid.html http://imply.io/ 商业公司 http://drill.apache.org/ Drill + Druid

其他开源 Presto+hbase/Cassandra + spark +drill

https://code.google.com/p/fast-el/ https://code.google.com/p/aviator

近期使用aviator-2.3.3.jar、fel、groovy、drools;比较了一下还是觉得aviator评价比较高

http://blog.csdn.net/lxzo123/article/details/6082338

Druid是一个基于列存储的分布式OLAP查询引擎,具有快速的数据聚合能力,提供亚秒级的查询响应。在阿里巴巴,我们使用Druid对每天百亿级别的数据进行实时的多维统计分析,帮助我们的用户制定决策。

在我们的使用场景和数据量下,对Druid的build和query性能都提出了更高的要求,我们针对这两点做了一系列的优化,同时,我们也对Druid的查询功能做了一些扩展,比如计算DistinctCount的Aggregator,在提供精确结果的同时具有很高的性能。

除此之外,为了填补Druid没有SQL接口的空缺,我们引入了Drill和Druid进行集成。Drill提供了标准的SQL接口,以及可扩展的分布式查询引擎。我们用drill替代了Druid的broker,获得了支持标准SQL以及支持更复杂Query的能力,比如具有超大结果集的group by和join查询。同时,通过对Drill + Parquet,Drill + Druid,Druid broker这三者进行性能对比,我们发现Drill + Druid具有最好的表现。

http://www.atscale.com/ http://www.kyvosinsights.com/solution Presto

rdd mr 做计算 hbase或Cassandra 列族库做宽表存储 web节目整合监控和查询,可视化

问题列表 效率 实时性

数据展现

http://zeppelin-project.org/

http://blog.csdn.net/wzy0623/article/details/52370045 http://geek.csdn.net/news/detail/49549

产品说明书

客户画像

日志分析

数据挖掘平台

http://pasa-bigdata.nju.edu.cn/octopus/

工作列表

开源环境搭建

组件
flume  日志收集
kafka  消息中间件
hadoop hdfs+yarn+mr  hadoop核心
hive+impala  ETL加工
hbase+pheonix  宽表存储查询
kylin   olap数据集市
spark    实时计算
r+rstudioserver  分析挖掘
其他
mysql    元数据库
sbt+依赖库
scala
maven+依赖库
r软件包

工作量 2天集中部署,1周优化测试

配置库搭建

工作量 1天 权限整理

研发工作分类

现有资产整理入库
天农商poc  hive,mr,hbase等代码
外部数据平台 python爬虫
可视化平台  echarts d3
开发框架 jeso
数据治理类

数据标准、数据质量、 元数据(利旧,适应性融合)

数据质量产品定义文档 优先级低

数据平台类

各类型数据抽取、ETL、持久化

数据仓库类

数据标准化、数据整合、统一指标

决策支持类

规则引擎 实时决策

挖掘分析类

分析 挖掘 机器学习 模型生命周期管理

业务场景

决策管理平台-产品定义

olap开源实现,表达式计算引擎 规则引擎融入 主要利用 aviator kylin drools hbase等实现

客户画像系统-产品定义文档

整合现有adms+调度+管控系统 利用hive,spark,r实现客户画像

日志实时分析平台-产品定义文档

利用flume,kafka,sparksql,d3+echarts实现日志获取分析与展现 可与画像系统做有效融合