Skip to content

1. 从hive中读取数据到spark中,对数据进行离线统计,将统计 结果写入到mysql中进行保存。2. 模拟实时生产数据,写入文件,使用flume实时监控文件将数据传输到kafka中保存,再对接kafka-streaming进行实时的数据统计

Notifications You must be signed in to change notification settings

changguanguang/AnalysisOfCustomerAction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

电商数仓用户行为分析大数据平台

项目介绍:

  1. 基于Spark开发的平台

  2. 有很多高级知识和设计模

  3. 电商用户行为分析大数据平台

  4. 访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。

  5. 主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。

  6. 所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。

模块介绍:

1、用户访问session分析:该模块主要是对用户访问session进行统计分析,包括session的聚合指标计算、按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session。 该模块可以让产品经理、数据分析师以及企业管理层形象地看到各种条件下的具体用户行为以及统计指标,从而对公司的产品设计以及业务发展战略做出调整。主要使用Spark Core实现。

2、页面单跳转化率统计:该模块主要是计算关键页面之间的单步跳转转化率 该模块可以让产品经理、数据分析师以及企业管理层看到各个关键页面之间的转化率,从而对网页布局,进行更好的优化设计。主要使用Spark Core实现。

3、热门商品离线统计:该模块主要实现每天统计出各个区域的top3热门商品。 该模块可以让企业管理层看到公司售卖的商品的整体情况,从而对公司的商品相关的战略进行调整。主要使用Spark SQL实现。

4、广告流量实时统计:该模块负责实时统计公司的广告流量,包括广告展现流量和广告点击流量。实现动态黑名单机制,以及黑名单过滤; 实现滑动窗口内的各城市的广告展现流量和广告点击流量的统计;实现每个区域每个广告的点击流量实时统计;实现每个区域top3点击量的广告的统计。主要使用Spark Streaming实现。

About

1. 从hive中读取数据到spark中,对数据进行离线统计,将统计 结果写入到mysql中进行保存。2. 模拟实时生产数据,写入文件,使用flume实时监控文件将数据传输到kafka中保存,再对接kafka-streaming进行实时的数据统计

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published