目标
1、完成大数据项目的架构设计,安装部署,架构继承与开发、用户可视化交互设计
2、完成实时在线数据分析
3、完成离线数据分析
具体功能
1、捕获用户浏览日志信息
2、实时分析前20名流量最高的新闻话题
3、实时统计当前线上已曝光的新闻话题
4、统计哪个时段用户浏览量最高
5、报表
所用组件 Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts
虚拟机: VMware、centos
虚拟机SSH: SecureCRT(在windows上链接多个虚拟机)
程序编辑器:IDEA
查看各种数据:notepad++(安装NppFTP插件,修改虚拟机中配置文件,好用的一批)
所有软件下载地址:
链接:https://pan.baidu.com/s/18wrxmczkzgoNE2WTZwjPSA 提取码:73q8
利用VMware虚拟机+centos完成,基本要求笔记本电脑内存在8G以上。 最低要去克隆出3台虚拟机,每台给2G内存。
10、第十章:Flume+HBase+Kafka集成全流程测试
14、第十四章:Spark2.X集群安装与spark on yarn部署
15、第十五章:基于IDEA环境下的Spark2.X程序开发
链接:https://pan.baidu.com/s/1Q-XGRjRwyVa0UFSzfbjFdQ
提取码:qart
本QQ群用于求职交流、技术探讨以及TALKDATA最新面经动态分享等。