项目名称：基于Spark2.x新闻网大数据实时分析可视化系统项目

项目简介

目标

1、完成大数据项目的架构设计，安装部署，架构继承与开发、用户可视化交互设计

2、完成实时在线数据分析

3、完成离线数据分析

具体功能

1、捕获用户浏览日志信息

2、实时分析前20名流量最高的新闻话题

3、实时统计当前线上已曝光的新闻话题

4、统计哪个时段用户浏览量最高

5、报表

所用组件 Hadoop2.x、Zookeeper、Flume、Hive、Hbase、Kafka、Spark2.x、SparkStreaming、MySQL、Hue、J2EE、websoket、Echarts

开发工具

虚拟机： VMware、centos

虚拟机SSH: SecureCRT（在windows上链接多个虚拟机）

程序编辑器：IDEA

查看各种数据：notepad++（安装NppFTP插件，修改虚拟机中配置文件，好用的一批）

所有软件下载地址：

链接：https://pan.baidu.com/s/18wrxmczkzgoNE2WTZwjPSA 提取码：73q8

项目架构

集群资源规划

利用VMware虚拟机+centos完成，基本要求笔记本电脑内存在8G以上。最低要去克隆出3台虚拟机，每台给2G内存。

项目实现步骤

1、第一章：项目需求分析与设计

2、第二章：linux环境准备与设置

3、第三章：Hadoop2.X分布式集群部署

4、第四章：Zookeeper分布式集群部署

5、第五章：hadoop的高可用配置（HA）

6、第六章：hadoop的HA下的高可用HBase部署

7、第七章：Kafka简介和分布式部署

8、第八章：Flume简介和分布式部署

9、第九章：Flume源码修改与HBase+Kafka集成

10、第十章：Flume+HBase+Kafka集成全流程测试

11、第十一章：mysql、Hive安装与集成

12、第十二章：Hive与Hbase集成

13、第十三章：Cloudera HUE大数据可视化分析

14、第十四章：Spark2.X集群安装与spark on yarn部署

15、第十五章：基于IDEA环境下的Spark2.X程序开发

16、第十六章：Spark Streaming实时数据处理

项目配套视频

链接：https://pan.baidu.com/s/1Q-XGRjRwyVa0UFSzfbjFdQ

提取码：qart

群内有更多相关电子书籍和1000G网盘资料

本QQ群用于求职交流、技术探讨以及TALKDATA最新面经动态分享等。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

news-project.md

news-project.md

项目名称：基于Spark2.x新闻网大数据实时分析可视化系统项目

项目简介

开发工具

项目架构

集群资源规划

项目实现步骤

项目配套视频

群内有更多相关电子书籍和1000G网盘资料

Files

news-project.md

Latest commit

History

news-project.md

File metadata and controls

项目名称：基于Spark2.x新闻网大数据实时分析可视化系统项目

项目简介

开发工具

项目架构

集群资源规划

项目实现步骤

项目配套视频

群内有更多相关电子书籍和1000G网盘资料