-
dotamax.sql为表结构的建库脚本,导入数据库后,若想继续爬取,请按ID范围的命名规则改名。 各列信息介绍如下:
RecordID
对每一条记录建立一个唯一的ID,即本数据库的主键MatchID
比赛IDPlayerID
玩家的数字IDDuration
比赛时长(单位:min)Area
服务器地点FBTime
一血时间(单位:s)Skill
比赛等级(1-Normal 2-High 3-VeryHigh 4-职业)GameMode
比赛模式(只收录了普通,天梯,队长模式)HeroName
英雄名称HeroLevel
比赛结束时等级Kill
杀敌Death
死亡Assist
助攻KDA
kdaBattlePercentage
参战率DamagePercentage
伤害率Lasthit
正补Denied
反补GPM
金钱/minXPM
经验/minTDamage
建筑伤害Heal
治疗Item0
装备,下同Item1
Item2
Item3
Item4
Item5
Lasthit/min
正补/minDenied/min
反补/minDamage/min
伤害/minTDamage/min
建筑伤害/minHeal/min
治疗/minWinOrLose
胜负,1为胜利0为失败IsStar
是否为明星选手(Dotamax对一些职业选手 主播等的ID进行标记,可以从网页中看到该选手是否为明星选手),1是0否IsMVP
是否为MVP,1是0否 -
爬虫源码运行环境:MySQL 5.5, jdk 1.7 各类说明: parser.GetProxy:获取代理的工厂类,包含三个方法: public static ArrayList getUsefulProxiesFromXici(int pages) :从xicidaili网页上获取可用的http代理,参数pages表示获取前几页。 public static ArrayList getUsefulProxiesFromKuaidaili(int pages):从kuaidaili网页上获取可用的http代理。 public static ArrayList getUsefulProxiesFromFile() throws IOException:从工程包中的proxy.txt中读取可用的代理。至于proxy.txt怎么生成,就不是本工程的事情了。 parser.GetRandom:获取随机数集合,用于生成采样ID。不需改动。 public static void randomSet(int min, int max, int n, HashSet set):获取从min到max的n个随机数,存储在集合set里面。 parser.MainClass;主函数所在类。 注意,实际爬取的时候,有一些可调参数: 第14行-第16行可以调整获取代理的方式; 第18行 threadBonus变量指定对每个可用的代理开启多少个线程,线程个数*倍率若大于MySQL最大连接数,请查找修改最大连接数的指令。 第21-23行 分别指定爬取ID的最小值 最大值 采样率 parse.Parse:爬取逻辑类。 注意:第38-42行指定是否开启代理,如果注释掉则不开启代理(速度会快,但dotamax会监控到你的IP,被永久封就sb了。) parse.ParseThread:爬虫线程类。 注意:21行指定插入哪个表,暂未设计成根据主函数的ID范围自动生成表名。所以【主函数的ID范围,MySQL的表名和本行指定的表名要人工的一一对应。】(这个是最重要的~~) parse.Proxy,parse.RecordBean:都是存储数据的JavaBean类。不需改动。 test.testProxy:用于测试一个代理是否好使。属于冗余代码,没有任何用。
-
使用说明: (1)安装jdk 和 MySQL,并配置环境变量。 (2)指定用户名为root,密码为123456,并新建数据库名为dotamatch。(如果想自定义,请在ParseThread.java的67-69行修改。) (3)按建库脚本新建一个空表。 (4)寻找合适的http代理,最好在中国。 (5)调整参数,运行程序。
-
Notifications
You must be signed in to change notification settings - Fork 0
cmershen1/DotamaxParser
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published