리그오브레전드 대회 승패예측 프로젝트입니다.
자세한 설명은 Project2.ipynb에 전부 담았습니다.
khajiit_lol_league.ipynb 이것은 웹스크랩하는 프로그램입니다. 매번 스크랩하면 안돼기 때문에 스크랩, 데이터처리 후 따로 올렸습니다.
코드스테이츠 발표 당일 시간이 없어 빠르게 진행했다가 데이터랭글링에서 실수를 하여 학습데이터누출이 있었습니다.
그 당시 발표로 0.8이 넘게 나왔으나 발표 후 곧바로 랭글링을 다시하여 0.65가 나왔습니다.
현재 승부의신 이벤트가 얼마 남지 않아 이 데이터 분석을 보강하기로 했습니다.
발표 이후로 파이썬, 깃허브, API, 딥러닝, 자세한데이터분석절차 등 더욱 많은 학습을 했습니다.
발표 당시 보강할 점으로
1 감독과 코치데이터,
2 API를 활용한 리그 버전별 메타데이터,
3 지표의 분산을 통한 선수멘탈측정,
4 공식홈페이지의 자세한 정보를 통한 추가 경기정보
이렇게 추가분석을 하면 좋을것이라 생각했지만
감독과 코치는 공식지표가 존재하지 않고 배경지식으로 지표를 만들기도 힘들어서 1번을 버리고
API를 활용하기 위해 모든 선수의 모든 계정을 알아야해서 2번을 버리고
공식홈페이지의 매칭정보 서비스가 종료되어 4번을 버리기로 했습니다.
3번에 추가로 지표를 상대전적으로 바꾸고, 지역도 타겟인코딩 후 상대점수로 바꾸고
시계열데이터의 특성을 반영해보기로 했습니다.
그리고 기존엔 시간에 쫓겨 적당히 좋아보이는 모델하나만 써서 분석했습니다.
그래서 위의 보강을 하기 전, 다른모델과 다른 하이퍼파라미터를 사용하여 분석을 할것입니다.
버전2 반성
시도한 것 1 새로운 데이터 스크랩법으로 모든 리그를 예전보다 빠르게 가져올 수 있었다. 그런데 페이지를 6200번 긁어야해서 2초 rest time을 가진다하면 몇시간 걸림. 페이지 500개당 30분정도 소요, rest시간은 1000초니까 16분, 데이터계산에 약2초가 걸린다는 뜻. 데이터계산 시간을 줄인다면 더 좋을 듯. 2 데이터가 10000개가량에서 60000개가량으로 늘어서 기존 방법으로 다시 분석했더니 정확도 0.55로 떨어짐 마이너리그가 추가된것이라 지역인코딩을 하려했으나 지역정보를 받아오려면 데이터 스크랩을 다시해야함 그리고 지역정보만 받을게 아니라, 1군, 2군을 나눌 수 있어야 함. 한국 지역은 매우 강하나 한국지역의 아카데미리그, 3군은 약함 3 멘탈측정과 선형예측을 통한 트렌드반영은 시간이 없어서 못함. 애초에 데이터 분석을 하려면 1군,2군을 나눌 수 있어야 함. 지역을 나누고 나면 이 두 개는 쉽게 할 수 있을거라 생각함 4 예측모델을 만들고 나면 적용하는 코드를 만들어야함. 이번엔 버전2는 완성 못하고 버전1의 데이터를 활용하기 애매해서(파이썬 advanced 수업, 스크랩 배우기 전에 만들었던 코드라서) 못만듬
버전2 배운것 데이터를 애초에 잘구해야한다 데이터 보관을 SQL할때처럼 여러 테이블로 하면 중간에 데이터를 추가하기 쉽다 데이터 구하는 코드 짤때 기존 데이터에 새 데이터를 추가하는 코드를 넣으면 좋을듯하다. 데이터 계산하는 코드를 최적화해도 시간이 많이 걸리니까 여유시간을 많이 가지자. 버전1 6일, 버전2 4일로는 힘들었다
라이엇api로 과거데이터 불러올수있을지 불분명함. 지금까지 알아본 바로는 불가능함. 버전2에서 대회전적으로 뽑을수있는 insight는 제한되는걸로 예상하고 더 높은 예측률을 위해 다른 데이터가 필요하다생각했음. 심지어 이번 롤드컵에 상당히 높은 성과를 낼거라 예상된 fpx가 마이너팀에게 패배하며 전패를 기록하면서 다른데이터의 필요성이 높아짐. 다른데이터는 스크림전적이나 감독, 게임메타데이터, 선수최근연습성과 등등인데 여기서 라이엇api의 제한된 성능 때문에 게임메타정보를 얻기가 매우어렵게된것.