Skip to content

Latest commit

 

History

History
143 lines (66 loc) · 3.08 KB

README.md

File metadata and controls

143 lines (66 loc) · 3.08 KB

Boost Camp - AI Tech

Stage 2 - 온라인 상점 고객 구매 예측

2021.4.12 ~ 2021.04.23

2년간의 구매 데이터를 통해 고객의 12월 구매 여부 예측 문제


📋 Table of content

  1. EDA
  2. Feature Engineering
  3. Model
  4. 기타



💡 핵심 전략

➡ 사전 EDA / 사후 EDA

➡ 시계열 특성을 고려한 Feature Engineering

➡ CV 전략 : Stratified k-fold




🏃‍♀️ 성능 향상을 위한 고군분투한 여정

1. EDA (Exploratory Data Analysis)

➡ 고객, 상품 관점의 EDA 수행

✳ 고객의 구매주기 파악

image

✳ 한달 평균 구매 금액

image image

✳ 구매주기에 따른 다음 구매 달과 12월의 차이

image

➡ 사후 EDA를 통해 모델 성능 평가


2.Feature Engineering

➡ 각 Value 값의 통계적 수치

➡ 시계열 특성을 고려한 Feature

  ✳ 2011년 12월 기준으로 직전 3,6,9,12,15,18,21 개월 동안의 총구매금액(total_sum)

✳ label별 total_12 값의 분포 차이 존재

image

➡ 구매주기에 따른 다음 구매 달 예측 결과와 12월과의 차이 Feature(diff_fin)

✳ label별 diff_fin 값의 분포 차이 존재

image

➡ 상품별 중요도 Feature(prd_imp_total)

✳ 많이 주문되는 상품 순위를 중요도로 판단

✳ 중요도 = 평균 판매수량 * 단가

✳ label별 분포 차이 존재 X 

image


3. Model

➡ Tree decision : LGBM , XGBoost

✳ LGBM이 빠르고 성능이 높은 것을 확인한 결과, LGBM을 주모델로 사용

✳ 평가지표 AUC 점수 상승

image


5. 기타

➡ Feature Selection

✳ permutation Feature Selection (from eli5.sklearn import PermutationImportance)

✳ Correlation Feature Selection : Feature간의 상관계수를 통해 Feature select

➡ 코호트 분석 ➡ PCA



Reference