민용

5/30일자 실험

LSTMATTN -> lr만 1e-4에서 1e-5로 수정, clip_grad를 10->20으로 하고 다른 환경은 다 동일하게 한 상태에서 LSTM+ATTN으로 모델만 변경해서 진행
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-5
- num_workers: 4
- clip_grad: 20
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(3): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률, 풀고있는 knowledgeTag의 전체 정답률
- valid_auc: 0.7836 / lb_auc: / 차이
- valid_acc: 0.7201 / lb_acc: / 차이

    "0 Fold Best Valid ACC": 0.7208053691275168,
    "1 Fold Best Valid ACC": 0.7194630872483222,
    "2 Fold Best Valid ACC": 0.7217741935483871,
    "3 Fold Best Valid ACC": 0.7298387096774194,
    "4 Fold Best Valid ACC": 0.728494623655914,
    "5 Fold Best Valid ACC": 0.6975806451612904,
    "6 Fold Best Valid ACC": 0.7271505376344086,
    "7 Fold Best Valid ACC": 0.717741935483871,
    "8 Fold Best Valid ACC": 0.7190860215053764,
    "9 Fold Best Valid ACC": 0.7190860215053764,
    "Average ACC": 0.7201021144547882,
    "0 Fold Best Valid AUC": 0.7940149733854565,
    "1 Fold Best Valid AUC": 0.7981395822423925,
    "2 Fold Best Valid AUC": 0.7903639715184154,
    "3 Fold Best Valid AUC": 0.7757039071818412,
    "4 Fold Best Valid AUC": 0.7903733107741698,
    "5 Fold Best Valid AUC": 0.7640702809358264,
    "6 Fold Best Valid AUC": 0.7918058500595462,
    "7 Fold Best Valid AUC": 0.7672836204902869,
    "8 Fold Best Valid AUC": 0.7751429252885609,
    "9 Fold Best Valid AUC": 0.7899304424612222,
    "Average AUC": 0.7836828864337717

GRUATTN -> 다른 환경은 다 동일하게 한 상태에서 GRU+ATTN으로 모델만 변경해서 진행
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-5
- num_workers: 4
- clip_grad: 20
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(3): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률, 풀고있는 knowledgeTag의 전체 정답률
- valid_auc: 0.7905 / lb_auc: / 차이
- valid_acc: 0.7262 / lb_acc: / 차이

    "0 Fold Best Valid ACC": 0.7315436241610739,
    "1 Fold Best Valid ACC": 0.738255033557047,
    "2 Fold Best Valid ACC": 0.7311827956989247,
    "3 Fold Best Valid ACC": 0.7163978494623656,
    "4 Fold Best Valid ACC": 0.7352150537634409,
    "5 Fold Best Valid ACC": 0.6895161290322581,
    "6 Fold Best Valid ACC": 0.739247311827957,
    "7 Fold Best Valid ACC": 0.7258064516129032,
    "8 Fold Best Valid ACC": 0.7271505376344086,
    "9 Fold Best Valid ACC": 0.728494623655914,
    "Average ACC": 0.7262809410406293,
    "0 Fold Best Valid AUC": 0.7998571902543167,
    "1 Fold Best Valid AUC": 0.8169910397393378,
    "2 Fold Best Valid AUC": 0.7981349622293707,
    "3 Fold Best Valid AUC": 0.7708750496981964,
    "4 Fold Best Valid AUC": 0.8003224803511131,
    "5 Fold Best Valid AUC": 0.7663180566497301,
    "6 Fold Best Valid AUC": 0.79837772678421,
    "7 Fold Best Valid AUC": 0.7753093200740054,
    "8 Fold Best Valid AUC": 0.7898944051344691,
    "9 Fold Best Valid AUC": 0.789293495175848,
    "Average AUC": 0.7905373726090598

GRUATTN -> layer=1, max_seq_len=200
- batch size: 32
- layer: 1
- max_seq_len: 200
- hidden_dim: 512
- seed: 42
- lr: 1e-5
- num_workers: 4
- clip_grad: 20
- scheduler: ReduceLROnPlateau(optimizer, patience=2, factor=0.85, mode="max", verbose=True)
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(3): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률, 풀고있는 knowledgeTag의 전체 정답률
- valid_auc: 0.7963 / lb_auc: / 차이
- valid_acc: 0.7331 / lb_acc: / 차이

    "0 Fold Best Valid ACC": 0.7395973154362416,
    "1 Fold Best Valid ACC": 0.7315436241610739,
    "2 Fold Best Valid ACC": 0.7365591397849462,
    "3 Fold Best Valid ACC": 0.728494623655914,
    "4 Fold Best Valid ACC": 0.7486559139784946,
    "5 Fold Best Valid ACC": 0.7029569892473119,
    "6 Fold Best Valid ACC": 0.75,
    "7 Fold Best Valid ACC": 0.7204301075268817,
    "8 Fold Best Valid ACC": 0.7405913978494624,
    "9 Fold Best Valid ACC": 0.7325268817204301,
    "Average ACC": 0.7331355993360755,
    "0 Fold Best Valid AUC": 0.8063341171039915,
    "1 Fold Best Valid AUC": 0.8101399313434572,
    "2 Fold Best Valid AUC": 0.8134673076227996,
    "3 Fold Best Valid AUC": 0.7824664763075144,
    "4 Fold Best Valid AUC": 0.8026000882121139,
    "5 Fold Best Valid AUC": 0.7773401079799651,
    "6 Fold Best Valid AUC": 0.8014349202660702,
    "7 Fold Best Valid AUC": 0.7790240518038853,
    "8 Fold Best Valid AUC": 0.7973026691433156,
    "9 Fold Best Valid AUC": 0.7938389826214723,
    "Average AUC": 0.7963948652404584

GRUATTN -> scheduler: CosineAnnealingWarmupRestarts, patience: 7
- batch size: 32
- layer: 1
- max_seq_len: 200
- hidden_dim: 512
- seed: 42
- lr: 1e-5
- patience: 7
- num_workers: 4
- clip_grad: 20
- scheduler: CosineAnnealingWarmupRestarts(optimizer, first_cycle=20, warmup_steps=5, cycle_mult=1.0, max_lr=args.lr, min_lr=args.lr/100, gamma=0.5)
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(3): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률, 풀고있는 knowledgeTag의 전체 정답률
- valid_auc: 0.7983 / lb_auc: 0.7896 / 차이: 0.009
- valid_acc: 0.7325 / lb_acc: 0.7231 / 차이: 0.009

    "0 Fold Best Valid ACC": 0.7355704697986577,
    "1 Fold Best Valid ACC": 0.7409395973154362,
    "2 Fold Best Valid ACC": 0.7432795698924731,
    "3 Fold Best Valid ACC": 0.728494623655914,
    "4 Fold Best Valid ACC": 0.7365591397849462,
    "5 Fold Best Valid ACC": 0.706989247311828,
    "6 Fold Best Valid ACC": 0.7432795698924731,
    "7 Fold Best Valid ACC": 0.7325268817204301,
    "8 Fold Best Valid ACC": 0.7298387096774194,
    "9 Fold Best Valid ACC": 0.728494623655914,
    "Average ACC": 0.7325972432705492,
    "0 Fold Best Valid AUC": 0.8052810755449129,
    "1 Fold Best Valid AUC": 0.808067143771455,
    "2 Fold Best Valid AUC": 0.8152239129649039,
    "3 Fold Best Valid AUC": 0.7842050095781978,
    "4 Fold Best Valid AUC": 0.806989002407757,
    "5 Fold Best Valid AUC": 0.774456305697497,
    "6 Fold Best Valid AUC": 0.8072225288291167,
    "7 Fold Best Valid AUC": 0.7838083950046254,
    "8 Fold Best Valid AUC": 0.8009815046364891,
    "9 Fold Best Valid AUC": 0.7974073350270341,
    "Average AUC": 0.798364221346199

feedback

1. 현재 진행하는 방법(seed42, kfold=10)의 lb와 val 사이의 유의미한 관계가 있는지 살펴보고 validation 전략 고민
    - 확실히 지금의 방법에는 충분히 상관관계가 존재하는 것은 분명하지만! 아직은 차이가 0.009정도 나타나니 앞으로도 계속 고민이 필요하다
    - 하지만 지금의 validation 전략상에서 validation의 점수가 오르면 lb상에서도 충분히 같이 많이 올라가니 괜찮다! 하지만 계속 고민할 것!
2. discussion에 올라온 내가 맡은 다른 feature 추가
3. 정답률에 가중치를 둬서 user의 실력을 파악하는 것은 조금 더 고민이 필요해보인다@@ 추가하면 오히려 valid score가 하락함

5/29일자 실험

LSTM
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-4
- categorical feature: "testId", "knowledgeTag", "assessmentItemID", 같은 시험지를 몇번째 만나는지
- continuous feature: 풀고있는 문제의 정답률
- valid_auc: 0.7967 / lb_auc: 0.7559 / 0.04 차이 -> 더 정확한 validation이 필요합니다 ㅜ
- valid_acc: 0.7209 / lb_acc: 0.6801 / 0.04 차이
LSTM Ensemble
- 위와 동일한 구조를 가지고 실험을 하였으며, sklearn의 kfold로 10등분을 했으며 soft voting을 통한 앙상블을 진행
- cv_auc(평균): 0.7652 / lb_auc: 0.7557 / 0.01 차이
- cv_acc(평균): 0.7117 / lb_acc: 0.6774 / 0.04 차이
LSTM Ensemble
- kfold: 10
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-4
- scheduler: Plateau, patience=2, factor=0.85
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(2): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률
- valid_auc: 0.7671 / lb_auc: 0.7609 / 0.0062 차이 -> 엥 줄어들었네 ㅋㅋ
- valid_acc: 0.7093 / lb_acc: 0.6989 / 0.01 차이
LSTM Ensemble with train & test dataset (3번과 동일한데 dataset을 전체로 늘려봤는뎅 오히려 조금 떨어지네) 가 아니라 잘못 했당,, inference하기 전에 학습을 통해 생성한 feature를 가져왔어야 했는데 실수로 test dataset에서 뽑아내버렸다,, 다시 시도해봐야할듯 ㅜㅜ)
- kfold: 10
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-4
- scheduler: Plateau, patience=2, factor=0.85
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(2): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률
- valid_auc: 0.7618 / lb_auc: 0.7577 / 0.0041 차이 -> 줄긴 했는데 점수가 줄었넹
- valid_acc: 0.7069 / lb_acc: 0.6694 / 0.027 차이
LSTM Ensemble
- kfold: 10
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-4
- scheduler: Plateau, patience=2, factor=0.85
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(3): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률, 풀고있는 knowledgeTag의 전체 정답률
- valid_auc: 0.7691 / lb_auc: 0.7611 / 차이: 0.008
- valid_acc: 0.7114 / lb_acc: 0.6774 / 차이: 0.034
LSTM Ensemble with train & test dataset (5번과 동일한데 dataset을 전체로 늘린 것!)
- kfold: 10
- batch size: 32
- layer: 2
- max_seq_len: 100
- hidden_dim: 512
- seed: 42
- lr: 1e-4
- scheduler: Plateau, patience=2, factor=0.85
- categorical feature(4): "testId", "knowledgeTag", "assessmentItemID_post3", 같은 시험지를 몇번째 만나는지
- continuous feature(3): 풀고있는 문제의 전체 정답률, 풀고있는 시험지의 전체 정답률, 풀고있는 knowledgeTag의 전체 정답률
- valid_auc: 0.7619 / lb_auc: 0.7612 / 차이: 0.0007
- valid_acc: 0.7047 / lb_acc: 0.6828 / 차이: 0.0219
- fold별 점수 -> 생각보다 굉장히 비슷하게 나오네요!

    "0 Fold Best Valid ACC": 0.7181208053691275,
    "1 Fold Best Valid ACC": 0.7087248322147651,
    "2 Fold Best Valid ACC": 0.7056451612903226,
    "3 Fold Best Valid ACC": 0.6989247311827957,
    "4 Fold Best Valid ACC": 0.7056451612903226,
    "5 Fold Best Valid ACC": 0.6895161290322581,
    "6 Fold Best Valid ACC": 0.7150537634408602,
    "7 Fold Best Valid ACC": 0.6908602150537635,
    "8 Fold Best Valid ACC": 0.7083333333333334,
    "9 Fold Best Valid ACC": 0.706989247311828,
    "Average ACC": 0.7047813379519376,
    "0 Fold Best Valid AUC": 0.7751395640696451,
    "1 Fold Best Valid AUC": 0.777768080525979,
    "2 Fold Best Valid AUC": 0.7647522319008204,
    "3 Fold Best Valid AUC": 0.7428344236816424,
    "4 Fold Best Valid AUC": 0.7715884687967723,
    "5 Fold Best Valid AUC": 0.7452858144392487,
    "6 Fold Best Valid AUC": 0.773194004705609,
    "7 Fold Best Valid AUC": 0.7403771103145236,
    "8 Fold Best Valid AUC": 0.765053231087244,
    "9 Fold Best Valid AUC": 0.763251036848848,
    "Average AUC": 0.7619243966370333

feedback

1. <s>유라가 만들어준 train + test dataset 활용해서 더 정확한 feature 만들기</s>
2. 더 정확한 validation을 위해 다양한 방법을 생각해보자. (마지막 문제를 맞춘 사람을 기준으로 나누는 것도 나는 괜찮아 보이는데!)
3. testid, knowledgeTag, assessmentItem을 조금 더 가볍게 만들어주기 / 또는 categorical 전처리에 대해서 생각
     - assessmentItem의 구조가 시험지 id + 문항번호 이므로 굳이 앞에 것을 살릴필요 없다 -> 즉, 뒤의 3자리 문항번호만 제공해서 가볍게 만들어주자.
4. discussion에 올라온 내가 맡은 다른 feature 추가

🏡 Home

민용
진현
재훈
아라
정현
유라

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

민용

5/30일자 실험

feedback

5/29일자 실험

feedback

🏡 Home

Clone this wiki locally