You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
decoder 실험
layer 1개 늘렸을 때, dimension 2배로 늘렸을 때
pretrained model (GPT2 가능할까?? 디코더에 맞게 빔서치 다시 짜야함!)
Hugging face에서 사용 가능한 pretrained model이 많지 않다. (인코더에서 받아오는 구조)
Discussion
Resizing network 논문 (Bilinear Resizer)
feedforward() 함수에서 Linear 쓰는 이유??
논문: 1x1 conv - depthwise - 1x1 conv
CSTR 구현 - 주영오빠. 지형 관심있음.
validation 보면서 주로 틀리는 이미지를 외부데이터로 보강하기
⇒ 각 토큰 별로 얼마나 잘 맞추는지 확인해보기
💡 실험 아이디어
ASTER - Bi-Directional LSTM 추가해보기
CSTR (SOTA 2등 모델) - 깃헙 보면 형식이 달라서 일일이 맞춰주려면 시간이 오래 걸린다.
🧑🏻🏫 준철이의 GAN 강의 기대 중!!
우리 vocab은 영어, 숫자 외에도 토큰이 많으니까 디코더도 늘려보면 좋을 것 같다.
vocab이 늘어난 만큼 복잡도가 늘어나니까 layer, hidden dim을 늘리면 될 것 같다.
멘토링 18:10 ~ 18:50
번역 태스크에서 추천해 주실 만한 캐글 대회가 있을까요?
답) 대회는 많이 없다. 쓸만한 데이터셋은 AI hub. 가장 큰 데이터셋 160만개 정도.
하버드에서 낸 과제: english to german.
우리 대회도 번역 태스크와 크게 다르지 않다.
같은 데이터셋에 대한 augmentation을 비슷한 모델에 적용했을 때 동일하게 좋은 효과를 내는지 궁금합니다.
답) 절대적인 aug는 없다. 팁을 드리자면, EDA를 해보면 판단할 수 있다.
train, test의 distribution이 많이 다르지 않다면, aug가 오히려 noise처럼 작용할 수도 있다.
우리 데이터 이미지들은 대부분 회전되어 있지 않다. 함부로 rotate를 하게 되면 성능이 안 나올 수도 있다. (이미 해보신 듯)
⇒ 일반적으로, 비슷한 모델과 동일한 데이터셋에 대해서는 aug 효과가 거의 동일하다. Attention으로 빠르게 실험해보는 게 도움이 될 것이다.
베이스라인을 ClovaAI와 다르게 구성하신 이유가 있을까요?
답) 문영기 멘토님이 만든 베이스라인이라서 채널에 질문을 올려야 확실한 답변을 받을 수 있을 것 같다.
기존의 비슷한 태스크의 깃헙을 fork 떠와서 수정하다보니 그런 듯.
ClovaAI는 모델만 바꿔끼는 식으로 템플릿처럼 구성되어 있어서 사용하기 어렵다.
대부분의 딥러닝 코드는 우리 베이스라인과 비슷하다. pytorch로 된 우리 베이스라인 코드 SATRN 저자님이 직접 짜주신 거!!!! → 채널에 저자 분 계신다ㅋㅋㅋ
강화학습 기반으로 할 수 있는 실험?
답) autoML로 hyper-parameters 찾기
주로 optimization에 활용. 아직 딥러닝 학습에는 활용되고 있지 않다.
개인적으로는, 딥러닝 학습에는 비추. (리워드 선정 등 고려해야 할 것이 많다.)
카카오브레인 FastAI auto augmentation 논문
외부 데이터 사용 추천 (augmentation보다 좋다)
competiton of handwritten... CROME
im2latex (레이블링 다시 해야하는 등 아주 귀찮다..)
aida dataset → calculus domain에 편향되어 있음.
우리 데이터셋을 만들기 위해 어떤 전처리가 이루어졌는지?? 일관된 gt formatting이 중요!! ground-truth가 일관되지 않으면 학습이 제대로 안 됨.
외부데이터 이미지를 픽스된 사이즈로 맞춘 다음에 수식들을 정규화해서 중앙으로 오게 한다.
그래서 우리 수식은 전부 이미지 정가운데 위치함. CV 기술에 있을 듯. (외주로 맡겼다...)
1% 미만으로 등장하는 토큰 제거
데이터셋 만드는데 두세달 걸림. (편미분 많은) 물리 논문 하려다가 성능 안 나와서 걷어냄.
beam search 강추: best path는 한 번 틀리면 끝. beam search는 한 두번 틀리는 것이 용납이 됨.
코드 리뷰할 때 디버깅 툴 사용하는데 멘토님은 어떤 식으로 공부하시는지?
답) 많은 깃헙 레포를 가보면 tutorial 주피터 노트북이 많다. 초벌로 노트북으로 작업하고 확인되면 .py로 옮기는 편. 많이 쓰는 함수는 다른 프로젝트에도 사용할 수 있게 utils.py에 넣어놓기.
지난 주말에 SATRN 깃헙 찾아서 돌렸더니 성능 잘 나온 팀이 있었다. → 리더보드 점수 똑같은 팀 말하는 걸까??
data_proportions 를 작게 잡으면 11에폭 정도 돌다가 NaN 에러 남.
데이터가 너무 적으면 아예 안 나오는 라벨 때문에?? 확률 0이면 CE에서 log 씌울 때 에러난다.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
🚨이번 주까지 모델 실험 끝내고 다음 주부터 CV 돌리기
학습 중단 후 연결해서 학습 시킬 때
📌 cosine annealing 주기 고려해서 lr 수정
📌 teacher forcing = 0으로 수정
오늘 제출 5회 남음
제출용 모델 → 서버 2,3명
Augmentation 실험 → Attention으로 Colab 활용
Aida에서 lim, 분자, 분모 잘라서 쓰는 건 가능할 듯.
실험결과 & 진행 상황
✨부장님 그저 빛...✨
ClovaAI_SATRN pytorch로 바꿈. (인코더만) transformer layers 줄임.
⇒ 추가실험: CNN 백본 더 무겁게. encoder transformer layer 늘려서 (주영. 누리 서버)
swin transformer sub model로 쓸 수 있을 것 같다. (lr 매우 작게)
(Attention만) inference에 Greedy decoding, Beam search 구현 완료! 학습은 greedy decoding으로만 진행되어야 한다.
decoder 실험
layer 1개 늘렸을 때, dimension 2배로 늘렸을 때
pretrained model (GPT2 가능할까?? 디코더에 맞게 빔서치 다시 짜야함!)
Hugging face에서 사용 가능한 pretrained model이 많지 않다. (인코더에서 받아오는 구조)
Discussion
Resizing network 논문 (Bilinear Resizer)
feedforward() 함수에서 Linear 쓰는 이유??
논문: 1x1 conv - depthwise - 1x1 conv
CSTR 구현 - 주영오빠. 지형 관심있음.
validation 보면서 주로 틀리는 이미지를 외부데이터로 보강하기
⇒ 각 토큰 별로 얼마나 잘 맞추는지 확인해보기
💡 실험 아이디어
vocab이 늘어난 만큼 복잡도가 늘어나니까 layer, hidden dim을 늘리면 될 것 같다.
멘토링 18:10 ~ 18:50
번역 태스크에서 추천해 주실 만한 캐글 대회가 있을까요?
답) 대회는 많이 없다. 쓸만한 데이터셋은 AI hub. 가장 큰 데이터셋 160만개 정도.
하버드에서 낸 과제: english to german.
우리 대회도 번역 태스크와 크게 다르지 않다.
같은 데이터셋에 대한 augmentation을 비슷한 모델에 적용했을 때 동일하게 좋은 효과를 내는지 궁금합니다.
답) 절대적인 aug는 없다. 팁을 드리자면, EDA를 해보면 판단할 수 있다.
train, test의 distribution이 많이 다르지 않다면, aug가 오히려 noise처럼 작용할 수도 있다.
우리 데이터 이미지들은 대부분 회전되어 있지 않다. 함부로 rotate를 하게 되면 성능이 안 나올 수도 있다. (이미 해보신 듯)
⇒ 일반적으로, 비슷한 모델과 동일한 데이터셋에 대해서는 aug 효과가 거의 동일하다. Attention으로 빠르게 실험해보는 게 도움이 될 것이다.
베이스라인을 ClovaAI와 다르게 구성하신 이유가 있을까요?
답) 문영기 멘토님이 만든 베이스라인이라서 채널에 질문을 올려야 확실한 답변을 받을 수 있을 것 같다.
기존의 비슷한 태스크의 깃헙을 fork 떠와서 수정하다보니 그런 듯.
ClovaAI는 모델만 바꿔끼는 식으로 템플릿처럼 구성되어 있어서 사용하기 어렵다.
대부분의 딥러닝 코드는 우리 베이스라인과 비슷하다.
pytorch로 된 우리 베이스라인 코드 SATRN 저자님이 직접 짜주신 거!!!! → 채널에 저자 분 계신다ㅋㅋㅋ
강화학습 기반으로 할 수 있는 실험?
답) autoML로 hyper-parameters 찾기
주로 optimization에 활용. 아직 딥러닝 학습에는 활용되고 있지 않다.
개인적으로는, 딥러닝 학습에는 비추. (리워드 선정 등 고려해야 할 것이 많다.)
카카오브레인 FastAI auto augmentation 논문
외부 데이터 사용 추천 (augmentation보다 좋다)
competiton of handwritten... CROME
im2latex (레이블링 다시 해야하는 등 아주 귀찮다..)
aida dataset → calculus domain에 편향되어 있음.
우리 데이터셋을 만들기 위해 어떤 전처리가 이루어졌는지??
일관된 gt formatting이 중요!! ground-truth가 일관되지 않으면 학습이 제대로 안 됨.
그래서 우리 수식은 전부 이미지 정가운데 위치함. CV 기술에 있을 듯. (외주로 맡겼다...)
데이터셋 만드는데 두세달 걸림. (편미분 많은) 물리 논문 하려다가 성능 안 나와서 걷어냄.
beam search 강추: best path는 한 번 틀리면 끝. beam search는 한 두번 틀리는 것이 용납이 됨.
코드 리뷰할 때 디버깅 툴 사용하는데 멘토님은 어떤 식으로 공부하시는지?
답) 많은 깃헙 레포를 가보면 tutorial 주피터 노트북이 많다. 초벌로 노트북으로 작업하고 확인되면 .py로 옮기는 편. 많이 쓰는 함수는 다른 프로젝트에도 사용할 수 있게 utils.py에 넣어놓기.
지난 주말에 SATRN 깃헙 찾아서 돌렸더니 성능 잘 나온 팀이 있었다. → 리더보드 점수 똑같은 팀 말하는 걸까??
data_proportions 를 작게 잡으면 11에폭 정도 돌다가 NaN 에러 남.
데이터가 너무 적으면 아예 안 나오는 라벨 때문에?? 확률 0이면 CE에서 log 씌울 때 에러난다.
Beta Was this translation helpful? Give feedback.
All reactions