pointer of encoder/decoder word_embedding.weight are same #8

HumanIearning · 2022-11-29T16:12:09Z

위 사진처럼 encoder와 decoder의 embedding 레이어의 weight가 다른 모델을 load state dict해와도

위에 보이듯이 decoder embedding layer의 weigth가 encoder랑 decoder에 둘다 들어가게 됩니다.

그래서 직접 encoder에
model.state_dict()['encoder.embeddings.word_embeddings.weight'].copy_(ckpt['state_dict']['encoder.embeddings.word_embeddings.weight'])

copy로 값을 넣어봤는데 그러면 encoder랑 decoder embedding layer에 둘다 encoder embedding layer의 값만 들어가게 됩니다.

의도하신 부분인지는 모르겟지만 제 모델은 두 부분이 다른 값을 가지게 학습되어서 각각 load해오고 싶은데 해결방법이 없을까요

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pointer of encoder/decoder word_embedding.weight are same #8

pointer of encoder/decoder word_embedding.weight are same #8

HumanIearning commented Nov 29, 2022

pointer of encoder/decoder word_embedding.weight are same #8

pointer of encoder/decoder word_embedding.weight are same #8

Comments

HumanIearning commented Nov 29, 2022