-
Notifications
You must be signed in to change notification settings - Fork 2
Peer_Session_Week_1
2021.04.26 (์)
- 35๋ถ ์ ๊น์ง ์ ์ฅ ์๋ฃ
- ๋ถ์ฐธ ์ฌ์ ๋ฐ์ ์ ? ๋ฏธ๋ฆฌ ํ ์นดํก์ ์๋ฆฌ๊ธฐ
- *๊ฒ์๋ฌผ ์ฌ๋ฆด๋ ํ๊ทธ, ์์ฑ์ ๋ฌ๊ธฐ*
- ํ๊ทธ ์์ฃผ ์ฐ์ด๋ ์์:
link
,paper
,pen
,pencil
- ์ฝ๋๋ฅผ ๊ณต์ ํ ๋, **์ฝ๋์ ๋ํ ์ค๋ช (๋ฐํ)**๋ฅผ ํจ๊ป! + *QnA Time*
- *7๊ฐ๊น์ง๋ ๋ฒ ์ด์ค๋ผ์ธ ์ฝ๋์ ๋ํ ์ดํด๋ก ๋ค ํจ๊ป ๊ฐ๊ธฐ โ ๋จผ์ ๊ฐ์ ๋ ๋ฉ๋๋ค...*
- branch๋ฅผ ์์๋ค!
- ์ง์ฅ์์ ์จ Git - ์์ ์๊ฐ : (์ํ์ฝ๋ฉ ์ง์ฅ์์ ์จ git)
2021.04.27 (ํ)
- retrieval์ด ์ด๋ป๊ฒ ๋๋ ๊ฑด๊ฐ
- loss๊ฐ ์ด๋ป๊ฒ ๊ตฌํ๋์ด์๋ ๊ฑด์ง ๋ชจ๋ฅด๊ฒ ๋ค..NLL, cross entropy?
- ouput ๊ตฌ์ฑ : loss + index
- max train length๋ฅผ ๋์ด๊ฐ๋ sample์ ๊ฒฝ์ฐ overlap ๋๋ฉด์ train instance๊ฐ ๋์ด๋จ..โ ์ด ๊ฒฐ๊ณผ๋ฅผ ์ด๋ป๊ฒ ์ง๊ณํ๋์ง ์ฝ๋ ๋ ๋ฒจ์์ ์ฐพ๊ธฐ ์ด๋ ต๋ค..
- ๊ฐ token์ ๋ํด start point / end point์ ํ๋ฅ ๊ฐ(softmax, cross-entropy ๊ฐ๊ฐ)์ด output
- ๋ฐ์ดํฐ ์ถ๊ฐ(KorQuAD) ํด์ผํ ๋ฏ!
- public : train๊ณผ context ๊ณต์ , private : ์๋ก์ด (ํ์ต์ ์ฌ์ฉํ์ง ์์) context ์ผ๋ฏ
๊ทธ๋ฅ ์ฐ๋ฆฌ ํ ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฐ๋ก ๋ง๋๋ ๊ฒ ๋ซ๊ฒ ๋ค
2021.04.28 (์)
- Mission 1 ไธญ Pre-processing data : offset mapping๊ณผ doc stride
-
ํ๊ฐ์งํ๊ฐ ํ์ํ ๊ฒ ๊ฐ๋ค.
-
retrieval์ ์ฑ๋ฅ์ ๋์ด๋๊ฒ ๊ธ์ ๋ฌด์ธ ๊ฒ ๊ฐ๋ค.
-
๋ ๊ฐ์ง ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ๋๋ฐ ๋ ๊ฐ์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ์๋ค๋ฉด ์ต์ข ์ ์ผ๋ก ์ฑ๋ฅ์ด ์ ์ข์์ง ์ํ์ด ์์ง ์์๊น
- Retrieval์ ๋บ ์ ์๋ ๋ฐฉ๋ฒ์ ์์๊น? โ Testset์ ํด๋น ์ ๋ณด๊ฐ ์์ด์ ํด๋น ๋ชจ๋ธ์ ํ์ํ Task์ธ ๊ฒ ๊ฐ๋ค.
-
Graph์์ ๋ฐฐ์ด ๋ด์ฉ์ ์ ์ฉํ ์ ์์ผ๋ฉด ์ข๊ฒ ๋ค.
- ๋ฌธ์๊ฐ์ ๊ด๊ณ๋ฅผ ๊ตฌ์ถํ ์ ์์ง ์์๊น?
- GNN์ ์ ์ฉํ ์ ์์ง ์์๊น?
-
์ถ์ฒ์์คํ ์ ์ฉ ์ฌ๋ถ ๊ณ ๋ฏผ
- ๊ณ ๋ฏผ: ์ง๋ฌธ์ ๋ํ keyword๋ค๋ก ์ ์ฌ๋๋ฅผ ๊ตฌํ๋ค๊ณ ํ ๋, top-k๋ฅผ ์ ์ฉํ ์ ์์๊น?
-
Retrieval๊ณผ MRC๋ฅผ ํฉ์ณ์ End To End ํํ๋ก Model์ ๊ตฌ์ฑํ ์ ์์ง ์์๊น?
- Retrieval์ Neural Network์ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ํ๋ฉด ๊ฐ๋ฅํ ๊ฒ ๊ฐ๋ค.
- ์ฌ๋ก๋ฅผ ์ฐพ์์ ์ ์ฉํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
-
NDCG
์ ๋ณด ๊ฒ์(Information Retrieval) ํ๊ฐ๋ ์ด๋ป๊ฒ ํ๋ ๊ฒ์ด ์ข์๊น?(2/2)
-
์ฌํฌ๋์ TF-IDF ๊ฐ์
- Baseline์ Mecab์ ์ฐ๊ณ ์๋ค. ์ด ๋ถ๋ถ๋ ๋ค๋ฅธ Tokenizer๋ฅผ ์ธ ์ ์๋ค.
- ํ์๋ ์๊ฒฌ : Tokenizing ํ์ ๋ 1๊ฐ์ง๋ฆฌ ๋จ์ด๋ ๊ณ ๋ คํ์ง ์๋๊ฒ ์ข๋ค.
-
๋ฌธ์ ์์ฒด์ ๋ํ Embedding ๋ฐฉ๋ฒ์ ์์๊น?
- Sent2Vec?
- ๋ฌธ์ ํ๋๋ฅผ Embeddingํ๋ ๊ฒ์ ์ด๋ค ์๋ฏธ์ผ๊น?
- Stopword์ ๊ฐ์ ์ ๋ณด๋ฅผ ๋นผ๊ณ Embeddingํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด๋ ์ข์ ๊ฒ ๊ฐ๋ค.
- Context ์ ์ฒด ๋ง๊ณ , Sentence ๋จ์๋ก Embeddingํ๋ ๋ฐฉ๋ฒ์ ์ฐ๋๊ฑด ์ด๋จ๊น?
- Branch ๊ธ ์ถ์ฒ ๋ํ์์ ์ฌ์ฉ๋ ๋ฐฉ๋ฒ๋ก ์ ์ฐธ๊ณ ํด๋ณด์!
-
ํ์๋ ์๊ฒฌ : Word2Vec์ ๋ํ TF-IDF๋ฅผ ๊ฐ์ค์น๋ก ํ์ฉํด์ Weighted Averageํ์ฌ Document์ Dense Vector๋ฅผ ๊ตฌํ ์ ์์ ๊ฒ ๊ฐ๋ค.
- ์ตํจ๋ ์๊ฒฌ : ๊ณ ์ฐจ์ ์ฐ์ฐ์์ ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ฆ.
- ์ฌํฌ๋ ์๊ฒฌ : Word์ Vector์ Scalar ๊ฐ์ ๊ณฑํ๋ Weighted ํํ์ด๋ฏ๋ก, ๊ณ ์ฐจ์ ๋ฌธ์ ๋ ํด๊ฒฐํ ์ ์์์ง๋
- ์ดํ๊ท ์๊ฒฌ : Word2Vec์ด ๊ฐ Word์ ๋ํ Vector์ธ ๋งํผ, ๋ฌธ์ฅ ์ ์ฒด์ ์๋ฏธ๋ฅผ ๋ด๊ธฐ ์ด๋ ค์ธ์๋ ์๋ค.
- ์์ง๋ ์๊ฒฌ : Doc2Vec์ด ๋ฌธ์ ์ ์ฒด์ ์๋ฏธ๋ฅผ ๋ด๋ Vector๋ฅผ ์ป์ ์ ์์ ๊ฒ์ด๋ค.
- ํ์๋ ์๊ฒฌ : Doc2Vec๊ณผ TF-IDF๋ฅผ Concatenationํด์, ํ์ฉํ๋ ๊ฒ๋ ์ข์ ๊ฒ ๊ฐ๋ค.
-
Doc2Vec์ ์ฅ์
- Dense Vector๋ฅผ ์ป์ ์ ์๋ค.
- 50์ฐจ์์ ์ฌ์ฉํ๋๋ฐ, ๋ ํฐ ์ฐจ์์ ์ฌ์ฉํด๋ ์ข์ ๋ฏ
- ํ์๋ ์๊ฒฌ : Concatenation์ ์ฌ์ฉํ๋ ์์ด๋์ด๋ฅผ ์ ์ฉํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. Doc2Vec๊ณผ Word2Vec ๋ฐฉ๋ฒ ๋ชจ๋๋ฅผ ์ฌ์ฉํด์ Inferenceํ๊ณ Ensemble์ ํํ๋ก ์ฌ์ฉํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
- Post-process ๋จ๊ณ์์ ์กฐ์ฌ๋ฅผ ๋ ์ ์๋ ๋ฐฉ๋ฒ๋ ์ฌ์ฉํ ์ ์์ ๊ฒ ๊ฐ๋ค.
- Mecab์ ํ์ฉํด์ ์กฐ์ฌ๋ฅผ ๋ ์ ์๋ค!
- ์ตํจ๋์ด ์ฐธ๊ณ ํ Links
2021.04.29 (๋ชฉ)
-
์ถ์ฒ ์์คํ ๊ณผ ์ ์ฌํ๊ฒ ์๊ฐํ ์ ์์ ๊ฒ ๊ฐ๋ค
- ์ง๋ฌธ๊ณผ ๊ฐ์ฅ ์ ์ฌ์ฑ์ด ๋์ ๋ฌธ์ top 1 ์ ์ฐพ๋ ์์ผ๋ก....?
-
Document Embedding The Best Document Similarity Algorithm in 2020: A Beginner's Guide TF-IDF๊ฐ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ค๊ณ ํ๋ค..
-
doc2vec
-
SIF : "A Simple but Tough-to-Beat Baseline for Sentence Embeddings" PrincetonML/SIF ๋จ์ํ์ง๋ง ๊ฐ๋ ฅํ Smooth Inverse Frequency ๋ฌธ์ฅ ์๋ฒ ๋ฉ ๊ธฐ๋ฒ
-
Sentence-BERT Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
- BERT๋ RoBERTa๊ฐ semantic textual similarity ๊ฐ์ sentence-pair regression task์์ SOTA ๋ฌ์ฑ!
- ๊ทผ๋ฐ ๋ฌธ์ฅ์ด ๋ ๋ค network์ ๋ค์ด๊ฐ์ผ ํ๋ฏ๋ก ํฐ ์ฐ์ฐ ์ค๋ฒํค๋ ๋ฐ์
- Sentence-BERT
- ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ์ด์ฉํ์ฌ ์๋ฏธ์๋ ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ ์ป๊ธฐ ์ํด siamese & triplet network ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง
- ๊ฐ์ฅ ์ ์ฌํ ์์ ์ฐพ๊ธฐ ์ํ ์๊ฐ 65 ์๊ฐ โ 5์ด๋ก ๊ฐ์ & ์ ํ๋๋ ๊ทธ๋๋ก ์ ์ง
- BERT๋ RoBERTa๊ฐ semantic textual similarity ๊ฐ์ sentence-pair regression task์์ SOTA ๋ฌ์ฑ!
-
๋ค์ํ sentence embedding ๋ฐฉ๋ฒ๋ก ๋น๊ต https://www.oxinabox.net/publications/White2015SentVecMeaning.pdf
-
ํ์๋ ์ง๋ฌธ : ์ ์ง๋ฌธ๊ณผ ์ง๋ฌธ์ Embeddingํ๋ Model์ ๋ฐ๋ก ์ฌ์ฉํด์ผ ํ๋๊ฐ?
- ์ฌํฌ๋ ์๊ฒฌ : ์ง๋ฌธ๊ณผ ์ง๋ฌธ์ ๊ธธ์ด๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋๊ฒ ์ข์ ๊ฒ ๊ฐ๋ค. ๋ด๊ณ ์๋ ์ ๋ณด์ ์(๊ธธ์ด)๊ณผ ๋์์ค๋ ๋ค๋ฅธ ๊ฒ ๊ฐ๋ค
- ์ตํจ๋: tokenizingํ ๋ truncation ๋ฃ์๋ ๋ฌธ์ฅ ์ค์ ์ ์ผ ๊ธด token ๊ธธ์ด๊ฐ 3100 โ truncation ํ๊ฒ ๋๋ฉด ๋๋ถ๋ถ์ ์ ๋ณด๊ฐ ๋ ๋ผ๊ฐ๊ฒ ๋๋๊น ์ฑ๋ฅ์ด ์ ๋์จ ๊ฒ์ด ์๋๊น.
- ๊ตฌ๊ฐ์ ๋๋ ์ ๊ฐ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ตฌํด์ ํฉ์ฐํ๋ฉด
- Document์ ๊ธธ์ด๊ฐ ๋งค์ฐ ๊ธด ๊ฒฝ์ฐ์๋ ํน์ ๊ตฌ๊ฐ์ผ๋ก ๋๋ ์ Embedding์ ๊ตฌํ๊ณ ํฉ์ฐํด์ผ ํ์ง ์์๊น?
- ์ต: KoElectra๋ก ๋๋ฆฌ๊ธฐ๋ง ํด๋ 70% ์ ํ๋๊ฐ ๋์จ๋ค๊ณ ํ์ง ์๋? โ ์ฐ๋ฆฌ ๋ฐ์ดํฐ๋ก ํ๋ฉด ๋ฎ์ โ ์ค๊น...
- KoQUAD๋ก ํ์ตํ๊ณ ์ฐ๋ฆฌ ๋ฐ์ดํฐ์ ๋ฃ์ด๋ดค๋๋ฐ ์ ํ๋ ๊ทธ๋๋ก์.. ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฐ ์ ๋์ด ์๋ ๊ฒ ๊ฐ๋ค โ ์ ์ฒ๋ฆฌ๋ฅผ ํด๋ด์ผ ํ ๋ฏ
- ์ ์ฒ๋ฆฌํ๋ฉด ์ข ์งง์์ง ๊ฑฐ ๊ฐ๋ค โ ์งง๊ฒ ๋ง๋๋ ๊ฒ ์ฐ์ ์ ๋์ด์ผํ ๋ฏ
- ์ฌํฌ๋ ์๊ฒฌ : ์ง๋ฌธ๊ณผ ์ง๋ฌธ์ ๊ธธ์ด๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ์ฌ์ฉํ๋๊ฒ ์ข์ ๊ฒ ๊ฐ๋ค. ๋ด๊ณ ์๋ ์ ๋ณด์ ์(๊ธธ์ด)๊ณผ ๋์์ค๋ ๋ค๋ฅธ ๊ฒ ๊ฐ๋ค
-
ํ์ : ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ๋ง๋ค๊ธฐ ์ํ Ideas
- Top-k๋ฅผ ๋ฝ์ ์ดํ์ ์ด๋ฅผ ํ์ต Sample๋ก ์ฌ์ฉํ๊ธฐ
- ๊ตฐ์ง์ ๋ฐฉ๋ฒ์ ์ด์ฉํด์, ์ ์ฌํ ์ ๋ค๋ผ๋ฆฌ ๋ฌถ์ด์ ํ์ต Sample๋ก ์ฌ์ฉํ๊ธฐ
-
BERT๋ง ์ธ ๊ฒ์ด ์๋. Top-k ๋ฝ์ ๋ ๋ค์ํ ๋ชจ๋ธ์ ์ฌ์ฉํด์ ํ๋ณด๋ฅผ ์ฌ์ฉํ๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.(koelectra ๊ฐ์)
-
์ธ์ด์ ํน์ฑ์ ๊ณ ๋ คํด์ ๊ฐ POS๋ฅผ ๊ณ ๋ คํ๊ฑฐ๋, TF-IDF๋ฅผ ์ฌ์ฉํ ์๋ ์์ ๊ฒ ๊ฐ๋ค.
-
PCA ๋ฑ์ผ๋ก ์ฐจ์์ ์ถ์ํ ๋ค์์ Sparse Embedding์ ์ฝ์ ์ ๋ณด์ํ ์ ์์ง ์์๊น?
-
์ฌํฌ๋ ์๊ฒฌ ์ฌ๋ฌ ์ง๋ฌธ์์ MRC๋ฅผ ์ํํ๋ ๋ฐฉ๋ฒ์ ์ด๋จ๊น?
- ํ์ : ๋ต ์ ํ ๊ธฐ์ค์ ์ด๋ป๊ฒ? ๋๋จธ์ง ํ๋ณด๋ค์ ์๋ฏธ๊ฐ ์๋ ๊ฑด๋ฐ ๋ง์ง๋ง์ ๋ต์ผ๋ก ๋์ค๋ ๊ฒ ํ๋ฅ ๊ฐ์ด๋ผ๊ณ ํ๋ฉด ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ๊ฑธ๋ก ์ ํํ๊ฒ ๋๋ฉด ์ข ์ํ
- (ํ ๊ฑธ์ ๋ ๊ฐ ) ํ๊ท : ์ต์ข ํ๋ฅ ๊ฐ * ์ ์ฌ๋๋ก ์ต์ข ์ ํ์ ํ๋ฉด ๋์ง ์์๊น?
- ์ข ํ : ๊ธธ์ด๋ ์ ์๋ฆด ์ ์๊ฒ ํ ์ ์์ ๊ฒ ๊ฐ์ โ ๋๋ ์ ๋ฃ๊ฒ ๋๋ ๊ฒฝ์ฐ ๋ฌธ์ ๊ฐ ๋๋ ๊ฒ ๋ค๋ฅธ ์ ์ฒ๋ผ ์ฐ์ฐ์ด ๋๋ ๊ฑด๋ฐ, ํฌ์ง์ ๋ ์๋ฒ ๋ฉ์ ์์๋๋ก ๋ฃ์ด์ฃผ๊ฒ ๋๋ฉด ์ฌ๋ฌ๋ฒ ์ฐ์ฐ์ ํ๊ฒ ๋๋ ํ๋์ ๋ฌธ์ฅ์ธ ๊ฒ์ฒ๋ผ ์ฐ์ฐ์ด ๋์ง ์์๊น
- ์ข
ํ : ๋งค์ฐ ๊ธด Document๋ฅผ ์ Embeddingํ๊ธฐ ์ํด์ Positional์ ๊ด๋ จ๋ ์ ๋ณด๋ฅผ ๋ฃ์.
- ์ฌ๋ฌ Feature๋ก ๋๋ ์ Embedding์ ๊ตฌํ๊ณ , ํด๋น Embedding Vector๋ฅผ Concatenationํ ๋ค์์ Dense Layer๋ฅผ ํ์ฐ์.
- ์ฌํฌ : NER์ ํตํด์ ์ง๋ฌธ์ ์๋์ ๋ํ ์ ๋ณด๋ฅผ ์ฐพ๊ณ ์ ํ๋ค. ์ง๋ฌธ์ ์๋๋ฅผ ๋ถ๋ฅํด๋ณด์. Ex) '๋๊ตฌ'๋ผ๋ Keyword๊ฐ ๋ค์ด๊ฐ๋ฉด, Person์ ๋ํ NER Token์ ์ฐพ์์จ๋ค.
- ํ์ : Data๋ฅผ ํ์ธํ๋ค๋ณด๋, ๋ฐ์ดํ์ ๊ฐ์ ์ ๋ณด๊ฐ ํฌํจ๋ ๊ฒ Gold Text์ธ ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ด๋ฅผ ์์ ์ผ ํ ๊น?
- ์ตํจ : \n๋ '๋ ์ง' ์ ๊ฐ์ ์ ๋ณด๋ค์ ์ ์ฒ๋ฆฌ๋ก ์์ ์ฃผ๋๊ฒ ์ข์ง ์์๊น ์๊ฐํ๋ค.
- ํ์ : ๊ฑด๋๋ฆฌ๋ ค๋ฉด Answer์ ์์น ๋ฑ์ ๊ณ ๋ คํด์ผ ํ๋ค.
- ์ข ํ : ์๊ฑด๋๋ฆฌ๋ ๊ฒ๋ ๋ฐฉ๋ฒ์ผ ์ ์๋ค. ๋ฌด์์ ์ ๊ฑฐํด์ผ ํ ์ง ๋ฑ ๊ณ ๋ คํ๋๊ฒ ์ด๋ ค์ธ ์ ์๋ค.
- ์ตํจ : Retrieval์ชฝ์์๋ ํ์คํ ๊ฐํ์ด๋ ๋ถ์ฉ์ด๋ ์ ๊ฑฐํ๋ ๊ฒ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : Extract MRC๋ผ ์๋ณธ ๋ฌธ์ ์๊ฑด๋๋ ํธ์ด ๋ง๋๋ฏ โ Retrieval๋ง ์งํํฉ์๋ค
- ์์ง : Mecab ๋ฑ์ ์ฌ์ฉํด์ ๋จ์ด๋ฅผ ๋ถ๋ฆฌํ๊ณ , Tokenizer๋ฅผ ํ์ฐ๋ฉด ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ง ์์๊น?
- ์ฌํฌ, ์ข ํ : Mecab์ ๋จผ์ ํ์ด ๋ค์์ Tokenizing ํ๋ฉด ๋ ๋ฏ?
2021.04.30 (๊ธ)
- ์ตํจ : Elastic Search๊ฐ ์ ๋์๊ฐ๋ ๊ฒ ๊ฐ๋ค. Score๋ ์ฌ์ฉํ๊ธฐ ํธํด๋ณด์ธ๋ค. ์ธ๋ฑ์ค ๊ธฐ๋ฐ์ผ๋ก ์ฐพ์์ ์ค๋ ๊ฒ ๊ฐ๋ค. type์ ๋ฐ๊พธ๋ฉด Search ๋ฐฉ๋ฒ๋ ๋ฌ๋ผ์ง๋ ๊ฒ ๊ฐ๋ค.
- ์ข
ํ : Dense Embedding์ Measure์ ๊ธฐ์ค์ ์ด๋ป๊ฒ ํ ์ง ๊ณ ๋ฏผ์ค์ด์๋ค. Keyword๊ฐ ์ผ๋ง๋ ๋ฑ์ฅ ํ๋๊ฐ์ ๋ํ ์ ๋ณด๋ฅผ ๊ธฐ์ค์ผ๋ก ์๊ฐํ๊ณ ์์๋ค.
- ์ตํจ : ๊ฐ์์์ ๊ธฐ์ค์ ๋ํ ์ธ๊ธ์ด ์๋ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : ์ํ๋ ๊ธฐ์ค์ผ ์ ์์ ๊ฒ ๊ฐ๋ค. ์๋ฅผ ๋ค์ด '์ฑ ์ ๋ช ์นญ'์ด๋, '๋ฏธ๊ตญ'๊ณผ ๊ฐ์ ๋จ์ด๋ ๊ณ ๋ คํ ๊ธฐ์ค์ ์ธ์์ผ ํ ๊ฒ ๊ฐ๋ค.
- ํ์ : Retriever์ Metric์ ์ ํด์ผ ํ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : Recall์ด ๊ด์ฐฎ์ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : Recall, Precision ์ค๋ช โ ๊ตฌ๊ธ ๊ฒ์ ์ฐ๋ฆฌ๋ 1:1 ๋งค์นญ์ ์๊ฐํ๊ณ ์์ผ๋, Precision๋ณด๋ค๋ Recall์ด ๋ ์ ํฉํ ๊ฒ ๊ฐ๋ค. ์ฐ๋ฆฌ์ ์์ธก์ด ์ผ๋ง๋ ์ ๋ฐํ๊ฒ ๋ง์ถ๋๊ฐ์ ๋ํ ์ ๋ณด๋๊น
- ์์ง : ๋ ผ๋ฌธ์์๋ Recall์ ํ๊ฐ ์งํ๋ก ์ฌ์ฉํ๋ค.
- ์ข
ํ : ๊ฐ์ฅ ๋์ ๋ฌธ์ฅ๋ง ์ฌ์ฉํ๋ค๊ณ ํ๋ฉด Recall์ด ์ ํฉํ์ง๋ง, ์ฌ๋ฌ ๋ฌธ์ฅ์ ์ฌ์ฉํ๋ค๊ณ ํ๋ฉด Precision๋ ๊ณ ๋ คํด๋ณผ ํ์๊ฐ ์๋ค.
- ์ฌํฌ : ์ ๋ต์ด ๋ฌธ์ ๋ด์ ์๋๊ฐ์ ๋ํ ์ ๋ณด๊ฐ ์์์ ์ด๊ธฐ ๋๋ฌธ์, ์ด์ ๋ํ ์์ฌ๊ฒฐ์ ๋ ๋ถ๊ฐ์ ์ผ๋ก ๊ฒฐ์ ํด์ผ ํ๋ค.
- ์์ง : ๋
ผ๋ฌธ์ ๋ณด๋, Sim Score๋ฅผ ๋ณด๊ฐ๋ฒ์ผ๋ก ํด์ ์ฌ์ฉํ๋ ๊ฒ ๊ฐ๋ค.
- ์ข ํ : ์ ๋ณด๊ฐ๋ฒ์ด ์ ํํ๊ฒ ๋ญ์ง ๋ชจ๋ฅด๊ฒ ๋๋ฐ, ์ ํ์ ์์ด ์ ํ์ธ ๊ฒ ๊ฐ๋ค. Anserini๊ฐ ์ด๋ค ๊ฐ๋ ์ธ์ง ์์๋ด์ผ ํ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : ๊ฐ์ค์น๋ฅผ ํ์ฉํด์ ์ ํ์ ์ธ ๋ณํ๊ณผ Score๋ฅผ ์ป๋ ๊ฒ์ด ์๋๊น? Anserini๋ ์ถ๊ฐ ์ ๋ณด๊ฐ ํ์ํ ๊ฒ ๊ฐ๋ค.
- ์์ง : BERT๋ฅผ ์ผ๋ค๋๋ฐ, Final Softmax Layer๋ฅผ ์ ๊ฑฐํ๋ค๋ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : Dense Embedding์ Batch Size๊ฐ ํด ํ์๊ฐ ์๋ค๊ณ ์๊ฐํ๋ค. ๊ฒฝํ์ ์ผ๋ก ์ฑ๋ฅ๋ ๊ทธ๋ฌ๋ ๊ฒ ๊ฐ๋ค.
- ์ข ํ : ๋๊ฐํจ. but, ์์ฒญ ๋๋ฆฌ์ง๋ ๋ชปํ ๊ฒ ๊ฐ๋ค.
- ํ์ : Question 1๊ฐ, Positive 1๊ฐ, Negative ์ฌ๋ฌ๊ฐ๋ฅผ ์ฌ์ฉํด์ผ ํ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : GPU ๊ณ ๋ คํด์, ๊ฐ Batch์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ ํ์๊ฐ ์๋ ๊ฒ ๊ฐ๋ค.
- ํ์ : ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ๋ง๋๋ ค๋ฉด, Train Batch๋ฅผ ๋ ํฌ๊ฒ ์ก์์ผ ํ๋๊ฐ?
- ํ์ : TF-IDF์์ Max Length๋ฅผ ์กฐ์ ํ๋ ๊ฒ ์๊ฐ๋ณด๋ค ํฐ ํจ๊ณผ๊ฐ ์์๋ค.
- ํ์ : BM-25๋ฅผ ์์ฒญ ๋ง์ด ์ฐ๋ ๊ฒ ๊ฐ๋ค. ์ ์ฉํ ๊ฒ ๊ฐ๋ค. Sentence Transformer๋ ์คํํด๋ณด๋ ค๊ณ ํ๋ค. Document Similarity์ ๋ํด ์ข ๋ ์์๋ณด๊ณ ์๋ค.
- ์ตํจ : ์๊ฐ๋ณด๋ค ๊ด์ฐฎ์ ์๊ณ ๋ฆฌ์ฆ์ธ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์๋ค. ์๊ฐ๋ณด๋ค ํ๋ฅ ๊ธฐ๋ฐ์ด ์ข์ ๊ฒ ๊ฐ๋ค.
- ์ข ํ : ํ์ต ๊ธฐ๋ฐ์ด ์ข์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋๋ฐ, ์๋๊ฒ ์ ๊ธฐํ๋ค.
- ์ฌํฌ : ๋คํธ์ํฌ ๊ธฐ๋ฐ์ ๋ฐ์ดํฐ์ ์์๋ ํฐ ์ํฅ์ ๋ฐ์์ ๊ทธ๋ฐ ๊ฒ ๊ฐ๋ค.
- ํ์ : ์ ์ฒด Wiki Data์์ Validation Context๋ฅผ ์ฐพ๋ ๊ฒ์ผ๋ก ์ฑ๋ฅ ์ฒดํฌ๋ฅผ ํ๋๋ฐ, ์ฝ 30%์ ์ฑ๋ฅ์ ๋ณด์๋ค.
- ์ตํจ : Dense Embeddingํ ๋๋ ์ด์ฉ ์ ์์ด ๋ถ์ฉ์ด ์ ๊ฑฐํ๊ณ ๋๋ ค๋ดค์๋ค.
- ์ฌํฌ : ์์ด ๊ธฐ์ค์ผ๋ก ๋ถ์ฉ์ด๋ฅผ ์ ๊ฑฐํ๊ณ , ์๋ผ์คํฑ ์์น๋ฅผ ๋๋ ค๋ณด๋ฉด ์ด๋จ๊น?
- ์ฌํฌ : ๊ฒ์์ ๋ช
์ฌ์ ํํ๋ก ์ด๋ฃจ์ด ์ง๋๊น, ๋ช
์ฌ๋ก ๊ตฌ๋ถํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Retrieval์ ์ํํ๋๊ฑด ์ด๋จ๊น? ์งํ์ ๋ฒ์น์ ์ ์ฉํด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. EDA๋ฅผ ํด๋ณด๋ฉด, ์ ์ฒด Doc์์ ๋จ ํ๋ฒ๋ง ๋ฑ์ฅํ๋ ๋จ์ด๋ ์๋ค. Top 100์ด๋ , 1~5๋ฒ ๋ฑ์ฅํ๋ ๋จ์ด๋ , ์ด ์ ๋ณด๋ค์ ํตํด์ ๊ฒ์ ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์์ง ์์๊น? ์ด์ ๊ฐ์ ์ ๋ณด๋ค๋ก TF-IDF Score์ ๋์์ ์ค ์ ์์ง ์์๊น?
- ํ์ : ์ด์ ๋น์ทํ ๊ฑธ ํ๋ค. ๊ฐ ๋จ์ด๋ง ๋ฝ์์ TF-IDF๋ฅผ ๋๋ ค๋ดค๋ค. ๊ฒฝํ ์ ์ฑ๋ฅ์ ํฐ ์๋ฏธ๊ฐ ์์๋ค. ํํ์๋ก ๋ถ๋ฆฌํด์ ์ํํ ๋ ์กฐ์ฌ์ ๊ฐ์ ์ ๋ณด๋ฅผ ์์ฒด์ ์ผ๋ก ์ค์๋๋ฅผ ๋ฎ๊ฒ ์ก๊ณ ํ๋ ๊ฒ ๊ฐ๋ค. ์ฑ๋ฅ์ด ๋จ์ด์ง์ง๋ ์๊ณ , ๋น์ทํ๊ฒ ๋์๋ค.
- ์ตํจ : Top 100์ ๋บด๊ณ ๋๋ ค๋ดค์๋๋ฐ, 1~5๋ฒ ๋ฑ์ฅํ ๋จ์ด๋ ์ค์ํ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : ๊ทผ๋ฐ 1
5๋ฒ ๋ฑ์ฅ ๋จ์ด๋ Keyword๋ก ๋ณด๊ธฐ ์ด๋ ค์ธ ์๋ ์์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์๋ค. ์๋๋ฉด Wiki๊ฐ ์๋ ํฐ Corpus์ธ๋ฐ, ์ด ์ค์์ 15๋ฒ..? - ํ์ & ์์ง : 1~5๋ฒ ๋ฑ์ฅ ๋จ์ด๊ฐ Keyword์ผ ํ๋ฅ ๋ ์์ ๊ฒ ๊ฐ๋ค.
- ํ์ : ์ฐ์ ๋จ์ด๋ ํ๋๋ก ๋ณด๋ ์์ด๋์ด๋ ์ด๋จ๊น? ex) '๊ตญ๊ฐ ๊ธฐ๊ด'
- ์ฌํฌ : bi-gram์ผ๋ก ํด๊ฒฐํ ์ ์์ง ์์๊น?
- ํ์ : 2๊ฐ๋ง ๋๊ณ ๋ณด๋๊ฒ ์๋๋ผ ์ฐ์๋๋ ๋จ์ด๋ค์ ํ๋์ ์๋ฏธ๋ก ํ์ ํ๋ ๋ฐฉ๋ฒ์ ์๋ฏธํจ. ex) '๋ํต๋ น ํฌํจ', '๋ฏธ๊ตญ ํ์ ๋ถ ๊ฒฌ์ ', '๊ตญ๊ฐ ๊ธฐ๊ด'
- ์์ง : ๊ตญ์ด์ฌ์ ์ ์ฌ์ฉํด์ ์ด ์์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ผ๋ฉด ์์ ๊ฐ์ ์์ด๋์ด์ ํ์ฉํ ์ ์์ง ์์๊น?
-
End-to-End Open-Domain Question Answering with BERTserini
-
BERTsirini = BERT + Anserini IR toolkit
- Anserini๊ฐ ๋จธ์ฃ โ ์คํ์์ค retriever toolkit castorini/anserini castorini/anserini-notebooks
- Article vs Paragraph vs Sentence
- ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ค ๋น์ทํ text ์์ด ๋๋๋ก k๋ฅผ ์ ํ
- Article โ 5, Paragraph โ 27, Sentence โ 78
- Paragraph ๋จ์๊ฐ ๊ฐ์ฅ ์ฑ๋ฅ ์ข์
-
BERTsirini = BERT + Anserini IR toolkit
-
์ตํจ : ๊ฐ์์์ Sentence ๋จ์๋ก Embeddingํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์๊ธฐํด์คฌ๋๋ฐ, ์ด๊ฑธ ์ด๋ป๊ฒ ์ ์ฉํด๋ณผ ์ ์์์ง ๊ณ ๋ฏผ์ด๋ค.
- ์์ง : ์ด ๋ ผ๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์์์ ๋ง์ํ์ ๊ฒ ๊ฐ์๋ฐ, Sentence ๋จ์๋ฅผ ๊ผญ ๊ณ ๋ คํ์ง๋ ์์๋ ๋ ๊ฒ ๊ฐ๋ค.
- ํ์ : ์ค๋ ๊ฐ์๋ฅผ ๋ฃ๊ณ k๊ฐ์ด ์ค์ํ๋ค๊ณ ์๊ฐ์ด ๋ค์๋ค.
- ์ตํจ : ์ฌํ๊น์ง์ ๋ฐฉ๋ฒ์ Retriever ์ฑ๋ฅ์ด ๋งค์ฐ ๋จ์ด์ก๊ธฐ ๋๋ฌธ์ ๊ณ ๋ คํ๊ณ ์์๋ค.
- ์ฌํฌ : WIKI๋ ์ ์ ๋ TEXT๋ผ '.'๊ณผ ๊ฐ์ Split์ ํ์ฉํ๋ฉด Sentence๋ก ๋๋ ์๋ ์์ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : Context๋ง๋ค Sentence๊ฐ ๋ค๋ฅธ๋ฐ, ์ด๋ฅผ ์ด๋ป๊ฒ ์ ์ฉํ ์ ์๋์ง์ ๋ํ ๊ณ ๋ฏผ์ด ์๋ค.
- ์์ง : Document๋ฅผ ํฌํจํ ์ ์๋ Paragraph์ ๋ํ k๋ฅผ ์ ํํด์ผ ํ๋ค๊ณ ๋์์๋ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : ์ฌ๋ฌ Sentence์ ๋ํ Aggregation์ ์ด๋ป๊ฒ ํ ๊ฒ์ธ๊ฐ์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ๋ํ ๋ฌผ์์ธ๊ฐ?
- ์ตํจ : Average์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํด ๋ณผ ์ ์์ง ์์๊น?
- ํ์ : ์ ๋ต์ ๊ด๋ จ๋ ๋ฌธ์ฅ์ ๋ช ๋ฌธ์ฅ ์๋ ๊ฒ ๊ฐ์๋ฐ, ๋ชจ๋ ๋ฌธ์ฅ์ ๋ํ Average๋ฅผ ์ํํ๋ ๊ฒ์ ์ ์๋ฏธ ํ ๊น? ์๋ฌดํผ Context ์์ ์ ๋ต์ด ์๋ ๊ฒ์ ์๋ช ํ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : ๋ฌธ์ฅ ๋จ์๋ก ์ชผ๊ฐ์ ๋ต์ ์ฐพ์๋๊ฐ๋ ๊ณผ์ ์ด ๋ ์ข์ง ์์๊น? Context๋ฅผ ๋ค Sentence ๋จ์๋ก ์ชผ๊ฐ์ ๋ต์ ์ฐพ์๋๊ฐ๋ ๋ฐฉ์์ ์ฌ์ฉํ์.
- ํ์ : ํ๊ฐ ๋จ๊ณ์์ Negativeํ Sentence์ ๋ํ ๊ฒ์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋๊ฒ ์ข์๊น?
- ์ฌํฌ : Sentence๋ก ๋๋๊ฒ ๋๋ฉด, ๋ ๋ง์ Sample์์ ์ ํ์ ํ๋ ํํ๊ฐ ๋ ์ ์๋ค. ๊ณ์ธต์ ์ผ๋ก ์ ๊ทผํ๋ ๋ฐฉ๋ฒ์ ์ ์ฉํด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : Retriever ๋จ๊ณ์์๋ ์ ์ฒด Context๋ฅผ ์ดํด๋ณด๊ณ , MRC ๋จ๊ณ์์๋ Sentence๋ก ๋๋๋ ๋ฐฉ๋ฒ์ ์ ์ฉํด๋ณด๋ฉด ์ด๋จ๊น? ํ์คํ Retriever ๋จ๊ณ์์, Sample์ด ๋ง์์ง๋ฉด ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๊ฒ์ฒ๋ผ ๋๊ผ๋ค.
- ์์ง : Simple and Effective Multi-Paragraph Reading Comprehension ๋ ผ๋ฌธ์ ์ ์ฉํด๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค. k๋ Random์ด ์๋๋ผ ํ๊ท ๊ณผ ๊ฐ์ ์์๊ฐ์ ๊ณฑํ๋ ํํ๋ก ์ฌ์ฉํ๋ค.
-
์ตํจ : Random Masking์ ์ ์ฉํด์ ํ์ตํ๋ ์์ด๋์ด๋ฅผ ๋ ์ฌ์ฉํด๋ณด๋ ๊ฑด ์ด๋จ๊น? => ์ข์์!
-
์์ง : KLUE์์ ์์ด๋ก ๋ฒ์ญํ๋ ๋ถ์ด Score๋ฅผ ๋์ด์ จ์๋๋ฐ ์ด๊ฑธ ์ ์ฉํด๋ณผ ์ ์์ง๋ ์์๊น?
- ์ฌํฌ : ๋ค์ํ ์ธ์ด๋ก ๋ฒ์ญํด์ ์ฌ์ฉํ๋ ์์ด๋์ด๊ฐ Retrieval ๋จ๊ณ์์๋ ์ ์ฉํ ๋ฏ? ๋ฒ์ญ์ ์ฑ๋ฅ์ ๊ด์ฐฎ์ ๊ฒ ๊ฐ๊ณ , ๋ค๋ง ์๊ฐ์ด ์กฐ๊ธ ๊ฑธ๋ฆด ๊ฒ ๊ฐ๋ค.
-
์ตํจ : Test Set์ ๋ํ Prediction์ ์ดํด๋ณด๋ฉด, ๊ต์ฅํ ์ฑ๋ฅ์ด ๋จ์ด์ ธ๋ณด์. Validation์ ๋ํด์๋ ๊น๋ํด๋ณด์ด๋๋ฐ ์ ์ฐจ์ด๊ฐ ๋ ๊น?
- ํ๊ท : Retrieval ๋จ๊ณ์์ ๋ฌธ์ ๊ฐ ์๊ฒผ์ ๊ฒ ๊ฐ๋ค.
- ์ตํจ : Post Process๋ฅผ ํตํด์ ์ถ๋ ฅ์ด ์ ๋๋์ง๋ฅผ ๊ฒ์ฆํ ์ ์์ง ์์๊น?
- ํ์ : Output์ ํํ๊ฐ ์ด๋ป๊ฒ ๋๋๊ฐ?
- ์ฌํฌ : Retrieval์ Score์ MRC์ Logit๊ณผ ์ด๋ป๊ฒ ์ฐ๊ฒฐ์ํฌ ๊ฒ์ธ๊ฐ์ ๋ํ ๊ฒ์ ๊ด์ฌ ๊ฐ์ ธ์ผ ํ ๋ฏํจ.
- ํ์ : ๊ฐ์ค์น๋ฅผ
$\mu$ ๋ก ํ์ฉํ ์ ์์๋ฏ? - ์ข
ํ :
$\mu$ ๋ ํ์ตํ ์ ์์ง ์์๊น? - ํ์ :
$\mu$ ๊ฐ ๋ค๋ฅธ ํํ์์ ์์๋ธ ๋ฐฉ์์ผ๋ก ์ํํ๋ ๊ฒ๋ ๋ฐฉ๋ฒ์ผ ๋ฏํ๋ค. - ์ข ํ : Text์ ๋ํ Prediction์ Hard Votingํ ์ ์์๋ฏ ์ด ๋ฐฉ๋ฒ๋๋ก ํ๋ฉด, ๋ค๋ฅธ Document๋ก ๋ถํฐ ๋์จ Text์ ๋ํด Votingํ ์ ์์ ๊ฒ ๊ฐ๋ค.
- ์ฌํฌ : Logit์ผ๋ก Soft Voting ํ๋ฉด ๋์ง ์์๊น?
-
Start position, end position์ผ๋ก voting
-