Skip to content

Peer_Session_Week_1

JAEHEE RYU edited this page May 24, 2021 · 5 revisions

Day01๐Ÿ”

2021.04.26 (์›”)

Ground Rule

Peer Session

  • 35๋ถ„ ์ „๊นŒ์ง€ ์ž…์žฅ ์™„๋ฃŒ
  • ๋ถˆ์ฐธ ์‚ฌ์œ  ๋ฐœ์ƒ ์‹œ ? ๋ฏธ๋ฆฌ ํŒ€ ์นดํ†ก์— ์•Œ๋ฆฌ๊ธฐ

Notion

  • *๊ฒŒ์‹œ๋ฌผ ์˜ฌ๋ฆด๋•Œ ํƒœ๊ทธ, ์ž‘์„ฑ์ž ๋‹ฌ๊ธฐ*
  • ํƒœ๊ทธ ์ž์ฃผ ์“ฐ์ด๋Š” ์š”์†Œ: link, paper, pen, pencil

Code Review

  • ์ฝ”๋“œ๋ฅผ ๊ณต์œ ํ•  ๋•, **์ฝ”๋“œ์— ๋Œ€ํ•œ ์„ค๋ช…(๋ฐœํ‘œ)**๋ฅผ ํ•จ๊ป˜! + *QnA Time*
  • *7๊ฐ•๊นŒ์ง€๋Š” ๋ฒ ์ด์Šค๋ผ์ธ ์ฝ”๋“œ์— ๋Œ€ํ•œ ์ดํ•ด๋กœ ๋‹ค ํ•จ๊ป˜ ๊ฐ€๊ธฐ โ‡’ ๋จผ์ € ๊ฐ€์…”๋„ ๋ฉ๋‹ˆ๋‹ค...*

Github


Day02๐ŸŸ

2021.04.27 (ํ™”)

Baseline code review

  • retrieval์ด ์–ด๋–ป๊ฒŒ ๋˜๋Š” ๊ฑด๊ฐ€
  • loss๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ตฌํ˜„๋˜์–ด์žˆ๋Š” ๊ฑด์ง€ ๋ชจ๋ฅด๊ฒ ๋‹ค..NLL, cross entropy?
  • ouput ๊ตฌ์„ฑ : loss + index
  • max train length๋ฅผ ๋„˜์–ด๊ฐ€๋Š” sample์˜ ๊ฒฝ์šฐ overlap ๋˜๋ฉด์„œ train instance๊ฐ€ ๋Š˜์–ด๋‚จ..โ‡’ ์ด ๊ฒฐ๊ณผ๋ฅผ ์–ด๋–ป๊ฒŒ ์ง‘๊ณ„ํ•˜๋Š”์ง€ ์ฝ”๋“œ ๋ ˆ๋ฒจ์—์„œ ์ฐพ๊ธฐ ์–ด๋ ต๋‹ค..
  • ๊ฐ token์— ๋Œ€ํ•ด start point / end point์˜ ํ™•๋ฅ  ๊ฐ’(softmax, cross-entropy ๊ฐ๊ฐ)์ด output
  • ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€(KorQuAD) ํ•ด์•ผํ•  ๋“ฏ!
  • public : train๊ณผ context ๊ณต์œ , private : ์ƒˆ๋กœ์šด (ํ•™์Šต์— ์‚ฌ์šฉํ•˜์ง€ ์•Š์€) context ์ผ๋“ฏ

๊ทธ๋ƒฅ ์šฐ๋ฆฌ ํŒ€ ๋ฒ ์ด์Šค๋ผ์ธ์„ ๋”ฐ๋กœ ๋งŒ๋“œ๋Š” ๊ฒŒ ๋‚ซ๊ฒ ๋‹ค


Day03๐Ÿ•

2021.04.28 (์ˆ˜)

๋Œ€ํšŒ ํ† ํฌ

  • Mission 1 ไธญ Pre-processing data : offset mapping๊ณผ doc stride

โค๏ธRetriever

  • ํ‰๊ฐ€์ง€ํ‘œ๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ ๊ฐ™๋‹ค.

  • retrieval์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š”๊ฒŒ ๊ธ‰์„ ๋ฌด์ธ ๊ฒƒ ๊ฐ™๋‹ค.

  • ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ ๋‘˜ ๊ฐ„์˜ ์„ฑ๋Šฅ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค๋ฉด ์ตœ์ข…์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์•„์งˆ ์œ„ํ—˜์ด ์žˆ์ง€ ์•Š์„๊นŒ

    • Retrieval์„ ๋บ„ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ ์—†์„๊นŒ? โ†’ Testset์€ ํ•ด๋‹น ์ •๋ณด๊ฐ€ ์—†์–ด์„œ ํ•ด๋‹น ๋ชจ๋ธ์€ ํ•„์š”ํ•œ Task์ธ ๊ฒƒ ๊ฐ™๋‹ค.
  • Graph์—์„œ ๋ฐฐ์šด ๋‚ด์šฉ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉด ์ข‹๊ฒ ๋‹ค.

    • ๋ฌธ์„œ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • GNN์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
  • ์ถ”์ฒœ์‹œ์Šคํ…œ ์ ์šฉ ์—ฌ๋ถ€ ๊ณ ๋ฏผ

    • ๊ณ ๋ฏผ: ์งˆ๋ฌธ์— ๋Œ€ํ•œ keyword๋“ค๋กœ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, top-k๋ฅผ ์ ์šฉํ•  ์ˆ˜ ์žˆ์„๊นŒ?
  • Retrieval๊ณผ MRC๋ฅผ ํ•ฉ์ณ์„œ End To End ํ˜•ํƒœ๋กœ Model์„ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?

    • Retrieval์„ Neural Network์— ์˜ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฐœ์„ ํ•˜๋ฉด ๊ฐ€๋Šฅํ•  ๊ฒƒ ๊ฐ™๋‹ค.
    • ์‚ฌ๋ก€๋ฅผ ์ฐพ์•„์„œ ์ ์šฉํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.
  • NDCG

    ์ •๋ณด ๊ฒ€์ƒ‰(Information Retrieval) ํ‰๊ฐ€๋Š” ์–ด๋–ป๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„๊นŒ?(2/2)

  • ์žฌํฌ๋‹˜์˜ TF-IDF ๊ฐ•์˜

    • Baseline์€ Mecab์„ ์“ฐ๊ณ  ์žˆ๋‹ค. ์ด ๋ถ€๋ถ„๋„ ๋‹ค๋ฅธ Tokenizer๋ฅผ ์“ธ ์ˆ˜ ์žˆ๋‹ค.
    • ํƒœ์–‘๋‹˜ ์˜๊ฒฌ : Tokenizing ํ–ˆ์„ ๋•Œ 1๊ฐœ์งœ๋ฆฌ ๋‹จ์–ด๋Š” ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๊ฒŒ ์ข‹๋‹ค.
  • ๋ฌธ์„œ ์ž์ฒด์— ๋Œ€ํ•œ Embedding ๋ฐฉ๋ฒ•์€ ์—†์„๊นŒ?

    • Sent2Vec?
    • ๋ฌธ์„œ ํ•˜๋‚˜๋ฅผ Embeddingํ•˜๋Š” ๊ฒƒ์€ ์–ด๋–ค ์˜๋ฏธ์ผ๊นŒ?
    • Stopword์™€ ๊ฐ™์€ ์ •๋ณด๋ฅผ ๋นผ๊ณ  Embeddingํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ด๋„ ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • Context ์ „์ฒด ๋ง๊ณ , Sentence ๋‹จ์œ„๋กœ Embeddingํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์“ฐ๋Š”๊ฑด ์–ด๋–จ๊นŒ?
      • Branch ๊ธ€ ์ถ”์ฒœ ๋Œ€ํšŒ์—์„œ ์‚ฌ์šฉ๋œ ๋ฐฉ๋ฒ•๋ก ์„ ์ฐธ๊ณ ํ•ด๋ณด์ž!
  • ํƒœ์–‘๋‹˜ ์˜๊ฒฌ : Word2Vec์— ๋Œ€ํ•œ TF-IDF๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ํ™œ์šฉํ•ด์„œ Weighted Averageํ•˜์—ฌ Document์˜ Dense Vector๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.

    • ์ตํšจ๋‹˜ ์˜๊ฒฌ : ๊ณ ์ฐจ์› ์—ฐ์‚ฐ์—์„œ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ฆ.
    • ์žฌํฌ๋‹˜ ์˜๊ฒฌ : Word์˜ Vector์— Scalar ๊ฐ’์„ ๊ณฑํ•˜๋Š” Weighted ํ˜•ํƒœ์ด๋ฏ€๋กœ, ๊ณ ์ฐจ์› ๋ฌธ์ œ๋Š” ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„์ง€๋„
    • ์ดํ˜„๊ทœ ์˜๊ฒฌ : Word2Vec์ด ๊ฐ Word์— ๋Œ€ํ•œ Vector์ธ ๋งŒํผ, ๋ฌธ์žฅ ์ „์ฒด์˜ ์˜๋ฏธ๋ฅผ ๋‹ด๊ธฐ ์–ด๋ ค์šธ์ˆ˜๋„ ์žˆ๋‹ค.
    • ์ˆ˜์ง€๋‹˜ ์˜๊ฒฌ : Doc2Vec์ด ๋ฌธ์„œ ์ „์ฒด์˜ ์˜๋ฏธ๋ฅผ ๋‹ด๋Š” Vector๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.
    • ํƒœ์–‘๋‹˜ ์˜๊ฒฌ : Doc2Vec๊ณผ TF-IDF๋ฅผ Concatenationํ•ด์„œ, ํ™œ์šฉํ•˜๋Š” ๊ฒƒ๋„ ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.
  • Doc2Vec์˜ ์žฅ์ 

    • Dense Vector๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
    • 50์ฐจ์›์„ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ๋” ํฐ ์ฐจ์›์„ ์‚ฌ์šฉํ•ด๋„ ์ข‹์„ ๋“ฏ
    • ํƒœ์–‘๋‹˜ ์˜๊ฒฌ : Concatenation์„ ์‚ฌ์šฉํ•˜๋Š” ์•„์ด๋””์–ด๋ฅผ ์ ์šฉํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. Doc2Vec๊ณผ Word2Vec ๋ฐฉ๋ฒ• ๋ชจ๋‘๋ฅผ ์‚ฌ์šฉํ•ด์„œ Inferenceํ•˜๊ณ  Ensemble์˜ ํ˜•ํƒœ๋กœ ์‚ฌ์šฉํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.

๐Ÿ’™Reader

  • Post-process ๋‹จ๊ณ„์—์„œ ์กฐ์‚ฌ๋ฅผ ๋—„ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•๋„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • Mecab์„ ํ™œ์šฉํ•ด์„œ ์กฐ์‚ฌ๋ฅผ ๋—„ ์ˆ˜ ์žˆ๋‹ค!
ETC

Day04๐ŸŒญ

2021.04.29 (๋ชฉ)

๋Œ€ํšŒ ํ† ํฌ

โค๏ธRetriever

  • ์ถ”์ฒœ ์‹œ์Šคํ…œ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค

    • ์งˆ๋ฌธ๊ณผ ๊ฐ€์žฅ ์œ ์‚ฌ์„ฑ์ด ๋†’์€ ๋ฌธ์„œ top 1 ์„ ์ฐพ๋Š” ์‹์œผ๋กœ....?
  • Document Embedding The Best Document Similarity Algorithm in 2020: A Beginner's Guide TF-IDF๊ฐ€ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์•˜๋‹ค๊ณ  ํ•œ๋‹ค..

  • doc2vec

  • SIF : "A Simple but Tough-to-Beat Baseline for Sentence Embeddings" PrincetonML/SIF ๋‹จ์ˆœํ•˜์ง€๋งŒ ๊ฐ•๋ ฅํ•œ Smooth Inverse Frequency ๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•

  • Sentence-BERT Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

    • BERT๋ž‘ RoBERTa๊ฐ€ semantic textual similarity ๊ฐ™์€ sentence-pair regression task์—์„œ SOTA ๋‹ฌ์„ฑ!
      • ๊ทผ๋ฐ ๋ฌธ์žฅ์ด ๋‘˜ ๋‹ค network์— ๋“ค์–ด๊ฐ€์•ผ ํ•˜๋ฏ€๋กœ ํฐ ์—ฐ์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ ๋ฐœ์ƒ
    • Sentence-BERT
      • ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ์ด์šฉํ•˜์—ฌ ์˜๋ฏธ์žˆ๋Š” ๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ์„ ์–ป๊ธฐ ์œ„ํ•ด siamese & triplet network ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง
      • ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์Œ์„ ์ฐพ๊ธฐ ์œ„ํ•œ ์‹œ๊ฐ„ 65 ์‹œ๊ฐ„ โ†’ 5์ดˆ๋กœ ๊ฐ์†Œ & ์ •ํ™•๋„๋Š” ๊ทธ๋Œ€๋กœ ์œ ์ง€
  • ๋‹ค์–‘ํ•œ sentence embedding ๋ฐฉ๋ฒ•๋ก  ๋น„๊ต https://www.oxinabox.net/publications/White2015SentVecMeaning.pdf

  • ํƒœ์–‘๋‹˜ ์งˆ๋ฌธ : ์™œ ์งˆ๋ฌธ๊ณผ ์ง€๋ฌธ์„ Embeddingํ•˜๋Š” Model์„ ๋”ฐ๋กœ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€?

    • ์žฌํฌ๋‹˜ ์˜๊ฒฌ : ์งˆ๋ฌธ๊ณผ ์ง€๋ฌธ์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š”๊ฒŒ ์ข‹์€ ๊ฒƒ ๊ฐ™๋‹ค. ๋‹ด๊ณ ์žˆ๋Š” ์ •๋ณด์˜ ์–‘(๊ธธ์ด)๊ณผ ๋‰˜์•™์Šค๋„ ๋‹ค๋ฅธ ๊ฒƒ ๊ฐ™๋‹ค
      • ์ตํšจ๋‹˜: tokenizingํ•  ๋•Œ truncation ๋„ฃ์—ˆ๋ƒ ๋ฌธ์žฅ ์ค‘์— ์ œ์ผ ๊ธด token ๊ธธ์ด๊ฐ€ 3100 โ†’ truncation ํ•˜๊ฒŒ ๋˜๋ฉด ๋Œ€๋ถ€๋ถ„์˜ ์ •๋ณด๊ฐ€ ๋‚ ๋ผ๊ฐ€๊ฒŒ ๋˜๋‹ˆ๊นŒ ์„ฑ๋Šฅ์ด ์•ˆ ๋‚˜์˜จ ๊ฒƒ์ด ์•„๋‹๊นŒ.
    • ๊ตฌ๊ฐ„์„ ๋‚˜๋ˆ ์„œ ๊ฐ๊ฐ์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ตฌํ•ด์„œ ํ•ฉ์‚ฐํ•˜๋ฉด
    • Document์˜ ๊ธธ์ด๊ฐ€ ๋งค์šฐ ๊ธด ๊ฒฝ์šฐ์—๋Š” ํŠน์ • ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆ ์„œ Embedding์„ ๊ตฌํ•˜๊ณ  ํ•ฉ์‚ฐํ•ด์•ผ ํ•˜์ง€ ์•Š์„๊นŒ?
    • ์ต: KoElectra๋กœ ๋Œ๋ฆฌ๊ธฐ๋งŒ ํ•ด๋„ 70% ์ •ํ™•๋„๊ฐ€ ๋‚˜์˜จ๋‹ค๊ณ  ํ•˜์ง€ ์•Š๋‚˜? โ†’ ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ๋กœ ํ•˜๋ฉด ๋‚ฎ์Œ โ‡’ ์™ค๊นŒ...
      • KoQUAD๋กœ ํ•™์Šตํ•˜๊ณ  ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ์— ๋„ฃ์–ด๋ดค๋Š”๋ฐ ์ •ํ™•๋„ ๊ทธ๋Œ€๋กœ์ž„.. ๋ฐ์ดํ„ฐ๊ฐ€ ์ •์ œ๊ฐ€ ์•ˆ ๋˜์–ด ์žˆ๋Š” ๊ฒƒ ๊ฐ™๋‹ค โ†’ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•ด๋ด์•ผ ํ•  ๋“ฏ
      • ์ „์ฒ˜๋ฆฌํ•˜๋ฉด ์ข€ ์งง์•„์งˆ ๊ฑฐ ๊ฐ™๋‹ค โ†’ ์งง๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒŒ ์šฐ์„ ์‹œ ๋˜์–ด์•ผํ•  ๋“ฏ
  • ํƒœ์–‘ : ๋” ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•œ Ideas

    1. Top-k๋ฅผ ๋ฝ‘์€ ์ดํ›„์— ์ด๋ฅผ ํ•™์Šต Sample๋กœ ์‚ฌ์šฉํ•˜๊ธฐ
    2. ๊ตฐ์ง‘์˜ ๋ฐฉ๋ฒ•์„ ์ด์šฉํ•ด์„œ, ์œ ์‚ฌํ•œ ์• ๋“ค๋ผ๋ฆฌ ๋ฌถ์–ด์„œ ํ•™์Šต Sample๋กœ ์‚ฌ์šฉํ•˜๊ธฐ
  • BERT๋งŒ ์“ธ ๊ฒƒ์ด ์•„๋‹˜. Top-k ๋ฝ‘์„ ๋•Œ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ด์„œ ํ›„๋ณด๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.(koelectra ๊ฐ™์€)

  • ์–ธ์–ด์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•ด์„œ ๊ฐ POS๋ฅผ ๊ณ ๋ คํ•˜๊ฑฐ๋‚˜, TF-IDF๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.

  • PCA ๋“ฑ์œผ๋กœ ์ฐจ์›์„ ์ถ•์†Œํ•œ ๋‹ค์Œ์— Sparse Embedding์˜ ์•ฝ์ ์„ ๋ณด์™„ํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?

๐Ÿ’™Reader

  • ์žฌํฌ๋‹˜ ์˜๊ฒฌ ์—ฌ๋Ÿฌ ์ง€๋ฌธ์—์„œ MRC๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์–ด๋–จ๊นŒ?
    • ํƒœ์–‘ : ๋‹ต ์„ ํƒ ๊ธฐ์ค€์„ ์–ด๋–ป๊ฒŒ? ๋‚˜๋จธ์ง€ ํ›„๋ณด๋“ค์€ ์˜๋ฏธ๊ฐ€ ์—†๋Š” ๊ฑด๋ฐ ๋งˆ์ง€๋ง‰์— ๋‹ต์œผ๋กœ ๋‚˜์˜ค๋Š” ๊ฒŒ ํ™•๋ฅ  ๊ฐ’์ด๋ผ๊ณ  ํ•˜๋ฉด ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ๊ฑธ๋กœ ์„ ํƒํ•˜๊ฒŒ ๋˜๋ฉด ์ข€ ์œ„ํ—˜
    • (ํ•œ ๊ฑธ์Œ ๋” ๊ฐ„ ) ํ˜„๊ทœ : ์ตœ์ข… ํ™•๋ฅ  ๊ฐ’ * ์œ ์‚ฌ๋„๋กœ ์ตœ์ข… ์„ ํƒ์„ ํ•˜๋ฉด ๋˜์ง€ ์•Š์„๊นŒ?
    • ์ข…ํ—Œ : ๊ธธ์–ด๋„ ์•ˆ ์ž˜๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Œ โ†’ ๋‚˜๋ˆ ์„œ ๋„ฃ๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ ๋ฌธ์ œ๊ฐ€ ๋˜๋Š” ๊ฒŒ ๋‹ค๋ฅธ ์• ์ฒ˜๋Ÿผ ์—ฐ์‚ฐ์ด ๋˜๋Š” ๊ฑด๋ฐ, ํฌ์ง€์…”๋„ ์ž„๋ฒ ๋”ฉ์„ ์ˆœ์„œ๋Œ€๋กœ ๋„ฃ์–ด์ฃผ๊ฒŒ ๋˜๋ฉด ์—ฌ๋Ÿฌ๋ฒˆ ์—ฐ์‚ฐ์„ ํ•˜๊ฒŒ ๋˜๋„ ํ•˜๋‚˜์˜ ๋ฌธ์žฅ์ธ ๊ฒƒ์ฒ˜๋Ÿผ ์—ฐ์‚ฐ์ด ๋˜์ง€ ์•Š์„๊นŒ
  • ์ข…ํ—Œ : ๋งค์šฐ ๊ธด Document๋ฅผ ์ž˜ Embeddingํ•˜๊ธฐ ์œ„ํ•ด์„œ Positional์— ๊ด€๋ จ๋œ ์ •๋ณด๋ฅผ ๋„ฃ์ž.
    • ์—ฌ๋Ÿฌ Feature๋กœ ๋‚˜๋ˆ ์„œ Embedding์„ ๊ตฌํ•˜๊ณ , ํ•ด๋‹น Embedding Vector๋ฅผ Concatenationํ•œ ๋‹ค์Œ์— Dense Layer๋ฅผ ํƒœ์šฐ์ž.
  • ์žฌํฌ : NER์„ ํ†ตํ•ด์„œ ์งˆ๋ฌธ์˜ ์˜๋„์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ฐพ๊ณ ์ž ํ•œ๋‹ค. ์งˆ๋ฌธ์˜ ์˜๋„๋ฅผ ๋ถ„๋ฅ˜ํ•ด๋ณด์ž. Ex) '๋ˆ„๊ตฌ'๋ผ๋Š” Keyword๊ฐ€ ๋“ค์–ด๊ฐ€๋ฉด, Person์— ๋Œ€ํ•œ NER Token์„ ์ฐพ์•„์˜จ๋‹ค.
  • ํƒœ์–‘ : Data๋ฅผ ํ™•์ธํ•˜๋‹ค๋ณด๋‹ˆ, ๋”ฐ์˜ดํ‘œ์™€ ๊ฐ™์€ ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ๊ฒŒ Gold Text์ธ ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค. ์ด๋ฅผ ์—†์• ์•ผ ํ• ๊นŒ?
  • ์ตํšจ : \n๋‚˜ '๋‚ ์งœ' ์™€ ๊ฐ™์€ ์ •๋ณด๋“ค์€ ์ „์ฒ˜๋ฆฌ๋กœ ์—†์• ์ฃผ๋Š”๊ฒŒ ์ข‹์ง€ ์•Š์„๊นŒ ์ƒ๊ฐํ•œ๋‹ค.
    • ํƒœ์–‘ : ๊ฑด๋“œ๋ฆฌ๋ ค๋ฉด Answer์˜ ์œ„์น˜ ๋“ฑ์„ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค.
    • ์ข…ํ—Œ : ์•ˆ๊ฑด๋“œ๋ฆฌ๋Š” ๊ฒƒ๋„ ๋ฐฉ๋ฒ•์ผ ์ˆ˜ ์žˆ๋‹ค. ๋ฌด์—‡์„ ์ œ๊ฑฐํ•ด์•ผ ํ• ์ง€ ๋“ฑ ๊ณ ๋ คํ•˜๋Š”๊ฒŒ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ๋‹ค.
    • ์ตํšจ : Retrieval์ชฝ์—์„œ๋Š” ํ™•์‹คํžˆ ๊ฐœํ–‰์ด๋‚˜ ๋ถˆ์šฉ์–ด๋Š” ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์žฌํฌ : Extract MRC๋ผ ์›๋ณธ ๋ฌธ์„œ ์•ˆ๊ฑด๋“œ๋Š” ํŽธ์ด ๋งž๋Š”๋“ฏ โ‡’ Retrieval๋งŒ ์ง„ํ–‰ํ•ฉ์‹œ๋‹ค
  • ์ˆ˜์ง€ : Mecab ๋“ฑ์„ ์‚ฌ์šฉํ•ด์„œ ๋‹จ์–ด๋ฅผ ๋ถ„๋ฆฌํ•˜๊ณ , Tokenizer๋ฅผ ํƒœ์šฐ๋ฉด ์œ„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • ์žฌํฌ, ์ข…ํ—Œ : Mecab์„ ๋จผ์ € ํƒœ์šด ๋‹ค์Œ์— Tokenizing ํ•˜๋ฉด ๋ ๋“ฏ?

Day05๐Ÿฟ

2021.04.30 (๊ธˆ)

๋Œ€ํšŒ ํ† ํฌ

โค๏ธRetriever

  • ์ตํšจ : Elastic Search๊ฐ€ ์ž˜ ๋Œ์•„๊ฐ€๋Š” ๊ฒƒ ๊ฐ™๋‹ค. Score๋„ ์‚ฌ์šฉํ•˜๊ธฐ ํŽธํ•ด๋ณด์ธ๋‹ค. ์ธ๋ฑ์Šค ๊ธฐ๋ฐ˜์œผ๋กœ ์ฐพ์•„์„œ ์˜ค๋Š” ๊ฒƒ ๊ฐ™๋‹ค. type์„ ๋ฐ”๊พธ๋ฉด Search ๋ฐฉ๋ฒ•๋„ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ ๊ฐ™๋‹ค.
  • ์ข…ํ—Œ : Dense Embedding์˜ Measure์˜ ๊ธฐ์ค€์„ ์–ด๋–ป๊ฒŒ ํ•  ์ง€ ๊ณ ๋ฏผ์ค‘์ด์—ˆ๋‹ค. Keyword๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋“ฑ์žฅ ํ•˜๋Š”๊ฐ€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ƒ๊ฐํ•˜๊ณ  ์žˆ์—ˆ๋‹ค.
    • ์ตํšจ : ๊ฐ•์˜์—์„œ ๊ธฐ์ค€์— ๋Œ€ํ•œ ์–ธ๊ธ‰์ด ์žˆ๋˜ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์žฌํฌ : ์™„ํ™”๋œ ๊ธฐ์ค€์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด '์ฑ…์˜ ๋ช…์นญ'์ด๋‚˜, '๋ฏธ๊ตญ'๊ณผ ๊ฐ™์€ ๋‹จ์–ด๋„ ๊ณ ๋ คํ•œ ๊ธฐ์ค€์„ ์„ธ์›Œ์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.
  • ํƒœ์–‘ : Retriever์˜ Metric์„ ์ •ํ•ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ตํšจ : Recall์ด ๊ดœ์ฐฎ์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์žฌํฌ : Recall, Precision ์„ค๋ช… โ†’ ๊ตฌ๊ธ€ ๊ฒ€์ƒ‰ ์šฐ๋ฆฌ๋Š” 1:1 ๋งค์นญ์„ ์ƒ๊ฐํ•˜๊ณ  ์žˆ์œผ๋‹ˆ, Precision๋ณด๋‹ค๋Š” Recall์ด ๋” ์ ํ•ฉํ•œ ๊ฒƒ ๊ฐ™๋‹ค. ์šฐ๋ฆฌ์˜ ์˜ˆ์ธก์ด ์–ผ๋งˆ๋‚˜ ์ •๋ฐ€ํ•˜๊ฒŒ ๋งž์ถ”๋Š”๊ฐ€์— ๋Œ€ํ•œ ์ •๋ณด๋‹ˆ๊นŒ
    • ์ˆ˜์ง€ : ๋…ผ๋ฌธ์—์„œ๋„ Recall์„ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค.
    • ์ข…ํ—Œ : ๊ฐ€์žฅ ๋†’์€ ๋ฌธ์žฅ๋งŒ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•˜๋ฉด Recall์ด ์ ํ•ฉํ•˜์ง€๋งŒ, ์—ฌ๋Ÿฌ ๋ฌธ์žฅ์„ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•˜๋ฉด Precision๋„ ๊ณ ๋ คํ•ด๋ณผ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.
      • ์žฌํฌ : ์ •๋‹ต์ด ๋ฌธ์„œ ๋‚ด์— ์žˆ๋Š”๊ฐ€์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์•”์‹œ์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ด์— ๋Œ€ํ•œ ์˜์‚ฌ๊ฒฐ์ •๋„ ๋ถ€๊ฐ€์ ์œผ๋กœ ๊ฒฐ์ •ํ•ด์•ผ ํ•œ๋‹ค.
  • ์ˆ˜์ง€ : ๋…ผ๋ฌธ์„ ๋ณด๋‹ˆ, Sim Score๋ฅผ ๋ณด๊ฐ„๋ฒ•์œผ๋กœ ํ•ด์„œ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ข…ํ—Œ : ์ € ๋ณด๊ฐ„๋ฒ•์ด ์ •ํ™•ํ•˜๊ฒŒ ๋ญ”์ง€ ๋ชจ๋ฅด๊ฒ ๋Š”๋ฐ, ์„ ํ˜•์€ ์‹์ด ์„ ํ˜•์ธ ๊ฒƒ ๊ฐ™๋‹ค. Anserini๊ฐ€ ์–ด๋–ค ๊ฐœ๋…์ธ์ง€ ์•Œ์•„๋ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.
    • ์žฌํฌ : ๊ฐ€์ค‘์น˜๋ฅผ ํ™œ์šฉํ•ด์„œ ์„ ํ˜•์ ์ธ ๋ณ€ํ™˜๊ณผ Score๋ฅผ ์–ป๋Š” ๊ฒƒ์ด ์•„๋‹๊นŒ? Anserini๋Š” ์ถ”๊ฐ€ ์ •๋ณด๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ˆ˜์ง€ : BERT๋ฅผ ์ผ๋‹ค๋Š”๋ฐ, Final Softmax Layer๋ฅผ ์ œ๊ฑฐํ–ˆ๋‹ค๋Š” ๊ฒƒ ๊ฐ™๋‹ค.
  • ์ตํšจ : Dense Embedding์€ Batch Size๊ฐ€ ํด ํ•„์š”๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค. ๊ฒฝํ—˜์ ์œผ๋กœ ์„ฑ๋Šฅ๋„ ๊ทธ๋žฌ๋˜ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ข…ํ—Œ : ๋™๊ฐํ•จ. but, ์—„์ฒญ ๋Š˜๋ฆฌ์ง€๋Š” ๋ชปํ•  ๊ฒƒ ๊ฐ™๋‹ค.
    • ํƒœ์–‘ : Question 1๊ฐœ, Positive 1๊ฐœ, Negative ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ตํšจ : GPU ๊ณ ๋ คํ•ด์„œ, ๊ฐ Batch์˜ ํฌ๊ธฐ๋ฅผ ์กฐ์ •ํ•  ํ•„์š”๊ฐ€ ์žˆ๋˜ ๊ฒƒ ๊ฐ™๋‹ค.
    • ํƒœ์–‘ : ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ๋งŒ๋“œ๋ ค๋ฉด, Train Batch๋ฅผ ๋” ํฌ๊ฒŒ ์žก์•„์•ผ ํ•˜๋Š”๊ฐ€?
  • ํƒœ์–‘ : TF-IDF์—์„œ Max Length๋ฅผ ์กฐ์ •ํ–ˆ๋˜ ๊ฒŒ ์ƒ๊ฐ๋ณด๋‹ค ํฐ ํšจ๊ณผ๊ฐ€ ์žˆ์—ˆ๋‹ค.
    • ํƒœ์–‘ : BM-25๋ฅผ ์—„์ฒญ ๋งŽ์ด ์“ฐ๋Š” ๊ฒƒ ๊ฐ™๋‹ค. ์œ ์šฉํ•œ ๊ฒƒ ๊ฐ™๋‹ค. Sentence Transformer๋„ ์‹คํ—˜ํ•ด๋ณด๋ ค๊ณ  ํ•œ๋‹ค. Document Similarity์— ๋Œ€ํ•ด ์ข€ ๋” ์•Œ์•„๋ณด๊ณ  ์žˆ๋‹ค.
    • ์ตํšจ : ์ƒ๊ฐ๋ณด๋‹ค ๊ดœ์ฐฎ์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ ๊ฒƒ ๊ฐ™๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค. ์ƒ๊ฐ๋ณด๋‹ค ํ™•๋ฅ  ๊ธฐ๋ฐ˜์ด ์ข‹์€ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ข…ํ—Œ : ํ•™์Šต ๊ธฐ๋ฐ˜์ด ์ข‹์„ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋Š”๋ฐ, ์•„๋‹Œ๊ฒŒ ์‹ ๊ธฐํ•˜๋‹ค.
    • ์žฌํฌ : ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜์€ ๋ฐ์ดํ„ฐ์˜ ์–‘์—๋„ ํฐ ์˜ํ–ฅ์„ ๋ฐ›์•„์„œ ๊ทธ๋Ÿฐ ๊ฒƒ ๊ฐ™๋‹ค.
    • ํƒœ์–‘ : ์ „์ฒด Wiki Data์—์„œ Validation Context๋ฅผ ์ฐพ๋Š” ๊ฒƒ์œผ๋กœ ์„ฑ๋Šฅ ์ฒดํฌ๋ฅผ ํ–ˆ๋Š”๋ฐ, ์•ฝ 30%์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.
    • ์ตํšจ : Dense Embeddingํ•  ๋•Œ๋Š” ์–ด์ฉ” ์ˆ˜ ์—†์ด ๋ถˆ์šฉ์–ด ์ œ๊ฑฐํ•˜๊ณ  ๋Œ๋ ค๋ดค์—ˆ๋‹ค.
    • ์žฌํฌ : ์˜์–ด ๊ธฐ์ค€์œผ๋กœ ๋ถˆ์šฉ์–ด๋ฅผ ์ œ๊ฑฐํ•˜๊ณ , ์—˜๋ผ์Šคํ‹ฑ ์„œ์น˜๋ฅผ ๋Œ๋ ค๋ณด๋ฉด ์–ด๋–จ๊นŒ?
    • ์žฌํฌ : ๊ฒ€์ƒ‰์€ ๋ช…์‚ฌ์˜ ํ˜•ํƒœ๋กœ ์ด๋ฃจ์–ด ์ง€๋‹ˆ๊นŒ, ๋ช…์‚ฌ๋กœ ๊ตฌ๋ถ„ํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ Retrieval์„ ์ˆ˜ํ–‰ํ•˜๋Š”๊ฑด ์–ด๋–จ๊นŒ? ์ง€ํ”„์˜ ๋ฒ•์น™์„ ์ ์šฉํ•ด๋ณด๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. EDA๋ฅผ ํ•ด๋ณด๋ฉด, ์ „์ฒด Doc์—์„œ ๋‹จ ํ•œ๋ฒˆ๋งŒ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋„ ์žˆ๋‹ค. Top 100์ด๋“ , 1~5๋ฒˆ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋“ , ์ด ์ •๋ณด๋“ค์„ ํ†ตํ•ด์„œ ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ? ์ด์™€ ๊ฐ™์€ ์ •๋ณด๋“ค๋กœ TF-IDF Score์— ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
      • ํƒœ์–‘ : ์–ด์ œ ๋น„์Šทํ•œ ๊ฑธ ํ–ˆ๋‹ค. ๊ฐ ๋‹จ์–ด๋งŒ ๋ฝ‘์•„์„œ TF-IDF๋ฅผ ๋Œ๋ ค๋ดค๋‹ค. ๊ฒฝํ—˜ ์ƒ ์„ฑ๋Šฅ์— ํฐ ์˜๋ฏธ๊ฐ€ ์—†์—ˆ๋‹ค. ํ˜•ํƒœ์†Œ๋กœ ๋ถ„๋ฆฌํ•ด์„œ ์ˆ˜ํ–‰ํ•  ๋•Œ ์กฐ์‚ฌ์™€ ๊ฐ™์€ ์ •๋ณด๋ฅผ ์ž์ฒด์ ์œผ๋กœ ์ค‘์š”๋„๋ฅผ ๋‚ฎ๊ฒŒ ์žก๊ณ  ํ•˜๋Š” ๊ฒƒ ๊ฐ™๋‹ค. ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€์ง€๋Š” ์•Š๊ณ , ๋น„์Šทํ•˜๊ฒŒ ๋‚˜์™”๋‹ค.
      • ์ตํšจ : Top 100์„ ๋บด๊ณ  ๋Œ๋ ค๋ดค์—ˆ๋Š”๋ฐ, 1~5๋ฒˆ ๋“ฑ์žฅํ•œ ๋‹จ์–ด๋Š” ์ค‘์š”ํ•œ ๊ฒƒ ๊ฐ™๋‹ค.
      • ์žฌํฌ : ๊ทผ๋ฐ 15๋ฒˆ ๋“ฑ์žฅ ๋‹จ์–ด๋Š” Keyword๋กœ ๋ณด๊ธฐ ์–ด๋ ค์šธ ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค. ์™œ๋ƒ๋ฉด Wiki๊ฐ€ ์›Œ๋‚™ ํฐ Corpus์ธ๋ฐ, ์ด ์ค‘์—์„œ 15๋ฒˆ..?
      • ํƒœ์–‘ & ์ˆ˜์ง€ : 1~5๋ฒˆ ๋“ฑ์žฅ ๋‹จ์–ด๊ฐ€ Keyword์ผ ํ™•๋ฅ ๋„ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.
  • ํƒœ์–‘ : ์—ฐ์† ๋‹จ์–ด๋Š” ํ•˜๋‚˜๋กœ ๋ณด๋Š” ์•„์ด๋””์–ด๋Š” ์–ด๋–จ๊นŒ? ex) '๊ตญ๊ฐ€ ๊ธฐ๊ด€'
    • ์žฌํฌ : bi-gram์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • ํƒœ์–‘ : 2๊ฐœ๋งŒ ๋†“๊ณ  ๋ณด๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ์—ฐ์†๋˜๋Š” ๋‹จ์–ด๋“ค์„ ํ•˜๋‚˜์˜ ์˜๋ฏธ๋กœ ํŒŒ์•…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์˜๋ฏธํ•จ. ex) '๋Œ€ํ†ต๋ น ํฌํ•จ', '๋ฏธ๊ตญ ํ–‰์ •๋ถ€ ๊ฒฌ์ œ', '๊ตญ๊ฐ€ ๊ธฐ๊ด€'
    • ์ˆ˜์ง€ : ๊ตญ์–ด์‚ฌ์ „์„ ์‚ฌ์šฉํ•ด์„œ ์ด ์•ˆ์—์„œ ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋ผ๋ฉด ์œ„์™€ ๊ฐ™์€ ์•„์ด๋””์–ด์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?

๐Ÿ’™Reader

  • End-to-End Open-Domain Question Answering with BERTserini

    • BERTsirini = BERT + Anserini IR toolkit
    • Article vs Paragraph vs Sentence
      • ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋‹ค ๋น„์Šทํ•œ text ์–‘์ด ๋˜๋„๋ก k๋ฅผ ์„ ํƒ
      • Article โ†’ 5, Paragraph โ†’ 27, Sentence โ†’ 78
      • Paragraph ๋‹จ์œ„๊ฐ€ ๊ฐ€์žฅ ์„ฑ๋Šฅ ์ข‹์Œ
  • ์ตํšจ : ๊ฐ•์˜์—์„œ Sentence ๋‹จ์œ„๋กœ Embeddingํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์–˜๊ธฐํ•ด์คฌ๋Š”๋ฐ, ์ด๊ฑธ ์–ด๋–ป๊ฒŒ ์ ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ์„์ง€ ๊ณ ๋ฏผ์ด๋‹ค.

    • ์ˆ˜์ง€ : ์ด ๋…ผ๋ฌธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ•์˜์—์„œ ๋ง์”€ํ•˜์‹  ๊ฒƒ ๊ฐ™์€๋ฐ, Sentence ๋‹จ์œ„๋ฅผ ๊ผญ ๊ณ ๋ คํ•˜์ง€๋Š” ์•Š์•„๋„ ๋  ๊ฒƒ ๊ฐ™๋‹ค.
    • ํƒœ์–‘ : ์˜ค๋Š˜ ๊ฐ•์˜๋ฅผ ๋“ฃ๊ณ  k๊ฐ’์ด ์ค‘์š”ํ•˜๋‹ค๊ณ  ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค.
    • ์ตํšจ : ์—ฌํƒœ๊นŒ์ง€์˜ ๋ฐฉ๋ฒ•์€ Retriever ์„ฑ๋Šฅ์ด ๋งค์šฐ ๋–จ์–ด์กŒ๊ธฐ ๋•Œ๋ฌธ์— ๊ณ ๋ คํ•˜๊ณ  ์žˆ์—ˆ๋‹ค.
    • ์žฌํฌ : WIKI๋Š” ์ •์ œ๋œ TEXT๋ผ '.'๊ณผ ๊ฐ™์€ Split์„ ํ™œ์šฉํ•˜๋ฉด Sentence๋กœ ๋‚˜๋ˆŒ ์ˆ˜๋Š” ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ตํšจ : Context๋งˆ๋‹ค Sentence๊ฐ€ ๋‹ค๋ฅธ๋ฐ, ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๊ณ ๋ฏผ์ด ์žˆ๋‹ค.
    • ์ˆ˜์ง€ : Document๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ๋Š” Paragraph์— ๋Œ€ํ•œ k๋ฅผ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค๊ณ  ๋‚˜์™€์žˆ๋Š” ๊ฒƒ ๊ฐ™๋‹ค.
    • ์žฌํฌ : ์—ฌ๋Ÿฌ Sentence์— ๋Œ€ํ•œ Aggregation์„ ์–ด๋–ป๊ฒŒ ํ•  ๊ฒƒ์ธ๊ฐ€์— ๋Œ€ํ•œ ๋ฐฉ๋ฒ•๋ก ์— ๋Œ€ํ•œ ๋ฌผ์Œ์ธ๊ฐ€?
    • ์ตํšจ : Average์˜ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ด ๋ณผ ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • ํƒœ์–‘ : ์ •๋‹ต์— ๊ด€๋ จ๋œ ๋ฌธ์žฅ์€ ๋ช‡ ๋ฌธ์žฅ ์•ˆ๋  ๊ฒƒ ๊ฐ™์€๋ฐ, ๋ชจ๋“  ๋ฌธ์žฅ์— ๋Œ€ํ•œ Average๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์€ ์œ ์˜๋ฏธ ํ• ๊นŒ? ์•„๋ฌดํŠผ Context ์•ˆ์— ์ •๋‹ต์ด ์žˆ๋Š” ๊ฒƒ์€ ์ž๋ช…ํ•œ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ตํšจ : ๋ฌธ์žฅ ๋‹จ์œ„๋กœ ์ชผ๊ฐœ์„œ ๋‹ต์„ ์ฐพ์•„๋‚˜๊ฐ€๋Š” ๊ณผ์ •์ด ๋” ์ข‹์ง€ ์•Š์„๊นŒ? Context๋ฅผ ๋‹ค Sentence ๋‹จ์œ„๋กœ ์ชผ๊ฐœ์„œ ๋‹ต์„ ์ฐพ์•„๋‚˜๊ฐ€๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์ž.
    • ํƒœ์–‘ : ํ‰๊ฐ€ ๋‹จ๊ณ„์—์„œ Negativeํ•œ Sentence์— ๋Œ€ํ•œ ๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ•˜๋Š”๊ฒŒ ์ข‹์„๊นŒ?
    • ์žฌํฌ : Sentence๋กœ ๋‚˜๋ˆ„๊ฒŒ ๋˜๋ฉด, ๋” ๋งŽ์€ Sample์—์„œ ์„ ํƒ์„ ํ•˜๋Š” ํ˜•ํƒœ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ๊ณ„์ธต์ ์œผ๋กœ ์ ‘๊ทผํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•ด๋ณด๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ตํšจ : Retriever ๋‹จ๊ณ„์—์„œ๋Š” ์ „์ฒด Context๋ฅผ ์‚ดํŽด๋ณด๊ณ , MRC ๋‹จ๊ณ„์—์„œ๋Š” Sentence๋กœ ๋‚˜๋ˆ„๋Š” ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•ด๋ณด๋ฉด ์–ด๋–จ๊นŒ? ํ™•์‹คํžˆ Retriever ๋‹จ๊ณ„์—์„œ, Sample์ด ๋งŽ์•„์ง€๋ฉด ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋Š๊ผˆ๋‹ค.
    • ์ˆ˜์ง€ : Simple and Effective Multi-Paragraph Reading Comprehension ๋…ผ๋ฌธ์„ ์ ์šฉํ•ด๋ณด๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค. k๋Š” Random์ด ์•„๋‹ˆ๋ผ ํ‰๊ท ๊ณผ ๊ฐ™์€ ์ƒ์ˆ˜๊ฐ’์„ ๊ณฑํ•˜๋Š” ํ˜•ํƒœ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.
  • ์ตํšจ : Random Masking์„ ์ ์šฉํ•ด์„œ ํ•™์Šตํ•˜๋Š” ์•„์ด๋””์–ด๋ฅผ ๋˜ ์‚ฌ์šฉํ•ด๋ณด๋Š” ๊ฑด ์–ด๋–จ๊นŒ? => ์ข‹์•„์š”!

  • ์ˆ˜์ง€ : KLUE์—์„œ ์˜์–ด๋กœ ๋ฒˆ์—ญํ–ˆ๋˜ ๋ถ„์ด Score๋ฅผ ๋†’์ด์…จ์—ˆ๋Š”๋ฐ ์ด๊ฑธ ์ ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ์ง€๋Š” ์•Š์„๊นŒ?

    • ์žฌํฌ : ๋‹ค์–‘ํ•œ ์–ธ์–ด๋กœ ๋ฒˆ์—ญํ•ด์„œ ์‚ฌ์šฉํ•˜๋Š” ์•„์ด๋””์–ด๊ฐ€ Retrieval ๋‹จ๊ณ„์—์„œ๋Š” ์œ ์šฉํ•  ๋“ฏ? ๋ฒˆ์—ญ์˜ ์„ฑ๋Šฅ์€ ๊ดœ์ฐฎ์„ ๊ฒƒ ๊ฐ™๊ณ , ๋‹ค๋งŒ ์‹œ๊ฐ„์ด ์กฐ๊ธˆ ๊ฑธ๋ฆด ๊ฒƒ ๊ฐ™๋‹ค.
  • ์ตํšจ : Test Set์— ๋Œ€ํ•œ Prediction์„ ์‚ดํŽด๋ณด๋ฉด, ๊ต‰์žฅํžˆ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ ธ๋ณด์ž„. Validation์— ๋Œ€ํ•ด์„œ๋Š” ๊น”๋”ํ•ด๋ณด์ด๋Š”๋ฐ ์™œ ์ฐจ์ด๊ฐ€ ๋‚ ๊นŒ?

    • ํ˜„๊ทœ : Retrieval ๋‹จ๊ณ„์—์„œ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ฒผ์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์ตํšจ : Post Process๋ฅผ ํ†ตํ•ด์„œ ์ถœ๋ ฅ์ด ์ž˜ ๋๋Š”์ง€๋ฅผ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • ํƒœ์–‘ : Output์˜ ํ˜•ํƒœ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋˜๋Š”๊ฐ€?
    • ์žฌํฌ : Retrieval์˜ Score์™€ MRC์˜ Logit๊ณผ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ์‹œํ‚ฌ ๊ฒƒ์ธ๊ฐ€์— ๋Œ€ํ•œ ๊ฒƒ์— ๊ด€์‹ฌ ๊ฐ€์ ธ์•ผ ํ•  ๋“ฏํ•จ.
    • ํƒœ์–‘ : ๊ฐ€์ค‘์น˜๋ฅผ $\mu$๋กœ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์„๋“ฏ?
    • ์ข…ํ—Œ : $\mu$๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • ํƒœ์–‘ : $\mu$๊ฐ€ ๋‹ค๋ฅธ ํ˜•ํƒœ์—์„œ ์•™์ƒ๋ธ” ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ๋„ ๋ฐฉ๋ฒ•์ผ ๋“ฏํ•˜๋‹ค.
    • ์ข…ํ—Œ : Text์— ๋Œ€ํ•œ Prediction์„ Hard Votingํ•  ์ˆ˜ ์žˆ์„๋“ฏ ์ด ๋ฐฉ๋ฒ•๋Œ€๋กœ ํ•˜๋ฉด, ๋‹ค๋ฅธ Document๋กœ ๋ถ€ํ„ฐ ๋‚˜์˜จ Text์— ๋Œ€ํ•ด Votingํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™๋‹ค.
    • ์žฌํฌ : Logit์œผ๋กœ Soft Voting ํ•˜๋ฉด ๋˜์ง€ ์•Š์„๊นŒ?
      • Start position, end position์œผ๋กœ voting