diff --git a/glossary/dictionary/terms/seperator.qmd b/glossary/dictionary/terms/seperator.qmd index df34994..17909c0 100644 --- a/glossary/dictionary/terms/seperator.qmd +++ b/glossary/dictionary/terms/seperator.qmd @@ -6,4 +6,17 @@ url: https://huggingface.co/docs/transformers/index src: HuggingFace Transformer --- -설명을 추가해주세요. \ No newline at end of file +딥러닝에서 `분할 토큰`은 주로 언어 모델(예: GPT, BERT)을 사용하는 자연어 처리(NLP) 작업에서 텍스트를 토큰(token)으로 분할하고, 분할된 토큰 중 하나가 텍스트의 끝이나 다른 문맥적 경계를 나타내는 데 사용되는 특수한 토큰을 가리킵니다. + +일반적으로 언어 모델은 입력 텍스트를 토큰 단위로 분할하고, 각 토큰에 대한 임베딩 벡터를 생성하여 텍스트를 처리합니다. 이때 텍스트의 문맥을 이해하기 위해 각 문장이나 문단의 끝을 나타내는 특별한 토큰이 필요할 수 있습니다. 이 특별한 토큰은 문장 또는 문단 간의 경계를 표시하고 모델에게 언어의 문맥을 알리는 데 사용됩니다. + +예를 들어, 문장 "나는 고양이를 좋아해."와 "고양이는 너무 귀여워."가 있다고 가정해 봅시다. 이 두 문장을 토큰화하면 다음과 같을 수 있습니다: + +문장 1: ["나", "는", "고양이", "를", "좋아해", "."] +문장 2: ["고양이", "는", "너무", "귀여워", "."] +여기서 마침표(".")는 각 문장의 끝을 나타내는 특수한 토큰으로 분할 토큰입니다. 이를 통해 모델은 두 문장이 서로 다른 문장임을 이해하고, 문장 간의 관계를 파악할 수 있습니다. + +또한, 분할 토큰은 대화형 언어 처리 작업에서 각 대화 발화를 구분하는 데도 사용될 수 있습니다. 대화 형식에서는 대개 대화 참가자의 발화 간에 경계를 나타내기 위해 분할 토큰을 사용합니다. + +## 참조 +1. [딥러닝 분할토큰의 의미]. https://chat.openai.com/ \ No newline at end of file