Skip to content

Commit

Permalink
update description
Browse files Browse the repository at this point in the history
  • Loading branch information
gabrielwithappy committed Oct 8, 2023
1 parent a7f17ca commit e21a08d
Showing 1 changed file with 14 additions and 1 deletion.
15 changes: 14 additions & 1 deletion glossary/dictionary/terms/seperator.qmd
Original file line number Diff line number Diff line change
Expand Up @@ -6,4 +6,17 @@ url: https://huggingface.co/docs/transformers/index
<a href="https://huggingface.co/docs/transformers/index" target="_blank"><img loading="lazy" alt="src: HuggingFace Transformer" src="https://img.shields.io/badge/문서-Huggingface_Transformer-blue" ></a>

---
설명을 추가해주세요.
딥러닝에서 `분할 토큰`은 주로 언어 모델(예: GPT, BERT)을 사용하는 자연어 처리(NLP) 작업에서 텍스트를 토큰(token)으로 분할하고, 분할된 토큰 중 하나가 텍스트의 끝이나 다른 문맥적 경계를 나타내는 데 사용되는 특수한 토큰을 가리킵니다.

일반적으로 언어 모델은 입력 텍스트를 토큰 단위로 분할하고, 각 토큰에 대한 임베딩 벡터를 생성하여 텍스트를 처리합니다. 이때 텍스트의 문맥을 이해하기 위해 각 문장이나 문단의 끝을 나타내는 특별한 토큰이 필요할 수 있습니다. 이 특별한 토큰은 문장 또는 문단 간의 경계를 표시하고 모델에게 언어의 문맥을 알리는 데 사용됩니다.

예를 들어, 문장 "나는 고양이를 좋아해."와 "고양이는 너무 귀여워."가 있다고 가정해 봅시다. 이 두 문장을 토큰화하면 다음과 같을 수 있습니다:

문장 1: ["나", "는", "고양이", "를", "좋아해", "."]
문장 2: ["고양이", "는", "너무", "귀여워", "."]
여기서 마침표(".")는 각 문장의 끝을 나타내는 특수한 토큰으로 분할 토큰입니다. 이를 통해 모델은 두 문장이 서로 다른 문장임을 이해하고, 문장 간의 관계를 파악할 수 있습니다.

또한, 분할 토큰은 대화형 언어 처리 작업에서 각 대화 발화를 구분하는 데도 사용될 수 있습니다. 대화 형식에서는 대개 대화 참가자의 발화 간에 경계를 나타내기 위해 분할 토큰을 사용합니다.

## 참조
1. [딥러닝 분할토큰의 의미]. https://chat.openai.com/

0 comments on commit e21a08d

Please sign in to comment.