LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

ash-hun · 2023-12-11T14:21:55Z

Retriever에 관한 작업에서는 아래와 같은 중요한 매개변수가 존재한다.

▲ ChunkSize는 굉장히 중요한 하이퍼 파라미터, 문서를 자르는 사이즈 단위라 성능에 직접적으로 연계

결론적으로 내보이는 내용은 다음과 같다.

chunk_size가 크면 좋은데
문제는, langchian 의 chunk_size는 글자수 기준이고
s-bert의 max_seq_length는 토큰수(보통 512) 라는 점.

이에 따른 솔루션은 아래와 같다 ▼

공식문서 참조(https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/split_by_token)
즉, 해당 Langchain 공식독스에 의하면 우리가 사용하는 SentenceTransformer의 경우 직접 지원을 함.

여기서 추가적으로 생각해볼 수 있는것은
해당 공식독스는 tiktoken, spaCy, NLTK, SentenceTransformer, huggingface 밖에 지원을 안하던데 타 토크나이저는 LangChain에 접붙여서 가용이 안되는가? 우회적으로 huggingface에 업로드하여 사용하는수밖에 없나? 한번 시도해볼만한것 같다.

The text was updated successfully, but these errors were encountered:

PangPangGod · 2023-12-12T04:07:15Z

멋있어요

ash-hun added 📝 Docs 문서&기록 관련 🔬 Experiments 테스팅중 발견한 이슈관련 labels Dec 11, 2023

ash-hun self-assigned this Dec 11, 2023

ash-hun pinned this issue Dec 11, 2023

ssisOneTeam locked as resolved and limited conversation to collaborators Dec 11, 2023

khakha93 unpinned this issue Dec 12, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

ash-hun commented Dec 11, 2023

PangPangGod commented Dec 12, 2023 •

edited

Loading

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

Comments

ash-hun commented Dec 11, 2023

Retriever에 관한 작업에서는 아래와 같은 중요한 매개변수가 존재한다.

PangPangGod commented Dec 12, 2023 • edited Loading

PangPangGod commented Dec 12, 2023 •

edited

Loading