Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

Open
ash-hun opened this issue Dec 11, 2023 · 1 comment
Assignees
Labels
📝 Docs 문서&기록 관련 🔬 Experiments 테스팅중 발견한 이슈관련

Comments

@ash-hun
Copy link
Contributor

ash-hun commented Dec 11, 2023

Retriever에 관한 작업에서는 아래와 같은 중요한 매개변수가 존재한다.

image
▲ ChunkSize는 굉장히 중요한 하이퍼 파라미터, 문서를 자르는 사이즈 단위라 성능에 직접적으로 연계

결론적으로 내보이는 내용은 다음과 같다.

chunk_size가 크면 좋은데
문제는, langchian 의 chunk_size는 글자수 기준이고
s-bert의 max_seq_length는 토큰수(보통 512) 라는 점.

이에 따른 솔루션은 아래와 같다 ▼

여기서 추가적으로 생각해볼 수 있는것은
해당 공식독스는 tiktoken, spaCy, NLTK, SentenceTransformer, huggingface 밖에 지원을 안하던데 타 토크나이저는 LangChain에 접붙여서 가용이 안되는가? 우회적으로 huggingface에 업로드하여 사용하는수밖에 없나? 한번 시도해볼만한것 같다.

@ash-hun ash-hun added 📝 Docs 문서&기록 관련 🔬 Experiments 테스팅중 발견한 이슈관련 labels Dec 11, 2023
@ash-hun ash-hun self-assigned this Dec 11, 2023
@ash-hun ash-hun pinned this issue Dec 11, 2023
@ssisOneTeam ssisOneTeam locked as resolved and limited conversation to collaborators Dec 11, 2023
@PangPangGod
Copy link
Contributor

PangPangGod commented Dec 12, 2023

437-4370721_61-kb-png-pepe-giving-thumbs-up-transparent|100x100

멋있어요

@khakha93 khakha93 unpinned this issue Dec 12, 2023
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
📝 Docs 문서&기록 관련 🔬 Experiments 테스팅중 발견한 이슈관련
Projects
None yet
Development

No branches or pull requests

2 participants