Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

squeezeformer 모델 학습 및 추론 #226

Open
sangheonEN opened this issue Aug 2, 2024 · 5 comments
Open

squeezeformer 모델 학습 및 추론 #226

sangheonEN opened this issue Aug 2, 2024 · 5 comments

Comments

@sangheonEN
Copy link

sangheonEN commented Aug 2, 2024

❓ Questions & Help

안녕하세요?
컴퓨터 비전만 하다가 음성인식쪽은 처음인 음성ai어린이입니다.
혼자 음성인식 프로젝트를 맡아 정말 막막하여 이렇게나마 질문을 드립니다.
우선 TUNiB의 김수환님의 유튜브 영상을 보면서 openspeech에 알게되었고, 해당 프레임워크를 활용해서 STT 모델을 개발하려합니다.

제가 활용할 모델은 Squeezeformer 입니다.
또한 모델 성능 목표는 이와 같습니다.

  • cer : 0.1
  • 추론 속도 : 2초 (5초 음성 입력)

Details

활용 pc 사양 : 3060 rtx, window 10

질문 1. 도메인 지식이 아예 없다보니 상기와 같은 목표를 달성하기에 Squeezeformer의 STT 모델만(언어모델 미적용)을 활용해서 성능을 달성할 수 있을지에 대한 질문을 우선적으로 드립니다.

질문 1-1. 언어 모델을 적용해야한다면, hydra_lm_train.py 소스코드를 활용하여 학습을하고 hydra_train.py 소스코드를 활용하여 STT 모델을 학습을 해야하는 것으로 알고 있습니다. 그런데 혹시 두 모델을 학습한 뒤 통합해서 evaluation하거나 inference 하는 코드는 보이지 않더라구요. 혹시 제가 직접 구현하려면 어떻게 해야할까요? 참고할만한 자료가 있으면 추천 부탁드립니다.

질문 2. Squeezeformer를 학습하는 config file의 파라미터를 알 수 있는 방법이 있을까요? 소스코드에서는 아무런 정보가 제공되지 않는 것 같아서요. EX (https://github.com/openspeech-team/openspeech/blob/main/openspeech/configs/train.yaml)

질문 3. 한국어 데이터셋인 KsponSpeech을 활용하려는데, Annotation 라벨 데이터는 kospeech에서 제공해주신 전처리 코드를 이용해서 Option1 : phonetic transcript형식으로 TEXT를 전처리하려합니다. 그러면 Character-Unit 형식으로 OUTPUT이 나올까요? 또한 squeezeformer 모델의 output은 어떻게 나오는지 궁금합니다.

질문 4. 최종적인 목표는 음성인식 모델을 만든 다음 python script를 통해 실시간 마이크 스트리밍으로 5초간 음성을 인식하여 2초내에 추론된 text를 기반으로한 이벤트 기능을 개발하는 것입니다. openspeech 프레임워크를 활용한다면 이러한 프로젝트 목표를 달성할 수 있을까요?

@sooftware
Copy link
Member

안녕하세요. 해당 프로젝트는 현재 중단되어 많이 outdate 한 프레임워크입니다.
2021년 이후 추가 개발이 이루어지지 않고있으므로 2024년인 지금은 다른 프레임워크를 이용하시는걸 추천드립니다.

LM과 음성인식 모델을 결합해서 디코딩하는걸 추가하려고 했으나 메인 개발자인 저랑 하상천님이 바빠서 추가를 못해놓은 상황입니다.

OpenAI의 Whisper, SpeechBrain 등 현재는 이 프레임워크보다 더 좋으면서 편한 툴이 많이 있으니, 한 번 살펴보시면 좋을 것 같습니다 :)

@upskyy
Copy link
Member

upskyy commented Aug 2, 2024

KsponSpeech로 모델을 쉽게 학습해볼 수 있는 SpeechBrain 코드 를 참고해보시면 좋을 것 같습니다.

@sangheonEN
Copy link
Author

sangheonEN commented Aug 11, 2024 via email

@sooftware
Copy link
Member

  1. 본 프로젝트는 오래됐고, 현재 저랑 메인테이너인 저랑 상천님 모두 바쁘고 최근에는 더 좋은 프레임워크가 많기 때문에 개발이 더 되지는 않을 것 같습니다. (사용자분들이 PR 해주시면 될 수도 있겠지만요)

  2. 이 부분은 직접 살펴보셔야 될 것 같습니다 :)

  3. 이것도 직접 살펴보셔야 될 것 같습니다.

  4. 한국어 STT가 워낙 마이너한 분야여서 서적까지는 모르겠지만, 제가 학생때 정리해놓은 자료 한 번 살펴보시면 도움이 되지 않을까 싶네요.

  5. https://ratsgo.github.io/speechbook/ 한 번 살펴보시면 좋을 것 같습니다. 이 외에도, 음성인식 유명한 논문들을 읽다보면 자연스럽게 이해가 되실거라 생각됩니다.

  6. 위 5번 답변과 같습니다.

@sangheonEN
Copy link
Author

sangheonEN commented Aug 12, 2024 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants