Skip to content

kimternet/Audio

Repository files navigation

1. 오디오 처리 (Audio processing)

  • 샘플링(Sampling)
  • MU-Law Encoding
  • Waveform
  • 정현파(Sinusoid):Time-Frequency Representation
  • 푸리에 변환(Fourier Fransform)
  • 이산 푸리에 변환(Discrete Fourier Transform, DFT)
  • STFT(Short-Time Fourier Transform)
  • 윈도우 함수(Window Function)
  • 스펙트로그램(Spectrogram)
  • 멜 스케일(Mel Scale)
  • 바크 스케일(Bark Scale)
  • 이산 코사인 변환(Discrete Cosine Transform, DCT)
  • 오디오 특징 추출(Audio Feature Extraction)
  • Mel - Frequency Cepstral Coefficients(MFCC)
  • 오디오 필터(Audio Filter)

2. 오디오 분류 (Audio Classification)

  1. 머신러닝 이용한 오디오 분류
  • Logistic Regression
  • Support Vector Machine
  • Decision Tree
  1. Constant-Q를 이용한 머신러닝 오디오 분류
  • Logistic Regression
  • Support Vector Machine
  • Decision Tree
  1. Constant-Q 특징을 이용한 딥러닝 오디오 분류
  • DNN 모델 구성
  • CNN 모델 구성
  1. MFCC를 이용한 머신러닝 오디오 분류
  • 데이터 준비
  • Logistic Regression
  • Support Vector Machine
  • Decision Tree
  1. MFCC를 이용한 딥러닝 오디오 분류
  • DNN 모델 구성
  • CNN 모델 구성

3. 음성 인식(Speech Recognition)

  1. 음성 인식(Speech Recognition)
  • Speech To Text(STT)
  • 라이브러리 설치
  • Recognizer
  1. 음성 데이터
  2. 음성 인식
  • 영어(English)
  • 중국어(Chinese- Mandarim)
  • 프랑스어(French)
  • 한국어(Korea)

4. 화자 분리(Speaker Diarization)

  • UIS-RNN
  • 라이브러리 설치
  • 데이터 다운로드
  • 파라미터 설정
  • UISRNN 모델 학습

5. 음성 합성 (Speech Synthesis)

  • 음성 합성의 원리
  • Tacotron2란?
  • Waveglow란?

About

오디오 프로세싱(Audio Processing)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published