- 선형변환을 통해 단어의 특성을 저차원상의 실수 벡터값으로 나타내는 방법 ****
- 텍스트를 어떻게 숫자 행렬로 표현할 수 있나요?
- ascii형태로 이차행렬로 표현한 다음에 단어를 tokenzie한다
- 텍스트에는 순서가 중요합니다. 입력 데이터의 순서를 인공지능 모델에 어떻게 반영해야 하나요?
- 입력데이터의 출력을 다음 입력데이터에 반영한다.
- input_dim 은 입력 데이터의 개수
- output_dim은 토큰화된 한 단어를 표현할 벡터의 길이
- Recurrent Neural Network(RNN)
- RNN은 시퀀스(Sequence) 형태의 데이터를 처리하기에 최적인 모델로 알려져 있음
- NN의 꽃 RNN (모두를 위한 딥러닝.sung kim)
- 1-D CNN으로 텍스트분류를 해도 좋은 성능이 나온다.
- 1차원 2차원을 구분하는 것은 입력벡터의 차원 (≠ Layers, depth)
7-5
수연님께 단어를 자를때 길이순으로 정렬하고 패딩이 비슷한것끼리 미니배치로 묶어서 사용한다고 들었는데, keras에서 구현할 수 있나? keras에서 embedding 함수 만드려면 각 문장에 들어있는 단어의 수가 일정해야하는데 어떻게 해결하나?