https://arxiv.org/abs/2303.13506
The Quantization Model of Neural Scaling (Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark)
요즘 관심이 있는 모델 크기와 모델의 capability에 대한 정돈된 접근인 듯 해서 소개.
scaling에서 중요한 것은 모델의 크기와 데이터의 수 양쪽이 중요한 것으로 보인다는 것. LLaMA의 결과를 보면 작은 모델을 더 오래 학습하는 것으로 큰 모델과 동등한 결과를 얻을 수 있지 않을까 하는 생각이 들지만...지금까지의 증거들로는 큰 모델에서만 습득할 수 있는 capability가 있는 것으로 보인다. 즉 모델의 크기 증가에 따라 emergent한 능력들이 나타나는 것 같다. (https://arxiv.org/abs/2206.07682, https://arxiv.org/abs/2302.07459 등. 물론 데이터셋 구성의 차이 등과 같은 문제가 섞여 있어 깔끔한 결론을 내기 어려운 것 같긴 하지만.)
모델 크기가 능력을 결정한다고 하면 우리가 필요로 하는 능력을 얻기 위해서는 어느 정도 크기가 필요한가가 중요한 부분인데 사실 이 부분에 대한 정보는 많지 않은 것 같다. (애초에 우리가 필요로 하는 능력이 무엇인지 잘 파악하고 있는 상태도 아니라고 봐야할 것이다.) 이 논문은 그런 실용적인 질문에 대한 답은 아니지만 생각과 분석의 프레임워크는 제공한다고 할 수 있을 것 같다. 논문의 가정은 다음과 같다:
- 모델이 가질 수 있는 스킬들은 이산적으로 존재한다. (quanta) 스킬의 숙련도가 점진적으로 증가한다기보다는 스킬을 획득했는가 아닌가라는 식으로 돌아간다고 볼 수 있겠다. 이 스킬에는 예를 들어 라인 길이를 79 문자로 맞추기 같은 것도 포함된다.
- 이 quanta들은 loss를 감소시키는데 유용한 정도가 다르기에, loss의 감소 정도에 따라 시퀀스를 이루게 된다. 그러니 전반적인 loss를 감소시키는데 가장 유용한 quanta를 습득하고, 순위가 낮은 quanta들은 나중에 습득하게 된다.
- 이 quanta들이 loss를 감소시키는데 사용되는 비율은 power law를 따른다.
이렇게 가정했을 때 모델의 크기는 배울 수 있는 quanta의 양을 결정하고 데이터에서 이런 능력이 필요한 사례의 등장 횟수가 quanta가 학습될 것인지 아닐 것인지를 결정한다는 주장이다. 그러니까 특정 quanta를 학습하려면 quanta를 학습할 수 있는 capacity (모델 크기)가 있어야 하고, 실제로 quanta를 학습해야 하는 필요가 발생해야 한다. (데이터의 양) 위 가정들을 받아들였을 때 모델의 크기와 데이터의 양이 loss의 감소에 대해 power law scaling을 야기하게 된다는 결론이다.
quanta는 이산적이기에 이 quanta가 습득되는가 아닌가라는 binary한 문제이지만, 어떤 능력의 경우에는 여러 quanta가 결합되어 작동하기에 모델의 크기 증가 -> quanta의 증가에 따라 이 quanta들이 합쳐지면서 성능이 점진적으로 증가하는 것으로 나타나고, 어떤 능력의 경우에는 quanta의 존재 유무 자체가 결정적인 영향을 미치기에 일정 규모까지는 능력이 나타나지 않았다가 특정 규모부터 능력이 발생하는 emergent한 현상이 발생한다, 이런 가설로 점진적으로 성능이 향상되는 스킬들과 창발적으로 등장하는 스킬들을 설명할 수 있다고 주장하고 있다.
실제로 llm이 이렇게 돌아가는가? 그건 아직 확실하지는 않은 것 같다. 다만 개인적으로는 그럴 듯한 것 같다는 생각이 들긴 한다. 뉴럴넷에서 특정 기능을 전담하는 회로가 존재한다는 사례들이 꽤 있는 듯 해서 그렇다.
어쨌든 이게 당면한 문제들에 대한 답을 바로 주지는 않는다. 모델이 커져야 발생할 수 있는 능력이 있다는 것을 받아들이더라도 실제로 모델을 키워서 학습해봐야 그 규모에서 어떤 능력이 발생하는지를 알 수 있다.
실용적인 측면에서는 설명과는 별개로 능력이 모델 규모에 대해 emergent하다는 사실 혹은 가정 자체가 중요할 것이다. 이건 더 큰 모델에서만 얻을 수 있는 능력이 있으며 더 작은 모델에서는 그 능력을 얻을 수 없을 수 있다는 것을 시사하고, 최적화의 관점에서는 우리가 어떤 능력이 어떤 규모에서 발생한다는 것을 아는 상태에서 우리에게 필요한 모델의 크기의 최저선을 그을 수도 있다는 것을 의미할 것이다.
개인적으로 이런 emergent behavior와 multilingual 문제에 대한 scaling law가 요즘 많이 궁금하다. 결국 증거 없이 할 수 있는 이야기는 제한적이라 좀 더 데이터가 많이 나오길 기대.