https://arxiv.org/abs/2306.04751
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources (Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi)
instruction following dataset에 대한 테스트. 전반적으로 dialog 능력은 sharegpt가 가장 높고 다른 데이터셋들은 벤치마크에 강점이 있는 경우가 있네요. 이 데이터들을 섞어서 모델을 만들고 테스트해봤습니다. chatgpt와 비교하면 좀 근접하긴 했지만...여전히 격차가 꽤 있군요.
#alignment