jianzhnie · lyxok1 · Dec 5, 2023 · Dec 9, 2023
diff --git a/chatllms/utils/model_utils.py b/chatllms/utils/model_utils.py
@@ -11,6 +11,7 @@
 from transformers.trainer_utils import get_last_checkpoint
 from transformers.generation.logits_process import LogitsProcessor
 from transformers.generation.utils import LogitsProcessorList
+from transformers.deepspeed import is_deepspeed_zero3_enabled
 from chatllms.data.data_utils import (DEFAULT_BOS_TOKEN, DEFAULT_EOS_TOKEN,
                                       DEFAULT_PAD_TOKEN, DEFAULT_UNK_TOKEN)
 
@@ -308,13 +309,20 @@ def get_logits_processor() -> LogitsProcessorList:
     return logits_processor
 
 
+
 def safe_save_model_for_hf_trainer(trainer: Trainer, output_dir: str):
     """Collects the state dict and dump to disk."""
-    state_dict = trainer.model.state_dict()
-    if trainer.args.should_save:
-        cpu_state_dict = {
-            key: value.cpu()
-            for key, value in state_dict.items()
-        }
-        del state_dict
-        trainer._save(output_dir, state_dict=cpu_state_dict)  # noqa
+    trainer.save_model(output_dir)
+
+    # state_dict = trainer.model.state_dict()
+    # if not is_deepspeed_zero3_enabled() and trainer.args.should_save:
+    #     cpu_state_dict = {
+    #         key: value.cpu()
+    #         for key, value in state_dict.items()
+    #     }
+    #     del state_dict
+    #     trainer._save(output_dir, state_dict=cpu_state_dict)  # noqa
+    # elif is_deepspeed_zero3_enabled():
+    #     # save for deepspeed ZeRO3 checkpoint
+    #     if not trainer.wrapped_model.save_16bit_model(output_dir):
+    #         trainer.wrapped_model.save_checkpoint(output_dir, save_latest=True)