fix model_path and batch_size for sparse case

Shubhra Pandit · Shubhra Pandit · commit c3f760089758 · 2024-04-11T18:24:38.000Z
diff --git a/docs/llms/guides/sparse-finetuning-llm-gsm8k-with-sparseml.md b/docs/llms/guides/sparse-finetuning-llm-gsm8k-with-sparseml.md
@@ -224,7 +224,7 @@ accelerate launch \
     --learning_rate 0.00005 \
     --lr_scheduler_type "linear" \
     --max_seq_length 1024 \
-    --per_device_train_batch_size 32 \
+    --per_device_train_batch_size 16 \
     --max_grad_norm None \
     --warmup_steps 20 \
     --distill_teacher PATH_TO_TEACHER \
@@ -331,7 +331,7 @@ MODEL_PATH=<MODEL_PATH>
 TASK=gsm8k
 python main.py \
  --model sparseml \
- --model_args pretrained=MODEL_PATH,trust_remote_code=True \
+ --model_args pretrained=${MODEL_PATH},trust_remote_code=True \
  --tasks $TASK \
  --batch_size 48 \
  --no_cache \
diff --git a/versioned_docs/version-1.7.0/llms/guides/sparse-finetuning-llm-gsm8k-with-sparseml.md b/versioned_docs/version-1.7.0/llms/guides/sparse-finetuning-llm-gsm8k-with-sparseml.md
@@ -224,7 +224,7 @@ accelerate launch \
     --learning_rate 0.00005 \
     --lr_scheduler_type "linear" \
     --max_seq_length 1024 \
-    --per_device_train_batch_size 32 \
+    --per_device_train_batch_size 16 \
     --max_grad_norm None \
     --warmup_steps 20 \
     --distill_teacher PATH_TO_TEACHER \
@@ -331,7 +331,7 @@ MODEL_PATH=<MODEL_PATH>
 TASK=gsm8k
 python main.py \
  --model sparseml \
- --model_args pretrained=MODEL_PATH,trust_remote_code=True \
+ --model_args pretrained=${MODEL_PATH},trust_remote_code=True \
  --tasks $TASK \
  --batch_size 48 \
  --no_cache \