fix int8 skip module config

Signed-off-by: changwangss <[email protected]>
intel · Aug 5, 2024 · ef2a1d4 · ef2a1d4
1 parent b400cb9
commit ef2a1d4
Showing 1 changed file with 4 additions and 1 deletion.
diff --git a/intel_extension_for_transformers/transformers/utils/config.py b/intel_extension_for_transformers/transformers/utils/config.py
@@ -831,7 +831,10 @@ def __init__(
         self.double_quant_bits = double_quant_bits
         self.double_quant_use_sym = double_quant_use_sym
         self.double_quant_group_size = double_quant_group_size
-        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", ["lm_head", "output_layer", "embed_out"])
+        # "transformer.output_layer" for chatglm series model.
+        # "gpt_neox.embed_out" for dolly v2 series model.
+        self.llm_int8_skip_modules = kwargs.get("llm_int8_skip_modules", 
+                                                ["lm_head", "transformer.output_layer", "gpt_neox.embed_out"])
         self.use_ggml = use_ggml
         self.use_quant = use_quant
         self.use_neural_speed = use_neural_speed