fix int4_fullrange dtype loading

Signed-off-by: Wang, Chang <[email protected]>
intel · Jul 18, 2024 · ef87c04 · ef87c04
1 parent d917388
commit ef87c04
Showing 1 changed file with 2 additions and 0 deletions.
diff --git a/intel_extension_for_transformers/transformers/modeling/modeling_auto.py b/intel_extension_for_transformers/transformers/modeling/modeling_auto.py
@@ -1833,6 +1833,7 @@ def load_low_bit(cls, pretrained_model_name_or_path, *model_args, **kwargs):
         if quantization_config.weight_dtype not in [
             "fp8_e5m2",
             "fp8_e4m3",
+            "int4_fullrange"
         ]:
             model = build_woq_model(model, quantization_config)
         else:
@@ -1949,6 +1950,7 @@ def replace_ipex_cpu_woq_linear(model, current_name=[]):
         if quantization_config.weight_dtype not in [
             "fp8_e5m2",
             "fp8_e4m3",
+            "int4_fullrange"
         ] and not quantization_config.use_ipex:
             model = replace_linear(
                 model,