Merge pull request #1 from eaidova/ea/awq_fix

enable awq export only if ov support it
huggingface · Dec 17, 2024 · b51cdee · b51cdee
2 parents 9fb1da4 + 04d0cf9
commit b51cdee
Show file tree

Hide file tree

Showing 2 changed files with 10 additions and 3 deletions.
diff --git a/optimum/exporters/openvino/__main__.py b/optimum/exporters/openvino/__main__.py
@@ -242,7 +242,10 @@ def main_export(
             trust_remote_code=trust_remote_code,
         )
         quantization_config = getattr(config, "quantization_config", None)
-        do_gptq_patching = quantization_config and quantization_config["quant_method"] in ["gptq", "awq"]
+        supported_quant_methods = ["gptq"]
+        if is_openvino_version(">=", "2024.6.0"):
+            supported_quant_methods.append("awq")
+        do_gptq_patching = quantization_config and quantization_config["quant_method"] in supported_quant_methods
         model_type = config.model_type.replace("_", "-")
         if model_type not in TasksManager._SUPPORTED_MODEL_TYPE:
             custom_architecture = True

diff --git a/tests/openvino/test_modeling.py b/tests/openvino/test_modeling.py
@@ -876,7 +876,6 @@ class OVModelForCausalLMIntegrationTest(unittest.TestCase):
         "minicpm",
         "mistral",
         "mixtral",
-        "mixtral_awq",
         "mpt",
         "opt",
         "opt_gptq",
@@ -918,6 +917,9 @@ class OVModelForCausalLMIntegrationTest(unittest.TestCase):
             "minicpm3",
         )
 
+    if is_openvino_version(">=", "2024.6.0"):
+        SUPPORTED_ARCHITECTURES += ("mixtral_awq",)
+
     GENERATION_LENGTH = 100
     REMOTE_CODE_MODELS = (
         "chatglm",
@@ -1034,7 +1036,9 @@ def test_compare_to_transformers(self, model_arch):
 
             additional_inputs = {"past_key_values": DynamicCache()}
         with patch_awq_for_inference("awq" in model_arch):
-            transformers_outputs = transformers_model.generate(**tokens, generation_config=gen_config, **additional_inputs)
+            transformers_outputs = transformers_model.generate(
+                **tokens, generation_config=gen_config, **additional_inputs
+            )
         print(f"ov_outputs: {ov_outputs}")
         print(f"transformers_outputs: {transformers_outputs}")
         self.assertTrue(