intel · VincyZhang · Jan 22, 2024 · Jan 22, 2024 · Jan 22, 2024 · Jan 22, 2024
diff --git a/scripts/inference.py b/scripts/inference.py
@@ -119,14 +119,27 @@ def main(args_in: Optional[List[str]] = None) -> None:
         help="Try with bestla flash attn managed format for kv memory (Currently GCC13 & AMX required); "
         "fall back to fp16 if failed (default option for kv-memory)",
     )
+    parser.add_argument(
+        "--one_click_run",
+        type=str,
+        default="False",
+        choices=["True", "False"],
+        help="one-click for quantization and inference",
+    )
 
     args = parser.parse_args(args_in)
     print(args)
     model_name = model_maps.get(args.model_name, args.model_name)
     if is_win():
         path = Path(args.build_dir, "./Bin/Release/run_{}.exe".format(model_name))
     else:
-        path = Path(args.build_dir, "./bin/run_{}".format(model_name))
+        if args.one_click_run == "True":
+            import neural_speed
+            package_path = os.path.dirname(neural_speed.__file__)
+            path = Path(package_path, "./run_{}".format(model_name))
+        else:
+            path = Path(args.build_dir, "./bin/run_{}".format(model_name))
+
     if not path.exists():
         print("Please build graph first or select the correct model name.")
         sys.exit(1)

diff --git a/scripts/quantize.py b/scripts/quantize.py
@@ -90,13 +90,25 @@ def main(args_in: Optional[List[str]] = None) -> None:
         action="store_true",
         help="enable ggml for quantization and inference",
     )
+    parser.add_argument(
+        "--one_click_run",
+        type=str,
+        default="False",
+        choices=["True", "False"],
+        help="one-click for quantization and inference",
+    )
     args = parser.parse_args(args_in)
 
     model_name = model_maps.get(args.model_name, args.model_name)
     if is_win():
         path = Path(args.build_dir, "./Bin/Release/quant_{}.exe".format(model_name))
     else:
-        path = Path(args.build_dir, "./bin/quant_{}".format(model_name))
+        if args.one_click_run == "True":
+            import neural_speed
+            package_path = os.path.dirname(neural_speed.__file__)
+            path = Path(package_path, "./quant_{}".format(model_name))
+        else:
+            path = Path(args.build_dir, "./bin/quant_{}".format(model_name))
     if not path.exists():
         print(path)
         print("Please build graph first or select the correct model name.")

diff --git a/scripts/run.py b/scripts/run.py
@@ -185,6 +185,7 @@ def main(args_in: Optional[List[str]] = None) -> None:
     if args.use_ggml:
         quant_cmd.extend(["--use_ggml"])
     quant_cmd.extend(["--build_dir", args.build_dir])
+    quant_cmd.extend(["--one_click_run", "True"])
     print("quantize model ...")
     subprocess.run(quant_cmd)
 
@@ -202,8 +203,11 @@ def main(args_in: Optional[List[str]] = None) -> None:
     infer_cmd.extend(["--repeat_penalty", str(args.repeat_penalty)])
     infer_cmd.extend(["--keep", str(args.keep)])
     infer_cmd.extend(["--build_dir", args.build_dir])
+    infer_cmd.extend(["--one_click_run", "True"])
     if args.shift_roped_k:
         infer_cmd.extend(["--shift-roped-k"])
+    if (model_type == "baichuan" or model_type == "qwen"):
+        infer_cmd.extend(["--tokenizer", dir_model])
     print("inferce model ...")
     subprocess.run(infer_cmd)