huggingface · qgallouedec · Feb 10, 2025 · Feb 7, 2025 · Feb 7, 2025 · Feb 10, 2025
diff --git a/.github/workflows/quality.yml → .github/workflows/tests.yml b/.github/workflows/quality.yml → .github/workflows/tests.yml
@@ -1,4 +1,4 @@
-name: Quality
+name: Tests
 
 on:
   push:
@@ -11,8 +11,8 @@ on:
 
 jobs:
 
-  check_code_quality:
-    name: Check code quality
+  tests:
+    name: Run tests and quality checks
     runs-on: ubuntu-latest
     steps:
       - name: Checkout code
@@ -24,8 +24,11 @@ jobs:
       - name: Install dependencies
         run: |
           python -m pip install --upgrade pip
-          python -m pip install ".[quality]"
+          python -m pip install ".[quality,tests]"
       - name: Code quality
         run: |
           make quality
+      - name: Run tests
+        run: |
+          make test
 
diff --git a/Makefile b/Makefile
@@ -14,6 +14,8 @@ quality:
 	isort --check-only $(check_dirs) setup.py
 	flake8 --max-line-length 119 $(check_dirs) setup.py
 
+test:
+	pytest -sv tests/
 
 # Evaluation
 

diff --git a/setup.py b/setup.py
@@ -83,7 +83,7 @@ def deps_list(*pkgs):
 
 
 extras = {}
-extras["tests"] = deps_list("pytest", "parameterized")
+extras["tests"] = deps_list("pytest", "parameterized", "math-verify")
 extras["torch"] = deps_list("torch")
 extras["quality"] = deps_list("ruff", "isort", "flake8")
 extras["train"] = deps_list("flash_attn")

diff --git a/src/open_r1/rewards.py b/src/open_r1/rewards.py
@@ -58,7 +58,7 @@ def format_reward(completions, **kwargs):
 
 
 def reasoning_steps_reward(completions, **kwargs):
-    """Reward function that checks for clear step-by-step reasoning.
+    r"""Reward function that checks for clear step-by-step reasoning.
     Regex pattern:
         Step \d+: - matches "Step 1:", "Step 2:", etc.
         ^\d+\. - matches numbered lists like "1.", "2.", etc. at start of line

diff --git a/tests/test_rewards.py b/tests/test_rewards.py
@@ -120,7 +120,9 @@ def test_positive_max_penalty_raises_value_error(self):
 
     def test_zero_max_penalty_returns_zero(self):
         reward_fn = get_repetition_penalty_reward(ngram_size=2, max_penalty=0.0)
-        self.assertEqual(reward_fn, 0)
+        completions = [[{"content": "test test test"}]]
+        rewards = reward_fn(completions)
+        self.assertEqual(rewards, [0.0])
 
     def test_no_repetition(self):
         reward_fn = get_repetition_penalty_reward(ngram_size=2, max_penalty=-1.0)