ogrisel · ogrisel · Nov 3, 2018 · Nov 2, 2018 · Nov 2, 2018 · Nov 2, 2018
diff --git a/pygbm/grower.py b/pygbm/grower.py
@@ -73,7 +73,7 @@ def __init__(self, features_data, all_gradients, all_hessians,
         self.splitting_context = SplittingContext(
             features_data.shape[1], features_data, n_bins,
             all_gradients, all_hessians, l2_regularization,
-            min_hessian_to_split, min_samples_leaf)
+            min_hessian_to_split, min_samples_leaf, min_gain_to_split)
         self.max_leaf_nodes = max_leaf_nodes
         self.max_depth = max_depth
         self.min_samples_leaf = min_samples_leaf

diff --git a/pygbm/splitting.py b/pygbm/splitting.py
@@ -24,7 +24,7 @@
     ('histogram', typeof(HISTOGRAM_DTYPE)[:]),  # array of size n_bins
 ])
 class SplitInfo:
-    def __init__(self, gain=0, feature_idx=0, bin_idx=0,
+    def __init__(self, gain=-1., feature_idx=0, bin_idx=0,
                  gradient_left=0., hessian_left=0.,
                  gradient_right=0., hessian_right=0.,
                  n_samples_left=0, n_samples_right=0):
@@ -44,6 +44,7 @@ def __init__(self, gain=0, feature_idx=0, bin_idx=0,
     ('binned_features', uint8[::1, :]),
     ('n_bins', uint32),
     ('min_samples_leaf', optional(uint32)),
+    ('min_gain_to_split', float32),
     ('all_gradients', float32[::1]),
     ('all_hessians', float32[::1]),
     ('ordered_gradients', float32[::1]),
@@ -61,7 +62,8 @@ def __init__(self, gain=0, feature_idx=0, bin_idx=0,
 class SplittingContext:
     def __init__(self, n_features, binned_features, n_bins,
                  all_gradients, all_hessians, l2_regularization,
-                 min_hessian_to_split=1e-3, min_samples_leaf=None):
+                 min_hessian_to_split=1e-3, min_samples_leaf=None,
+                 min_gain_to_split=0.):
         self.n_features = n_features
         self.binned_features = binned_features
         self.n_bins = n_bins
@@ -76,6 +78,7 @@ def __init__(self, n_features, binned_features, n_bins,
         self.l2_regularization = l2_regularization
         self.min_hessian_to_split = min_hessian_to_split
         self.min_samples_leaf = min_samples_leaf
+        self.min_gain_to_split = min_gain_to_split
         if self.constant_hessian:
             self.constant_hessian_value = self.all_hessians[0]  # 1 scalar
         else:
@@ -261,7 +264,7 @@ def find_node_split(context, sample_indices):
 
     # Pre-allocate the results datastructure to be able to use prange:
     # numba jitclass do not seem to properly support default values for kwargs.
-    split_infos = [SplitInfo(0, 0, 0, 0., 0., 0., 0., 0, 0)
+    split_infos = [SplitInfo(-1., 0, 0, 0., 0., 0., 0., 0, 0)
                    for i in range(context.n_features)]
     for feature_idx in prange(context.n_features):
         split_info = _find_histogram_split(context, feature_idx,
@@ -302,7 +305,7 @@ def find_node_split_subtraction(context, sample_indices, parent_histograms,
                                 sibling_histograms[0]['sum_hessians'].sum())
 
     # Pre-allocate the results datastructure to be able to use prange
-    split_infos = [SplitInfo(0, 0, 0, 0., 0., 0., 0., 0, 0)
+    split_infos = [SplitInfo(-1., 0, 0, 0., 0., 0., 0., 0, 0)
                    for i in range(context.n_features)]
     for feature_idx in prange(context.n_features):
         split_info = _find_histogram_split_subtraction(
@@ -400,7 +403,7 @@ def _find_best_bin_to_split_helper(context, feature_idx, histogram, n_samples):
                 continue
             if n_samples_right < context.min_samples_leaf:
                 # won't get any better
-                continue
+                break
 
         if context.constant_hessian:
             hessian_left += (histogram[bin_idx]['count']
@@ -412,7 +415,7 @@ def _find_best_bin_to_split_helper(context, feature_idx, histogram, n_samples):
         hessian_right = context.sum_hessians - hessian_left
         if hessian_right < context.min_hessian_to_split:
             # won't get any better
-            continue
+            break
 
         gradient_left += histogram[bin_idx]['sum_gradients']
         gradient_right = context.sum_gradients - gradient_left
@@ -421,7 +424,7 @@ def _find_best_bin_to_split_helper(context, feature_idx, histogram, n_samples):
                            context.sum_gradients, context.sum_hessians,
                            context.l2_regularization)
 
-        if gain > best_split.gain:
+        if gain > best_split.gain and gain > context.min_gain_to_split:
             best_split.gain = gain
             best_split.feature_idx = feature_idx
             best_split.bin_idx = bin_idx

diff --git a/tests/test_compare_lightgbm.py b/tests/test_compare_lightgbm.py
@@ -59,9 +59,9 @@ def test_same_predictions_easy_target(seed, n_samples, max_leaf_nodes):
 
     pred_lgbm = est_lightgbm.predict(X_train)
     pred_pygbm = est_pygbm.predict(X_train)
-    np.testing.assert_array_almost_equal(pred_lgbm, pred_pygbm, decimal=5)
+    np.testing.assert_array_almost_equal(pred_lgbm, pred_pygbm, decimal=3)
 
     if max_leaf_nodes < 10 and n_samples > 1000:
         pred_lgbm = est_lightgbm.predict(X_test)
         pred_pygbm = est_pygbm.predict(X_test)
-        np.testing.assert_array_almost_equal(pred_lgbm, pred_pygbm, decimal=5)
+        np.testing.assert_array_almost_equal(pred_lgbm, pred_pygbm, decimal=3)
diff --git a/tests/test_predictor.py b/tests/test_predictor.py
@@ -20,9 +20,24 @@ def test_boston_dataset():
     gradients = y_train.astype(np.float32)
     hessians = np.ones(1, dtype=np.float32)
 
+    min_samples_leaf = 5
+    max_leaf_nodes = 31
     grower = TreeGrower(X_train_binned, gradients, hessians,
-                        min_samples_leaf=7, max_leaf_nodes=31)
+                        min_samples_leaf=min_samples_leaf, max_leaf_nodes=max_leaf_nodes)
     grower.grow()
+
+    import pytest
+    lb = pytest.importorskip("lightgbm")
+    est_lightgbm = lb.LGBMRegressor(n_estimators=1,
+                                    min_data_in_bin=1,
+                                    learning_rate=1,
+                                    min_data_in_leaf=min_samples_leaf,
+                                    num_leaves=max_leaf_nodes)
+    est_lightgbm.fit(X_train_binned, y_train)
+
+    from pygbm.plotting import plot_tree
+    plot_tree(grower, est_lightgbm)
+
     predictor = grower.make_predictor(bin_thresholds=mapper.bin_thresholds_)
 
     assert r2_score(y_train, predictor.predict_binned(X_train_binned)) > 0.65

diff --git a/tests/test_splitting.py b/tests/test_splitting.py
@@ -16,6 +16,7 @@ def test_histogram_split(n_bins):
     l2_regularization = 0
     min_hessian_to_split = 1e-3
     min_samples_leaf = None
+    min_gain_to_split = 0.
     binned_features = np.asfortranarray(
         rng.randint(0, n_bins, size=(int(1e4), 2)), dtype=np.uint8)
     binned_feature = binned_features.T[feature_idx]
@@ -34,7 +35,8 @@ def test_histogram_split(n_bins):
                                        binned_features, n_bins,
                                        all_gradients, all_hessians,
                                        l2_regularization,
-                                       min_hessian_to_split, min_samples_leaf)
+                                       min_hessian_to_split,
+                                       min_samples_leaf, min_gain_to_split)
 
             split_info = _find_histogram_split(context, feature_idx,
                                                sample_indices)
@@ -62,6 +64,7 @@ def test_split_vs_split_subtraction(constant_hessian):
     l2_regularization = 0.
     min_hessian_to_split = 1e-3
     min_samples_leaf = None
+    min_gain_to_split = 0.
 
     binned_features = rng.randint(0, n_bins, size=(n_samples, n_features),
                                   dtype=np.uint8)
@@ -76,7 +79,7 @@ def test_split_vs_split_subtraction(constant_hessian):
     context = SplittingContext(n_features, binned_features, n_bins,
                                all_gradients, all_hessians,
                                l2_regularization, min_hessian_to_split,
-                               min_samples_leaf)
+                               min_samples_leaf, min_gain_to_split)
 
     mask = rng.randint(0, 2, n_samples).astype(np.bool)
     sample_indices_left = sample_indices[mask]
@@ -137,7 +140,8 @@ def test_gradient_and_hessian_sanity(constant_hessian):
     n_samples = 500
     l2_regularization = 0.
     min_hessian_to_split = 1e-3
-    min_samples_leaf = None
+    min_samples_leaf = 1e-3
+    min_gain_to_split = 0.
 
     binned_features = rng.randint(0, n_bins, size=(n_samples, n_features),
                                   dtype=np.uint8)
@@ -152,7 +156,7 @@ def test_gradient_and_hessian_sanity(constant_hessian):
     context = SplittingContext(n_features, binned_features, n_bins,
                                all_gradients, all_hessians,
                                l2_regularization, min_hessian_to_split,
-                               min_samples_leaf)
+                               min_samples_leaf, min_gain_to_split)
 
     mask = rng.randint(0, 2, n_samples).astype(np.bool)
     sample_indices_left = sample_indices[mask]
@@ -225,6 +229,7 @@ def test_split_indices():
     l2_regularization = 0.
     min_hessian_to_split = 1e-3
     min_samples_leaf = None
+    min_gain_to_split = 0.
 
     # split will happen on feature 1 and on bin 3
     binned_features = [[0, 0],
@@ -245,7 +250,7 @@ def test_split_indices():
     context = SplittingContext(n_features, binned_features, n_bins,
                                all_gradients, all_hessians,
                                l2_regularization, min_hessian_to_split,
-                               min_samples_leaf)
+                               min_samples_leaf, min_gain_to_split)
 
     assert_array_almost_equal(sample_indices, context.partition)
     si_root, _ = find_node_split(context, sample_indices)