larger learning rate + large weight decay performs better? #18

askerlee · 2019-10-28T04:25:24Z

Hi all,
My colleague and I tried a combination of (relatively) large Ranger learning rate (say, 0.001) + large weight decay (say, 0.1). Seems the large decay leads to better performance? We tried two different models, and observed 0.5-1.5% increase of ImageNet classification accuracy, but both models were customized models, and not standard ones like Resnet.
Not sure whether anyone else finds similar results.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

larger learning rate + large weight decay performs better? #18

larger learning rate + large weight decay performs better? #18

askerlee commented Oct 28, 2019 •

edited

Loading

larger learning rate + large weight decay performs better? #18

larger learning rate + large weight decay performs better? #18

Comments

askerlee commented Oct 28, 2019 • edited Loading

askerlee commented Oct 28, 2019 •

edited

Loading