https://arxiv.org/abs/2010.09931
Smooth activations and reproducibility in deep networks (Gil I. Shamir, Dong Lin, Lorenzo Coviello)
같은 모델을 같은 데이터셋에 학습시켜도 랜덤 요소 때문에 각 샘플들에 대한 예측이 달라지는 문제에 대한 접근. relu가 smooth하지 않기 때문인 것이 아닌가 하는 아이디어. smooth한 activation들로 테스트.
#activation #stability