Binomial Unit이란

1. p가 작을때 총 입력에 대해 활성 확률이 기하급수적으로 증가한다?

p가 작다는 의미는 들어온 입력 점수 $x$가 큰 음수라서 유닛이 켜질 확률이 거의 0에 가까운 상태 (시그모이드 함수의 +1을 무시할 정도로 $e^{-x}$가 커짐)

위와 같이 p가 지수함수의 형태로 변해버리기 때문에 입력값 $x$가 조금만 변해도 결과값이 기하급수적으로 바뀜

2. 이것이 학습의 불안정성을 초래하는 이유

딥러닝에서 학습은 정답과 예측값의 오차를 구한 뒤 미분을 이용해 가중치를 조금씩 수정해나가는 과정

→ 확률값이 크게 바뀐다면?

이렇게 시스템이 과민 반응하게 됨