Binomial Unit이란
- 똑같은 가중치와 편향을 가진 이진 유닛을 N개 복사해서 묶어둔 것
- N개의 유닛이 켜질 확률 p는 시그모이드 함수로 계산 됨
- $p = \frac{1}{1 + e^{-x}}$
1. p가 작을때 총 입력에 대해 활성 확률이 기하급수적으로 증가한다?
p가 작다는 의미는 들어온 입력 점수 $x$가 큰 음수라서 유닛이 켜질 확률이 거의 0에 가까운 상태 (시그모이드 함수의 +1을 무시할 정도로 $e^{-x}$가 커짐)
- $p \approx \frac{1}{e^{-x}} = e^x$
위와 같이 p가 지수함수의 형태로 변해버리기 때문에 입력값 $x$가 조금만 변해도 결과값이 기하급수적으로 바뀜
2. 이것이 학습의 불안정성을 초래하는 이유
딥러닝에서 학습은 정답과 예측값의 오차를 구한 뒤 미분을 이용해 가중치를 조금씩 수정해나가는 과정
→ 확률값이 크게 바뀐다면?
- 컴퓨터: 오차가 있네? 가중치를 0.001만큼만 살짝 고쳐봐야지.
- 이항 유닛: 입력값이 0.001 변했다고? 확률을 10배로 확 올려버려
이렇게 시스템이 과민 반응하게 됨