Bias-Variance tradeoff

2021. 8. 2. 18:46

model is too simple (underfitting) / complex (overfitting) → poor performance

왜 이런 일이 발생?

Under-fitting : 모델이 데이터를 잘 설명하지 못함. High Bias
Over-fitting : 모델이 데이터를 너무 빠삭하게 설명함 (too flexible). Noise, outlier들까지.
그렇기 때문에, 다른 종류의 데이터에는 잘못된 결과를 낼 가능성 높음. High variance

Bias와 variance를 링크★에선 이렇게 설명하고 있다.

Bias : 데이터의 정보를 모두 학습하지 않아 잘못된 결과를 냄

Variance : 실제 중요한 데이터 값들과 관계없는 에러/노이즈까지 학습해서 잘못된 결과를 냄

(실력이 부족해 진정한 의미가 제대로 번역이 안된다.. 되도록이면 링크 읽어보기)

Bias is reduced and variance is increased in relation to model complexity.

모델 파라미터 수를 늘려서 복잡하게 만들수록 bias는 줄고 variance가 올라감

결론

모델 학습 = bias와 variance간의 줄다리기

데이터를 '적절히' 설명하는 모델 찾기

= "we have to generalize our model"

* 여러 정규화 (regularization)도 결국 generality를 확보하려는 시도

참고

[Pytorch] 간단한 linear regression 코드 (머신러닝 + Pytorch 복습용) (0)	2022.04.06
Train / Test / Validation dataset (0)	2022.04.06
어떤 loss를 쓰는지도 중요하다 (0)	2021.06.26
Dropout (0)	2021.06.21
[Pytorch] Optimizer 종류 간략 설명 (0)	2021.06.10

기억은 꾸준한 기록을 이길 수 없다