Train / Test / Validation dataset
2022. 4. 6. 14:31
Train, Test는 알겠는데, validation set은 어디에 쓰는거였지?
- Train : model parameter (weights, bias) 학습
- Test : unseen data; 모델이 이전에 전혀 보지 못한 데이터들; 모델 성능 평가
- Validation : Training 중간 평가; error 곡선 그려서, training error와 너무 벌어지지 않도록 (overfitting 방지, 혹은 hyperparameter tuning을 결정하는 기준)
노란색 시점을 넘어가면, 모델이 training data는 잘 설명하는데, 다른 데이터는 잘 설명하지 못하는 overfitting 발생.
validation error와 training error 차이가 최소화 되는 지점을 찾아서 training 멈추는게 최선.
참고
⭐️ validation set 이해 잘 되는 설명
https://ganghee-lee.tistory.com/38
k-fold cross validation
전체 데이터셋을 k segment로 나눈 뒤, 각 segment를 돌아가면서 validation set으로 정해서 train하는 방법
코드랑 같이 설명 (흝어보기 just skim through the article)
sklearn kfold 함수 사용
'<기타 공부> > [기계 학습]' 카테고리의 다른 글
Gradient descent, Stochastic GD, Mini-batch GD (0) | 2022.04.06 |
---|---|
[Pytorch] 간단한 linear regression 코드 (머신러닝 + Pytorch 복습용) (0) | 2022.04.06 |
Bias-Variance tradeoff (0) | 2021.08.02 |
어떤 loss를 쓰는지도 중요하다 (0) | 2021.06.26 |
Dropout (0) | 2021.06.21 |