Train, Test는 알겠는데, validation set은 어디에 쓰는거였지?

 

- Train : model parameter (weights, bias) 학습

- Test : unseen data; 모델이 이전에 전혀 보지 못한 데이터들; 모델 성능 평가

- Validation : Training 중간 평가; error 곡선 그려서, training error와 너무 벌어지지 않도록 (overfitting 방지, 혹은 hyperparameter tuning을 결정하는 기준)

 

노란색 시점을 넘어가면, 모델이 training data는 잘 설명하는데, 다른 데이터는 잘 설명하지 못하는 overfitting 발생.

validation error와 training error 차이가 최소화 되는 지점을 찾아서 training 멈추는게 최선.

 

 

참고

 

⭐️ validation set 이해 잘 되는 설명

https://ganghee-lee.tistory.com/38

 

Train / Test / Validation set의 차이

딥러닝에서 신경망 모델을 학습하고 평가하기 위해 dataset이 필요하다. 이때 dataset을 성질에 맞게 보통 다음 3가지로 분류한다. 1. Train set 2. Validation set 3. Test set 이렇게 각각 모델을 학습하고 검

ganghee-lee.tistory.com

 

k-fold cross validation

전체 데이터셋을 k segment로 나눈 뒤, 각 segment를 돌아가면서 validation set으로 정해서 train하는 방법

코드랑 같이 설명 (흝어보기 just skim through the article)

sklearn kfold 함수 사용

https://github.com/christianversloot/machine-learning-articles/blob/main/how-to-use-k-fold-cross-validation-with-pytorch.md

+ Recent posts