티스토리 뷰

 

Training Data & Validation Data & Test Data

트레이닝 셋으로 학습시킨 후 트레이닝셋으로 테스트 하면 공정한가? -> 나쁜 방법

데이터의 70퍼센트정도는 트레이닝 셋, 30퍼센트정도는 테스트 셋으로 설정

테스트셋으로 예측값과 실제값 비교하여 성능 측정 

트레이닝 셋을 또 validation set으로 나눌 수 있음

validation set -> 모의 시험 느낌 (알파, 람다등을 조절 하기 위해)

 

데이터셋이 굉장히 많은 경우 ->online learning 학습 방법

만약 트레이닝셋이 100만개 있다고 가정, 한 번에 넣어서 학습시키기에 너무 양이 많다

->100만개의 데이터를 잘라 10만개씩 학습

우리는 선형회귀부터 시작해서 Softmax회귀까지 트레이닝 데이터셋을 테스트 데이터셋과 똑같이 사용했는데요. 이는 사실 잘못된 방식입니다. 현실에 빗대어 보면, 수능에서 9월 모의고사와 똑같은 문제와 정답으로 출제된것을 맞춰봐라 하는것과 같은 거죠. 따라서 데이터 셋이 100이 있다고 치면 7:3 정도의 비율로 트레이닝 데이터 셋과 테스트 데이터셋으로 나눠주는것이 좋습니다. 그럼 각각의 데이터 셋을 구분해서 한번 소프트맥스 회귀를 테스트 해보져! 

여태 데이터를 x_data, y_data만 설정했었지만, 이번엔 이 모델이 제대로 학습되었나 확인하기 위한 데이터를 따로 빼놓은 것을 볼 수 있습니다. 테스트 셋으로 결과를 확인해보면

 

[2 2 2]로 잘 예측 한 것을 확인 해볼 수 있습니다.

댓글
링크
최근에 올라온 글
최근에 달린 댓글