티스토리 뷰

머신러닝에 나오는 간단한 용어와 개념을 정리해 보았습니다. 

 

데이터 마이닝 - 대용량의 데이터를 분석하면 겉으로는 보이지 않던 패턴을 발견 할 수 있다.

학습 종류 : 지도 학습, 비지도 학습, 준지도 학습, 온라인 학습, 배치 학습, 사례기반 학습, 모델 기반 학습... 

  • 지도 학습 - 알고리즘에 주입하는 훈련데이터에 레이블이라는 답 포함 ex) 분류

  • 비지도 학습 - 훈련 데이터에 레이블 포함 X    ex) 군집, 시각화, 차원축소

  • 준지도 학습 - 레이블 유무 데이터 혼합

  • 강화 학습 - 보상(reward) & 벌점(penalty)이 있으며, 정책(policy)이라 부르는 최상의 전략을 스스로 학습

  • 사례기반 학습 - 사례를 기억하고, 유사도를 추정 (유사도 측정을 사용해 새로운 데이터 일반화)

 

  • 효용함수 - 모델이 얼마나 좋은지 측정

  • 비용함수 - 모델이 얼마나 나쁜지 측정

 

머신러닝 프로젝트 형태

데이터 분석 -> 모델 선택 -> 훈련 데이터로 모델 훈련(비용 함수를 최소화 하는 모델 파라미터 찾기)
-> 추론(새로운 데이터에 모델을 적용해 예측) -> 일반화

 

머신러닝에서 문제가 될 수 있는 두가지 요인 

  1. 나쁜 알고리즘

  2. 나쁜 데이터

대표성이 없는 훈련 데이터 

  1. 샘플링 잡음 - 샘플이 작으면 우연에 의한 대표성이 없는 데이터가 발생

  2. 샘플링 편향 - 표본 추출 방법이 잘못되면 대표성을 띄지 못함

머신러닝이 잘 작동하기 위해선??

  1. 훈련 데이터 정제에 시간을 투자하라

  2. 관련 있는 특성이 충분한 데이터 필요

더보기

특성 선택: 갖고 있는 특성중 훈련에 가장 유용한 특성 선택

특성 추출: 특성 결합 -> 더 유용한 특성 ex) 차원축소 알고리즘 사용 

 

하이퍼파라미터 - 학습 알고리즘의 파라미터, 학습하는 동안 적용 할 규제의 양 결정, 훈련 전 미리 지정

과대적합(Overfitting) - 과도하게 일반화 하는 것, 모델이 훈련 데이터에 너무 잘 맞지만    일반성이 떨어지는 경우 잡음의 양에 비해 모델이 너무 복잡할 때 발생 

해결 방법

  1. 파라미터 수가 적은 모델 선택 혹은 훈련데이터의 특성 수 줄이기 

  2. 모델 단순화

  3. 훈련 데이터 보충

  4. 훈련 데이터 잡음 줄이기

과소적합(Underfitting) - 모델이 너무 단순해서 데이터에 내재된 구조를 학습하지 못하는 것 

해결방법

  1. 모델 파라미터가 더 많은 모델 선택

  2. 학습 알고리즘에 더 좋은 특성 제공

  3. 모델 제약 줄이기 

데이터

  • 훈련 세트 (Traning Set) - 모델 훈련에 사용 하는 데이터

  • 테스트 세트 (Test Set) - 모델 평가에 사용하는 데이터

댓글
링크
최근에 올라온 글
최근에 달린 댓글