티스토리 뷰
머신러닝에 나오는 간단한 용어와 개념을 정리해 보았습니다.
데이터 마이닝 - 대용량의 데이터를 분석하면 겉으로는 보이지 않던 패턴을 발견 할 수 있다.
학습 종류 : 지도 학습, 비지도 학습, 준지도 학습, 온라인 학습, 배치 학습, 사례기반 학습, 모델 기반 학습...
-
지도 학습 - 알고리즘에 주입하는 훈련데이터에 레이블이라는 답 포함 ex) 분류
-
비지도 학습 - 훈련 데이터에 레이블 포함 X ex) 군집, 시각화, 차원축소
-
준지도 학습 - 레이블 유무 데이터 혼합
-
강화 학습 - 보상(reward) & 벌점(penalty)이 있으며, 정책(policy)이라 부르는 최상의 전략을 스스로 학습
-
사례기반 학습 - 사례를 기억하고, 유사도를 추정 (유사도 측정을 사용해 새로운 데이터 일반화)
-
효용함수 - 모델이 얼마나 좋은지 측정
-
비용함수 - 모델이 얼마나 나쁜지 측정
머신러닝 프로젝트 형태
데이터 분석 -> 모델 선택 -> 훈련 데이터로 모델 훈련(비용 함수를 최소화 하는 모델 파라미터 찾기)
-> 추론(새로운 데이터에 모델을 적용해 예측) -> 일반화
머신러닝에서 문제가 될 수 있는 두가지 요인
-
나쁜 알고리즘
-
나쁜 데이터
대표성이 없는 훈련 데이터
-
샘플링 잡음 - 샘플이 작으면 우연에 의한 대표성이 없는 데이터가 발생
-
샘플링 편향 - 표본 추출 방법이 잘못되면 대표성을 띄지 못함
머신러닝이 잘 작동하기 위해선??
-
훈련 데이터 정제에 시간을 투자하라
-
관련 있는 특성이 충분한 데이터 필요
특성 선택: 갖고 있는 특성중 훈련에 가장 유용한 특성 선택
특성 추출: 특성 결합 -> 더 유용한 특성 ex) 차원축소 알고리즘 사용
하이퍼파라미터 - 학습 알고리즘의 파라미터, 학습하는 동안 적용 할 규제의 양 결정, 훈련 전 미리 지정
과대적합(Overfitting) - 과도하게 일반화 하는 것, 모델이 훈련 데이터에 너무 잘 맞지만 일반성이 떨어지는 경우 잡음의 양에 비해 모델이 너무 복잡할 때 발생
해결 방법
-
파라미터 수가 적은 모델 선택 혹은 훈련데이터의 특성 수 줄이기
-
모델 단순화
-
훈련 데이터 보충
-
훈련 데이터 잡음 줄이기
과소적합(Underfitting) - 모델이 너무 단순해서 데이터에 내재된 구조를 학습하지 못하는 것
해결방법
-
모델 파라미터가 더 많은 모델 선택
-
학습 알고리즘에 더 좋은 특성 제공
-
모델 제약 줄이기
데이터
-
훈련 세트 (Traning Set) - 모델 훈련에 사용 하는 데이터
-
테스트 세트 (Test Set) - 모델 평가에 사용하는 데이터
'머신러닝' 카테고리의 다른 글
입문자 초보자를 위한 텐서플로 기초 API (0) | 2020.02.06 |
---|---|
머신러닝 입문자, 초보자를 위한 내용 정리 (+Tensorflow) (0) | 2020.02.05 |
TensorFlow 2.0 에서 TensorFlow 1.0 , 1.x 버전 코드 실행하기 (0) | 2020.02.05 |
데미스 하사비스 - 인공지능과 미래 강연 정리(2) (0) | 2020.02.04 |
데미스 하사비스 - 인공지능과 미래 강연 정리(1) (0) | 2020.02.03 |