5. 비지도학습

학습 유형

지도학습

  • 훈련집합의 모든 훈련 샘플에 대한 정답Label 정보 사용하여 신경망을 학습하는 방법
  • 지금까지 정리했던 내용이 해당

비지도 학습

  • 모든 훈련 샘플이 label을 사용하지 않고 신경망을 학습하는 방법
  • 학습의 목표

    군집화 밀도 추정 공간 변형
    유사한 샘플을 모아 같은 그룹으로 묶는 작업 데이터로부터 확률 분포를 추정, 데이터 생성모델 추정 원래 특징공간의 차원을 저차원, 고차원으로 변환
    맞춤광고 추천, 영상 분할 등 분류, 생성모델 구축 데이터 가시화, 압축, 특징추출

    비지도 학습의 목표

준 지도학습

  • 훈련 집합에서 일부 샘플만 label을 갖고 학습

기계학습이 학습에 사용하는 지식

  • 훈련 집합
    • 학습에 사용되는 Data Set, 즉 관측값
  • 매니폴드manifold 가정
    • 데이터집합이 있을때 이를 대표할 수 있는 샘플의 서브셋이 있다
  • 매끄러운smoothness 과정
    • 샘플들은 특정 요인에 따라 변화는데 이때 한번에 변하지 않고 조금씩 매끄럽게 변한다.
  • 비지도 학습은 이런 사전지식을 더 명시적으로 사용한다

군집화clustering

  • 주어진 집합을 군집집합들로 나누는 작업
  • 군집의 개수는 입력으로 주어지거나 자동으로 찾아야한다

K-mins/k-평균 알고리즘

  • 순서
    • 군집 중심으로 훈련집합에서 k개로 뽑아 군집중심 집합을 뽑는다
    • 각자 모든 요소가 가장 가까운 군집 중심 집합의 요소에 소속된다
    • 각 군집 요소들의 평균으로 각 군집중심을 변경하여 다시 2번을 진행한다
  • k-medoids
    • k-mins와 다르게 각 군집 중심을 변경할 때 각 군집 중짐에 가까운 요소를 새로운 군집중심으로 선택
  • 다중시작 k-mins
    • 처음에 군집중심집합을 뽑을때 랜덤으로 여러번 뽑아서 각각 연산이 끝났을 때 가장 품질이 좋게 나온 클러스터링 결과를 취한다
    • 즉 가장 작은 목적함수를 갖는 결과를 가진다
  • 군집화 문제를 최적화 문제로 해석
    • 목적함수로써 각각의 요소가 해당하는 군집의 중심까지 거리들의 합을 사용.

PCA 기반의 얼굴 인식

  • 이미지 벡터 $x$를 주성분 벡터 $e_i$의 합으로 표현

    $ x = \displaystyle\sum_{k=1,M}{a_{i}e_{i}}$