2.1 선형대수

2.1.1 벡터와 행렬

벡터

  • 벡터란?
    • 숫자를 원소로 가지는 1차원 구조의 list 혹은 array
    • n*1 크기의 행렬과 같다
  • 샘플을 특징 벡터feature vector로 표현

  • Iris 데이터에서 꽃받침의 길이, 꽃받침의 너비, 꽃잎의 길이, 꽃잎의 너비라는 4개의 특징을 담은 특징벡터

    $ x = \begin{pmatrix}x_1 \\ x_2 \\ x_3 \\ x_4 \end{pmatrix} = \begin{pmatrix}5.1 \\ 3.5 \\ 1.4 \\ 0.2 \end{pmatrix} $

행렬

  • 행렬이란?
    • 2차원 구조로 숫자를 배열한 것
    • rowcolumn이 존재한다
  • 행렬을 통해 수식을 간결하게 표현 가능

    $ \begin{aligned} f(x)&= f(x_1,x_2,x_3) \\
    &= 2x_1x_1-4x_1x_2+3x_1x_3+x_2x_1+2x_2x_2+6x_2x_3-2x_3x_1+3x_3x_2+2x_3x_3+2x_1+3x_2-4x_3+5\\
    &= \begin{pmatrix}x_1&x_2&x_3 \end{pmatrix}\begin{pmatrix}2&-4&3 \\ 1&2&6 \\ -2&3&2 \end{pmatrix}\begin{pmatrix}x_1 \\ x_2 \\ x_3 \\ \end{pmatrix} + \begin{pmatrix}2&3&-4 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \\ \end{pmatrix} + 5 \\
    f(x)&= x^TAx + b^Tx+5\quad(b는 열행렬) \end{aligned} $

텐서

  • 텐서tensor란?
    • 3차원 이상의 구조를 가진 숫자 배열
    • 3차원 구조를 가진 RGB컬러 이미지 텐서 예시

벡터와 행렬의 연산

벡터의 내적

  • 벡터 $a,b$의 내적

    $ a \cdot b
    = a^Tb
    = \displaystyle\sum_{k=1,d}{a_{i}b_{i}} $

행렬의 곱셈

  • 행렬 $A$와 $B$의 곱 $C$

    $ C=AB
    c_{ij} = \displaystyle\sum_{k=1,s}{a_{ik}b_{kj}} $

  • 교환법칙이 성립하지 않는다

    $AB \neq BA$

  • 분배법칙과 교환법칙이 성립한다

    $ A(B+C) = AB+AC
    A(BC)=(AB)C $

2.1.2 놈과 유사도

벡터화 행렬의 크기

  • norm이란? 벡터, 행렬등을 실수와 대응하여 크기를 측정하여 나타낸것
  • $p$-Norm
    • 놈의 일종으로 딥러닝에서 과적합 문제를 해결하는 방법인 Regularizaiton 에서 Loss 함수를 다룰 때 주로 $p=2$ 사용
    • $p$-Norm 식

      $ \left| x \right| p = (\displaystyle \sum{k=1,d}{|a_{i}|^p})^ \frac1p $

    • $p$에 따른 $p$-Norm 종류
      • $p=1$ $\rightarrow$ Manhattan/L1 Norm
        • 실제 이동거리, 요소값의 변화등을 나타내기 위해 사용
      • $p=2$ $\rightarrow$ Euclidean/Frobenius Norm
        • 원점이나 벡터 사이의 차이를 나타내기 위해 사용
      • $p=\infin$ $\rightarrow$ Maximum Norm
        • 벡터나 행렬의 요소중 최대값을 나타내기 위해 사용

2.1.3 퍼셉트론의 해석

퍼셉트론

  • 매배변수들의 입력에 따라 1 혹은 -1의 값을 가지는 분류기 퍼셉트론의 공간 분할

  • 퍼셉트론은 결적직선으로 두개의 부분공간을 분할

    • 매개변수가 2개일땐 결정직선, 3개일땐 결정평면

    퍼셉트론의 공간 분할

퍼셉트론의 수학적 표현

$ o=\tau(w \cdot x) \\
\tau(a) = \begin{cases}1&a\ge T\\\ -1&a<T\end{cases}
$

  • 즉 $a$는 해당 퍼셉트론의 $w$가중치 벡터와 입력으로 들어오는 $x$매개변수내적이다.

출력이 여러개인 퍼셉트론

여긴 그냥 표현방법 설명인듯

퍼셉트론의 학습과 분류

  • 분류
    • $o=\tau(w \cdot x)$
    • $w,x$를 안다
    • 입력 매개변수와 가중치에 따른 결과 o를 구하는 과정
  • 학습
    • $o=\tau(w \cdot x)$
    • $o,x$를 안다
    • 훈련샘플의 매개변수와 정답을 알때 알맞는 가중치 벡터 $w$를 찾아내는 과정

딥러닝은 퍼셉트론을 여러층으로 확장하여 구현

2.1.4 선형결합과 벡터 공간

벡터 공간과 선형결합

  • 선형결합

    벡터 $a,b$에 대해 실수 $\alpha_1,\alpha_2$에 대해 아래 식과 같이 벡터의 스칼라 곱과 덧셉 연산으로 이루어진 식을 선형결합이라고 한다

    $c=\alpha_1a+\alpha_2b$

    벡터의 스칼라 곱과 덧셉

    선형결합으로 생성되는 공간을 벡터공간, $ \alpha_1,\alpha_2$를 기저벡터라고 한다 벡터의 스칼라 곱과 덧셉

2.1.5 역행렬과 행렬식

역행렬

  • 원래 행렬과 곱했을 때, 단위행렬이 되는 행렬을 역행렬이라 한다.
  • $AA^{-1}=A^{-1}A=I$

행렬식Determinant

  • 행렬을 가지고 일정한 계산을 하는 계산식

    $ A의 행렬식 = det(A) \\
    det\begin{pmatrix}a&b \\ c&d \end{pmatrix} = ad-bc \\\ det \begin{pmatrix} a&b&c \\ d&e&f \\ g&h&i \end{pmatrix} = aei+bfg+cdh-ceg-bdi-afh $

  • 행렬식의 의미
    • 역행렬의 존재 유무
      • 행렬식이 0이면 역행렬이 존재하지 않는다
    • 행벡터들이 이루는 도형의 크기
      • 2*2 행렬에서는 두 행 벡터가 이루는 평행사변형의 넓이
      • 3*3 행렬에서는 세 행 벡터가 이루는 평행사변기둥의 넓이

정부호 행렬

  • 0이 아닌 모든 실수 벡터 $x$에 대해 $x^TAx>0$일때 행렬 A는 양의 정부호 행렬이다.
  • 의미

    • 다변수함수 $ax^2+2bxy+cy^2$를 입력 벡터 $x = \begin{pmatrix}x \\ y \end{pmatrix}$와 행렬 $A= \begin{pmatrix}a&b \\ c&d \end{pmatrix}$ 를 통해 아래 식과 같이 행렬로 나타낼 수 있다.
    • $x^TAx = \begin{pmatrix}x&y\end{pmatrix} \begin{pmatrix}a&b \\ c&d\end{pmatrix} \begin{pmatrix}x \\ y\end{pmatrix} = ax^2+2bxy+cy^2$
    • 이때 행렬 A에 따라 함수가 나타내는 그래프의 형태에 따라 양의 정부호positive definite, 음의 정부호negative definite, 안장saddle행렬로 구분한다.
      • 양의 정부호 행렬
        • 그래프의 형태가 아래 사진과 같이 함수값이 0보다 크고 극소점을 가지는 그릇 형태

          PositiveDefinite

        • 이때 A를 양의 정부호 행렬이라고 부른다

      • 음의 정부호 행렬
        • 그래프의 형태가 함수값이 0보다 작고 극대점을 가지는 뒤집어진 그릇 형태

          NegativeDefinite

        • 이때 A를 음의 정부호 행렬이라고 부른다

      • 안장 행렬
        • 극소, 극대점을 가지지 않고 아래 사진처럼 안장모양을 가지는 경우 NegativeDefinite

2.1.6 행렬 분해

고유값과 고유벡터

  • 특정 행렬 $A$에 대해 $A=A$

행렬의 분해란?

  • 여러 특정 구조를 가진 행렬들의 곱으로 기존의 행렬을 나타내는 것
  • 행렬의 차원을 축소할 수 있다
  • 아직정리안함

PCAPrincipal Component Analysis/주성분 분석

차원 축소

 

mpg

cyl

disp

hp

drat

wt

qsec

vs

am

gear

carb

Mazda RX4

21.0

6

160

110

3.90

2.620

16.46

0

1

4

4

Mazda RX4 Wag

21.0

6

160

110

3.90

2.875

17.02

0

1

4

4

Datsun 710

22.8

4

108

93

3.85

2.320

18.61

1

1

4

1

Hornet 4 Drive

21.4

6

258

110

3.08

3.215

19.44

1

0

3

1

Hornet Sportabout

18.7

8

360

175

3.15

3.440

17.02

0

0

3

2

Valiant

18.1

6

225

105

2.76

3.460

20.22

1

0

3

1

...

 

 

 

 

 

 

 

 

 

 

 

  • 위 식은 1974년 Motor Trend magazine에 실린 1973년~74년도에 출시된 자동차의 특성을 기술하고 정량화하는 11가지 변수에 관한 데이터의 일부이다. 한 행은 11개의 변수로 이루어지는 11차원의 벡터로 이루어져 계산과 시각화가 힘들어 원 데이터의 분포를 최대한 보존하면서 벡터의 차원을 줄여야 한다.

주성분 분석

  • 기존 특징벡터의 변수를 조합하여 서로 연관성이 없는 새로운 변수인 주성분(principal component, PC)들의 조합으로 기존의 데이터를 나타내는 방법
  • 첫 번째 주성분 PC1이 원 데이터의 분포를 가장 많이 보존하고, 두 번째 주성분 PC2가 그 다음으로 원 데이터의 분포를 많이 보존, 이때 주성분들 사이의 관계가 없도록 서로 직교관계를 이룬다
  • 특정 축에 특징벡터를 정사형 시켰을 때 아래 사진과 같이 분포가 가장 크게 나타나는 축 정규화 하여 주성분 벡터로 삼는다.

    주성분 분석

  • 주성분들의 특징

    $ e_i = 주성분/기준벡터
    e_i^Te_j = 0\ (i\ne j)
    e_i^Te_j = 0\ (i= j) $