Research/Linear Algebra
-
[선형대수] 주성분분석Research/Linear Algebra 2020. 8. 5. 21:22
공분산 행렬 PCA에 대해 공부하기 이전에 배경지식으로 공분산 행렬에 대해서 알아야한다. 공분산의 정의는 두 확률변수의 상관 정도를 나타내는 값으로 두 확률변수 X Y에 대해 아래와 같이 정의된다. $E(X) $ 는 X에 대한 기대값을 의미한다. 데이터의 입장에서 보면 두 특징 (차원, 축)이 얼마나 상관이 있는지에 대한 수치로 볼 수 있다. 예시로 어떤 학교의 전교생 성적 자료를 N명의 학생 (데이터 개수)와 M개의 과목 (특징의 개수)로 정의하였을 때, 수학을 잘하는 학생이 과학을 잘하는 경우가 많으니 두 특징 (과목)의 공분산은 높은 수치를 기록할 것이다. 다른 과목을 살펴보니, 수학을 잘하는 학생들이 국어도 대체로 잘하지만 과학만큼은 아니기에 조금 낮은 수치 (양수의)를 기록할 것이다. 역사 과목..