[선형대수학] PCA, Eigenvalue/vector, Dimension reduction
2021. 10. 18. 18:17
curse of the dimensionality - data with high dimension is hard to handle
차원이 높다고 무조건 좋은 것도 아니며, 오히려 불필요한 '쓰레기 데이터'가 있을 가능성 높음
ex. 사람을 묘사하는 데이터 - 키, 몸무게, 성별, 좋아하는 음식, 손가락 길이, 목 둘레, 평균 수면량, 가족 수, ...
만약 정말 '개인'에 대한 데이터만 필요하다면, 키/몸무게 정도만 있어도 충분하겠지
So, 의미 있는 차원만 남기고 제거
'의미 있음'을 어떻게 판단?
👉🏻 dimension with low variance (PCA)
* data labelling 없이, 알아서 불필요한 차원 줄여준다는 점에서 unsupervised learning
* 어디선가 들어본 manifold learning, autoencoder 들도 모두 dimensionality reduction에 해당 - cheatsheet
참고 자료
⭐️ PCA 설명 굿
위키 정의 읽어봐도 좋음
'<기타 공부> > [수학]' 카테고리의 다른 글
[선형대수학] 기본 개념 핵심만 정리 (0) | 2022.03.21 |
---|---|
Modulo distributive property (분배 법칙) (0) | 2022.03.09 |
[선형대수학] 벡터 연산의 시각화 (0) | 2021.10.16 |
[3B1B] 푸리에 변환의 시각적 설명 (식을 시각적으로 이해) (0) | 2021.09.20 |
[통계] 가능도 (Likelihood)와 MLE (0) | 2021.08.10 |