[선형대수학] PCA, Eigenvalue/vector, Dimension reduction
curse of the dimensionality - data with high dimension is hard to handle
차원이 높다고 무조건 좋은 것도 아니며, 오히려 불필요한 '쓰레기 데이터'가 있을 가능성 높음
ex. 사람을 묘사하는 데이터 - 키, 몸무게, 성별, 좋아하는 음식, 손가락 길이, 목 둘레, 평균 수면량, 가족 수, ...
만약 정말 '개인'에 대한 데이터만 필요하다면, 키/몸무게 정도만 있어도 충분하겠지
So, 의미 있는 차원만 남기고 제거
'의미 있음'을 어떻게 판단?
👉🏻 dimension with low variance (PCA)
* data labelling 없이, 알아서 불필요한 차원 줄여준다는 점에서 unsupervised learning
* 어디선가 들어본 manifold learning, autoencoder 들도 모두 dimensionality reduction에 해당 - cheatsheet
참고 자료
⭐️ PCA 설명 굿
Principal Component Analysis 4 Dummies: Eigenvectors, Eigenvalues and Dimension Reduction
Having been in the social sciences for a couple of weeks it seems like a large amount of quantitative analysis relies on Principal Component Analysis (PCA). This is usually referred to in tandem wi…
georgemdallas.wordpress.com
위키 정의 읽어봐도 좋음