curse of the dimensionality - data with high dimension is hard to handle

차원이 높다고 무조건 좋은 것도 아니며, 오히려 불필요한 '쓰레기 데이터'가 있을 가능성 높음

 

ex. 사람을 묘사하는 데이터 - 키, 몸무게, 성별, 좋아하는 음식, 손가락 길이, 목 둘레, 평균 수면량, 가족 수, ...

만약 정말 '개인'에 대한 데이터만 필요하다면, 키/몸무게 정도만 있어도 충분하겠지

 

So, 의미 있는 차원만 남기고 제거

'의미 있음'을 어떻게 판단?

👉🏻 dimension with low variance (PCA)

 

 

* data labelling 없이, 알아서 불필요한 차원 줄여준다는 점에서 unsupervised learning

* 어디선가 들어본 manifold learning, autoencoder 들도 모두 dimensionality reduction에 해당 - cheatsheet

 

참고 자료

⭐️ PCA 설명 굿

https://georgemdallas.wordpress.com/2013/10/30/principal-component-analysis-4-dummies-eigenvectors-eigenvalues-and-dimension-reduction/

 

Principal Component Analysis 4 Dummies: Eigenvectors, Eigenvalues and Dimension Reduction

Having been in the social sciences for a couple of weeks it seems like a large amount of quantitative analysis relies on Principal Component Analysis (PCA). This is usually referred to in tandem wi…

georgemdallas.wordpress.com

Principal Component Analysis 4 Dummies_ Eigenvectors, Eigenvalues and Dimension Reduction – George Dallas.mhtml
1.11MB

 

위키 정의 읽어봐도 좋음

https://en.wikipedia.org/wiki/Dimensionality_reduction

+ Recent posts