RPCA와 PCA의 차이점을 어떻게 설명합니까?


대답 1:

편집 : Doh, 방금 주요 구성 요소 회귀 (일명 회귀 -PCA)가 아닌 견고한 PCA에 대해 묻는다는 것을 깨달았습니다. 가치있는 것에 대해서는 후자에 대한 답변이 있습니다.

때때로 회귀 동안 입력 변수 그룹 (공변량)이 동일 선상에있을 것입니다 (다중 공선성에 대한 다른 질문 참조). 이것은 서로를 매우 예측하는 입력이 출력의 관점에서 일종의 중복성을 의미한다는 것을 의미합니다.

yy

xx

, 당신은 또 다른 사본을 필요로하지 않습니다

xx

.

불행하게도, OLS 회귀는이를보고 공선 입력에 유사한 책임을 할당하여 보상을 시도합니다. 위의 예에서, (최소 제곱으로) 거의 최적 인 비행기가 몇 개나 있는지 생각해보십시오.

무한 하지요? 녹색 점을 기준으로 회전에 관계없이 점을 통과하는 모든 평면 : 녹색 점을 통과하는 공중에 고정 된 축의 일종을 상상 한 다음 빨간색 평면이 회전합니다.

설상가상으로, 데이터를 조금 교란시킴으로써 본질적으로 평면의 기울기를 제어하는 ​​최종 회귀 가중치는 매우 다를 수 있습니다. 모델이 불안정 함을 나타냅니다.

그렇다면 상관 관계가있는 입력 변수를 병합하는 기본 방법은 무엇입니까? 자, 여기 Regression-PCA가 수행 할 작업이 있습니다

먼저 입력 (파란색 점)에 PCA를 수행합니다. 즉, XZ 평면에서 파란색 선을 찾아 파란색 점을 투영합니다 (총 투사 거리가 최소화 됨). 이 줄은 이제 새로운 축의 역할을합니다.

bb

,

원래 회귀 문제는 이제 참조 프레임에서 해결됩니다.

byb-y

, 단일 변수 선형 회귀.

따라서 PCA는 위에서 설명한 불안정성의 위험을 가지고 OLS에 맡기는 대신 유사한 변수의 그룹을 찾게합니다.

마지막으로 회귀를 원본으로 다시 프레임

xzyx-z-y

도출 된 변수 b에 주어진 회귀 계수 (여기서는 0.5 임)에 관계없이 공간은 PCA 파생 축의 가중치에 따라 동등하게 공유됩니다 (따라서 최종 RPCA 가중치는

(0.25,0.25)(0.25, 0.25)

).