Spurious Correlation
두 변수가 상관관계가 있다고 이야기 했지만, 알고보니 두 변수가 전혀 관계 없는 경우 Spurious Correlation이라고 말한다.
예를 들어 해변에서의 아이스크림 판매와 상어의 공격은 양의 상관관계가 있다.
아이스크림 판매의 증가함에 따라 상어의 공격 횟수가 증가했다고 한다.
그러나 상식적으로 생각했을 때, 아이스크림 판매는 상어의 공격과 전혀 상관없다.
어떻게 이런 결과가 나올 수 있을까 ?
Confounding Variables
해당 예시에서는 세 번째 변수가 해당 두 변수 사이에서 다른 상관 관계를 생성할 때 발생한다.
A가 증가하면 B와 C가 함께 증가한다. 따라서 B->C로 보이는 경우다.
예시의 아이스크림 판매의 경우 높아진 기온에 의해 더 많은 사람들이 아이스크림을 사거나 해변에서 수영하게 되어 상어의 공격 기회가 증가하게 되었을 뿐이다. 따라서 아이스크림 판매와 상어의 공격 사이에는 아무런 관련이 없음에도 불고하고 그래프로 표시하게 되면 함께 오르락 내리락 하는 경향이 있다.
Mediating Variables
다른 경우는 일련의 상관관계가 가짜 상관관계를 만든다.
예를들어 A->B->C 일 경우인데, A와 C의 값만 있으면 상관관계를 만들수 있다. 실제로는 A와 C사이에는 직접적인 연결이 없음에도 가짜 상관관계 현상을 볼 수 있다.
Random Sampling Error
모집단에서 추출한 어떠한 표본을 사용하여 연구한다고 해보자.
해당 표본에서 찾은 상관관계가 모집단에 존재하지 않을 수 있다.
Solution
그럼 가짜 상관관계를 어떻게 파악할 수 있을까 ?
아쉽게도 가짜 상관관계의 경우 단번에 파악할 수 있는 것은 없어서 직접 통계적인 방법이나 실험적 방법, 다양한 그래프를 그려가며 이 상관관계가 진짜인지 가짜인지 연구하는 방법뿐이다.
참고로 다중공선성(multicollinearity)의 경우는 독립변수들간의 상관관계가 강하게 나타나서 회귀분석의 전체가정인 독립변수들간에 상관관계가 높으면 안된다는 조건을 위배하는 경우를 의미하기 때문에 spurious correlation과 다른 문제임을 기억하자.