상관이 있는 것 만으로는 인과가 있다고는 단정하지 못하고, 인과의 전제에 지나지 않는다. '상관은 인과를 함축하지 않는다 (Correlation does not imply causation)'는, 과학이나 통계학에서 사용되는 어구로, 2개의 변수의 상관이 자동적으로 한 편이 이제 한 편의 원인을 의미한다는 것은 아닌 것을 강조한 것이다 (물론, 그러한 관계가 있는 경우를 완전하게 부정하는 것이 아니다). 완전히 반대의 말인 '상관은 인과를 증명한다 (correlation proves causation)'는 오류이며, 동시에 발생한 2개의 사상에 인과관계를 주장하는 것이다. 이러한 오류는 거짓 원인 (영: false cause)으로 불린다 (라틴어에서는 "cum hoc ergo propter hoc", 직역하면 '그것과 함께, 그 리고 그러므로'). 전후즉인과의 오류는, 2개의 사상에 순서 관계가 있는 것이 전제이며, '거짓 원인'의 일종이다.
개요
넓게 연구된 예로서 호르몬 보충 요법 (HRT)을 실시하고 있는 여성으로의 관상 동맥성 심장병 (CHD)의 발생율이 낮은 것으로부터, HRT가 CHD 예방에 효과가 있다는 제안이 이루어졌던 적이 있다. 그러나 대조 시험을 가 보면, HRT에 의해서 CHD의 리스크가 약간이지만 분명하게 의미가 있는 증가를 나타냈다. 데이터를 재검토해 보면, HRT를 받고 있던 여성은 상류계급의 부인이 대부분, 다이어트나 운동을 자주 가고 있던 것을 알 수 있었다. 즉, HRT를 받는 것으로 CHD 발증율이 낮은 것은 공통의 원인의 결과이며, 양자에게 제안된 것 같은 원인과 결과의 관계는 존재하지 않는다.
수학적으로는 "Correlation does not imply causation" (상관은 인과를 함축하지 않는다)는 올바르다. 논리학에서는, "imply"는 논리 포함을 의미한다. 그러나, "imply"라는 말은 통상 '시사한다'라는 의미에서도 사용된다. 상관과 인과에 어떠한 관계가 있다는 것은 올바르고, 인과관계를 증명할 때 상관관계의 존재가 필요하다.
통계학자 에드워드 타후티는, 마이크로소프트 파워포인트에 의한 프레젠테이션의 간결함의 비평 속에서, "Correlation is not causation" (상관은 인과가 아니다)와 같은 "is"의 사용을 부정확하고 불완전하다고 비판하고 있다. 확실히 상관관계는 인과관계는 아니지만, 그것들이 등가가 아닌 것을 단지 말하면, 양자의 관계에 대한 정보가 결핍한다. 타후티는, 상관관계와 인과관계에 대해 말하려면, 최악이어도 이하와 같이 해서는 안된다고 시사했다.
'경험적으로 관찰된 공변동은, 인과관계의 필요 조건이지만 충분조건은 아니다'
혹은
'상관관계는 인과관계와 같지 않다. 상관관계는 인과관계의 단순한 필요 조건의 하나이다'
일반 형식
거짓 원인은 다음과 같이 표현할 수 있다.
A의 발생은 B와 상관하고 있다.
따라서, A가 B의 원인이다.
이런 종류의 논리적 오류에서는, 2개 혹은 그 이상의 요인의 사이의 상관관계를 관측한 것만으로, 그러한 인과관계에 붙어 앞당겨진 결론에 달려든다. 일반적으로, 1개의 요인 (A)이 이제 1개의 요인 (B)과 상관하고 있는 것이 관측되었을 때, 그 만큼을 가지고 A가 B의 원인이라고 한다. 그러나, 실제로는 그 밖에 이하와 같은 4개의 가능성이 있으므로, 이러한 오해는 논리적 오류이다.
B가 A의 원인일지도 모른다.
미지의 제3의 요인 C가 있어, 실제로는 A도 B도 C가 원인일지도 모른다.
그 '관계'는 단순한 우연이거나, 사실상 우연이라 말해도 좋을 정도로 복잡하며 우원한 물건일지도 모른다. 즉, 2개의 사상은 동시에 발생했지만, 직접적인 관계는 없고 단지 동시에 일어난 것 뿐이다.
B가 A의 원인인 것과 동시에, A가 B의 원인이다. 양성 피드백 시스템의 동작은 이것에 해당된다.
바꾸어 말하면, A와 B에 상관이 있다는 사실만으로, 그러한 사이의 인과관계를 결론 붙일 수 없다. 비록 상관관계가 유의하고 효과량이 크거나, 분산의 대부분이 설명되고 있다고 해도, 인과관계의 존재를 확정하려면 새로운 조사·연구가 필요하다.
오류의 예
인과관계의 역전
화재 현장에 출동하는 소방 대원이 많을수록, 화재의 규모는 크다.
따라서, 출동하는 소방 대원이 많아지는 것이, 화재가 커지는 원인이다.
소방 대원의 인원 수와 화재 규모에는 강한 상관관계가 있지만, 위와 같은 인과관계는 존재하지 않는다. 실제로는 화재가 크기 때문에 다수의 소방 대원이 거기에 이송되고 있는 것이며, 인과관계는 역이다.
제3의 요인이 2개의 공통 원인
이하의 예에서는, 교란변수라는 미지의 변수가 상관하는 양자에게 영향을 주고 있다. 예를 들면 '예 3'의 경우는 '여름의 더위'가 진정한 원인이다.
예 1
화를 신은 채로 자고 일어났을 때 두통이 되는 것이 많다.
따라서, 구두를 신은 채로 자는 것이 두통의 원인이다.
이 경우, 진정한 원인이 '구두를 신은 채로 자는' 일과 '두통'의 공통의 원인이며, 알코올에 의한 명정이 상관의 원인이라고 생각할 수 있다.
예 2
불을 킨 채로 자는 젊은이는, 그 후 근시가 될 가능성이 높다.
이것은, 펜실베니아 대학 의료 센터가 비교적 최근 간 연구의 예이다. 그 연구는 1999년 5월 13일 발행의 네이쳐 잡지로 발표되어 일반적인 미디어에서도 크게 다루어졌다. 그러나, 후에 오하이오 주립 대학교이 실시한 연구에서는, 아기를 불을 킨 채로 재우는 것으로 근시에 관계가 있다는 결과는 얻을 수 없었다. 그것과는 별도로 부모님이 근시의 아이는 근시에 걸리는 확률이 높다는 결과를 얻을 수 있어 근시의 부모님이 아이를 불을 킨 침실에서 재우는 것이 많다는 경향이 있었다. 즉, 이 경우의 교락변수는, 부모님의 근시라고 생각할 수 있다.
예 3
아이스크림의 매상이 성장하면, 익사자 수도 확실히 증가한다.
따라서, 아이스크림이 익사의 원인이다.
아이스크림이 잘 팔리는 것은 여름이며, 익사가 증가하는 것도 여름이다. 따라서, 여름의 더위가 양쪽 모두의 사상이 공통되는 원인이다.
우연의 일치
해적의 수가 줄어 드는 것에 따라, 동시에 지구 온난화가 큰 문제가 되어 왔다.
따라서, 지구 온난화는 해적의 감소가 원인이다.
이것은 패러디 종교인 날아다니는 스파게티 괴물교가, 상관과 인과를 혼동하는 오류를 풍자하는데 이용한 예이다.
1950년대 이후, 대기의 CO2 레벨과 범죄 레벨은 동시에 증대해 왔다.
따라서, 대기중의 CO2 증가가 범죄 증가의 원인이다.
이 예는 만약 인과관계가 있다면 매우 복잡하고 우원한 물건이라고 생각할 수 있어 증가가 상관하고 있다는 것만으로 인과관계를 결론 붙이는 것은 상조이다. 다른 농담적인 예로서Mierscheid Law가 있다 (독일 사회민주당의 선거로의 득표율과 철의 생산량의 상관을 나타낸 것. 다만, 사회민주주의 정당의 득표와 철의 생산량의 사이에는, '경제성장의 추이가 쌍방의 원인'이라는 허위 상관의 관계는 있을 지도 모르다).
서로 한 쪽이 다른 한 쪽의 원인
(기체는) 압력이 높아짐에 따라, 온도가 상승한다.
따라서, 압력에 의해서 온도가 높아지고 있다.
이상 기체 법칙 PV=nRT는 압력과 온도의 관계를 나타낸 것으로, 양자에게는 상관관계가 있다. 질량이 변하지 않는 경우, 압력을 높게 하면 온도가 올라, 온도를 높게 하면 압력이 오른다. 이 경우, 양자는 독립하고 있지 않고, 직접적인 비례 관계에 있다.
인과관계의 판정
데이비드 흄은, 인과관계는 경험에 근거한다고 해, 똑같이 경험은 미래가 과거를 모방한다는 가정에 근거한다고 해, 그 가정도 경험에 근거한다고 했다. 이것은 일종의 순환논법이다. 그는 '인과관계는 구체적 추론에 근거하지 않는다'라고 결론 붙여 관측할 수 있는 것은 상관관계 뿐이라고 했다.
직관적으로, 인과관계에는 상관관계 뿐만이 아니라 반사실적 의존관계 (dependencies) (counterfactual dependence)도 필요라고 생각된다. 예를 들면, 어느 학생의 테스트의 성적이 나쁘고, 그 원인이 공부하지 않았기 때문이라고 하자. 이것을 증명하려면 , 반사실 (counterfactual)로서 같은 학생이 같은 환경에서 같은 테스트를 받지만, 공부는 확실히 해 왔을 경우를 상정한다. 시간을 되돌릴 수 있으면, 이것 (그 학생에게 공부시키는 것)을 실제로 시험할 수 있어 원의 버전과 다시 한 버전을 비교하는 것으로 인과관계를 관측할 수 있다. 실제로는 시간을 되감기할 수 없기 때문에, 인과관계는 정확하게 알지 못하고, 추측할 수 밖에 할 수 없다. 이것을 '인과적 추론의 근본 문제 (Fundamental Problem of Causal Inference)'라고 부른다.
과학적 실험과 통계적 수법은, 세계의 반사실적 상태를 가능한 한 근사하는 것을 주된 목표의 하나로 하고 있다. 예를 들면, 일관해서 테스트로 같은 성적을 취하는 일란성 쌍생아를 대상으로 하고 실험을 실시한다고 한다. 한 쪽을 6시간 공부시켜, 이제 한 쪽은 유원지에서 놀린다. 그 후의 테스트로 성적이 크게 다르면, 공부 (혹은 유원지에 가는 것)가 테스트의 성적에 인과적 효과를 가져오는 강한 증거가 된다. 이러한 실험을 거치면, 공부와 테스트의 성적의 사이에는 인과관계가 있다고 거의 확실히 말할 수 있다.
통계학적 수법은, 개인의 등가성 대신에 집단의 등가성을 이용한다. 그 때문에, 2 이상의 집단으로부터 무작위로 표본을 추출한다. 완전한 시스템은 아니지만, 피험자를 무작위로 추출하고, 실제의 치료를 실시하는 집단과 플라시보를 주는 집단에 두어, 그것들 집단이 가능한 한 모든 면에서 등질이 되도록 한다. 이에 의해서, 그 치료법과 플라시보의 효과에 큰 차이가 나타나면, 그 치료법은 그 질병을 치료하는 인과적 효과가 있다고 결론 붙일 수 있다. 실험 결과의 유의성을 정량화한 것을 통계용어로 P치라고 부른다.