● 공분산 (Covariance, Cov)
공분산 (Covariance, Cov)는 2개의 확률변수의 상관 정도를 나타내는 값이다.
어떤 두 확률 변수 X, Y를 생각해보자.
X 변수의 값이 상승하는 경향을 보였을때, Y의 값은 어떤 형태를 보일까?
1) X, Y 는 독립사건
X,Y가 서로 관계없는 독립사건이라고 생각하면 (C) No relationship 같은 형태의 분포를 보일 것이다.
이때의 Cov(X,Y) = 0 이 된다. 공분산의 0 인 확률 변수를 비상관 확률변수 라고 한다.
하지만 주의할 점은 역은 성립하지 않는다. 즉 X, Y가 독립이 아니더라도 공분산의 값은 0이 될 수 있다.
2) X가 증가할때, Y도 증가한다
이때 X,Y는 서로 상관이 있는 변수이다. 인과가 아님을 주의하자.
즉, 서로 영향을 주는지 여부는 공분산으로 알 수 없다. 어떤 패턴의 관계를 보이는지만 알 수 있다.
위의 그림에서는 (a) Positive Relationship 같은 형태의 분포를 보인다.
Cov(X,Y) > 0 이 된다.
3) X가 증가할때, Y는 감소한다
위의 그림에서는 (b) Negative Relationship 같은 형태의 분포를 보이며,
Cov(X,Y) < 0 이다.
● 공분산 공식
실수값을 지니는 2개의 확률변수 X 와 Y에 대해서 공분산의 기댓값을 다음과 같이 정의 할때,
위의 식을 풀어서 정리하면 아래와 같은 식이 된다.
이때, 만약 X, Y가 독립이면 공분산은 0이 되고, 아래와 같이 나타낼 수 있다.
● 공분산의 성질
만약, X, Y가 실수값인 확률변수이고 a, b가 상수라면, 공분산에 대해서 아래와 같은 법칙이 성립한다.
공분산은 확률변수들의 벡터 공간상에서의 내적을 의미한다.
벡터에서 적용되는 벡터합 X + Y 및 aX와 같은 스칼라곱의 성질도 지닌다.
● 공분산 행렬
항상 컴퓨터 계산을 통해 연산하려면 행렬로써 나타내는게 용이하기 때문에 중요하다.
열벡터값을 가지는 확률변수 X , Y 에 각각의 기댓값을 빼주어 아래의 식처럼 계산하면 공분산을 구할 수 있다.
● 공분산의 문제점
공분산은 단순한 상관관계의 방향만을 알려준다.
상관관계의 정도는 알 수 없다.
왜일까?
확률변수의 단위 크기에 영향을 많이 받기 때문이다.
두 확률 변수 X,Y 의 공분산 Cov(X,Y)의 단위는 X와 Y의 곱이다.
그렇다 보니 각 확률 변수의 단위크기가 크면 무조건 공분산의 크기가 크게 나오는 문제가 있다.
그래서 극복방법으로 상관계수(Correlation Coefficient)를 사용한다.
● 상관계수(Correlation Coefficient)
상관계수는 확률 변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화 시킨 것이다.
즉, 공분산에 각 확률변수의 분산을 나누어 줬다고 생각하면 된다.
다시 말하면, 공분산을 정규화 시키면 상관관계를 알 수 있다.
상관계수의 성질
- 상관계수의 절댓값은 1을 넘지 않는다.
- 확률변수 X,Y가 독립이라면 상관계수는 0이다.
- 상관관계가
- 0<ρ≤+1 이면 양의 상관
- -1≤ρ<0 이면 음의 상관
- ρ=0이면 무상관이라고 한다.
여기서 더 나아가면 피어슨 상관계수 또는 스피어만 상관계수를 구할 수 있다.