반갑습니다. 오늘은 상관관계와 상관계수에 대해서 말씀드리겠습니다.
제가 지난 에피소드에서도 여러 가지 설명 말씀을 드릴 때 상관관계, 상관계수라는 용어를 많이 사용했는데요. 통계학적으로는 좀 골치 아픈 용어죠. 그리고 앞으로 코로나와 관련해서 사람들의 이동량 변화가 무엇으로부터 영향을 받는가라는 내용을 설명할 때 계속적으로 상관관계와 상관계수라는 용어를 사용할 텐데요. 그래서 이쯤에서 다시 한번 더 그 정의를 좀 명확히 할 필요가 있을 것 같아서 따로 에피소드를 만들어봤습니다.
먼저 상관관계를 표준국어 대사전에서 찾아보면 두 가지 가운데 한 쪽이 변화하면 다른 한쪽도 따라서 변화하는 관계라고 설명이 되어있죠. 그리고 그 용례로서 상관관계가 높다 또는 상관관계가 있다는 예를 들죠.
그 다음에 수학에서는 한쪽이 증가하면 다른 한쪽도 증가하거나 반대로 감소하는 경향을 인정하는 두 변량 사이의 통계적 관계라고 되어 있습니다.
좀 난해한데요. 먼저 두 변량이 있는 거죠. 변하는 양. 이 두 가지 변량이 있는데 그중에 하나가 증가하면 따라서 다른 한쪽이 증가하거나 또는 감소하는 경향이 있는 통계적 관계를 상관관계라고 한다는 것이죠.
이런 상관관계를 숫자로 표시한 게 상관계수죠. 상관계수는 방향성과 상호 밀접도라는 두 가지 내용을 담고 있습니다.
먼저 첫 번째 방향성부터 보죠. 상관계수가 +가 되면 두 변수가 서로 비례관계에 있고 상관계수가 -면 서로 반비례 관계란 뜻이죠.
이 표에서 보시면 X축이 증가하면 Y축도 증가합니다. 이런 경우 상관계수가 +죠.
그리고 역으로 이 경우에는 X축이 증가하면 Y축은 감소하죠. 반비례합니다. 이런 경우에 상관계수가 -죠.
이처럼 +-는 상관관계의 방향성을 이야기합니다. +면 비례, -면 반비례하는 것이죠.
그 다음 두 번째가 상호 밀접도인데 상관계수가 0이면 두 변수 사이에 아무런 관련성이 없으니까 완전 독립적이죠. 그런데 상관계수가 +1이면 완전 비례하는 것이고 또 거꾸로 상관계수가 -1이면 완전 반비례하는 것이죠.
상관계수가 +1이나 -1로 근접을 하면 할수록 상호 밀접도는 높아지는 것이고 0에 가까이 갈수록 상호 간에 밀접도가 없죠. 몇 가지 예를 들어서 말씀드리겠습니다.
먼저 +, 양의 상관관계, 비례 관계에 대해서 살펴보죠. 첫 번째 케이스가 사람의 키와 몸무게인데요. 사람의 키가 클수록 몸무게가 정비례해서 늘어난다고 가정을 하죠. 예를 들면 키가 120cm면 몸무게가 20kg, 130cm면 30kg, 180cm면 80kg이라고 가정을 하죠.
산포도를 그리면 이런 모습이죠. 추세선이 완전히 일직선을 이루고 있습니다. 이때 상관계수가 1.0이죠.
두 번째 케이스는 조금씩 편차가 생깁니다. 키 120cm에 몸무게가 20kg이 아니고 17kg, 130cm인데 30kg이 아니고 40kg, 이런 식으로 가정을 해보죠.
산포도를 그리면 이런 모습입니다. 추세선은 정확하게 + 방향인데 완벽히 일치하지는 않죠. 이 경우 상관계수가 0.94 정도 되죠.
그 다음 통계를 조금 더 흩어 봤습니다. 산포도는 이렇고 케이스 2보다는 조금 더 여기저기 흩어져 있죠. 물론 방향성은 + 방향이죠. 하지만 상관계수는 조금 떨어져서 0.78 정도 되죠.
네 번째 케이스는 키와 몸무게를 무작위로 찍어 봤습니다. 이런 경우에는 추세선이 플랫하죠. 올라가는지 내려가는지 잘 모르겠습니다. 이 경우 상관계수 0입니다.
요컨대 상관계수가 1로 근접을 하면 할수록 상호 관련성은 높아지고 역으로 상관계수가 0에 가까워질수록 관련성은 낮아지는 것이죠. 이상 여기까지 + 관계를 봤고 다음 – 관계를 보죠.
코로나 확진자가 늘어나면 사람들의 이동량이 줄어든다고 가정을 해봤는데요. 예컨대 확진자가 200명이 되면 사람들의 이동량이 20% 감소하고 800명이 되면 80% 감소한다고 가정을 했습니다.
산포도를 그리면 이렇죠. 추세선의 방향이 완벽한 반비례 모습을 보이고 있죠. 이 경우 상관계수가 -1이죠.
숫자를 조금 흔들어봤는데요. 확진자 200명에 이동량이 -20%이 아니고 -17%, 300 대 -30%이 아니고 -40% 이런 식으로 조금 고쳤습니다.
이런 경우 산포도의 모습이죠. 물론 점들이 좀 흩어져 있습니다만 방향성은 확실하게 – 모습을 보이죠. 이 정도 자료가 흩어졌으면 상관계수가 -0.97 정도 됩니다.
그 다음 케이스 7에서는 이동량을 조금 더 흔들어봤죠.
산포도를 그리면 이렇고 추세선을 그려보면 이 역시 – 추세선을 보이죠. 상관계수가 -0.78 정도 됩니다. 그런데 완전히 무작위로 점을 찍어 보면 이런 산포도죠. 추세선이 플랫하죠. 이 경우 상관계수가 0입니다.
요컨대 – 상관관계 경우에는 상관계수가 -1에 근접하면 할수록 관련성이 올라가고 0에 접근할수록 관련성이 낮아지는 것이죠.
이상 여기까지 가상적인 케이스를 봤는데요. 한번 실제 사례를 가지고 상관계수를 살펴보죠. 앞으로 설명드릴 내용은 전부 다 코로나 백신 접종률이 올라갈 때 사람들의 이동량이 어떻게 변할까라는 통계를 이용했습니다.
첫 번째가 영국, 상관계수가 0.98. 대단히 높습니다. 거의 직선에 가까운 것이죠. 영국이 1월 3일부터 백신 접종을 시작해서 5월 31일 기준으로 영국 국민의 96%가 백신을 맞았죠.
같은 기간 동안 사람들의 이동량을 보면 접종 시작 시점인 1월 3일 이동량이 무려 -48% 감소했는데요. 지속적으로 증가해서 5월 31일 기준으로 +6%, 그러니까 코로나 사태가 생기기 이전보다 오히려 이동량이 6% 늘었다는 것이죠.
두 가지 숫자를 한 그래프에 그려보면 이렇습니다. 위에 연두색이 백신 접종률이고 아래 하늘색이 사람들의 이동량 증감이죠.
두 가지 숫자를 산포도 하나로 그려보면 이렇습니다. 좌우 X축이 백신 접종률이고 상하 Y축이 이동량 증감이죠. 각각 날짜에 해당되는 점을 찍어 보면 이런 모습이 되죠.
날짜 추이에 따라서 점을 찍어 보면 이런 변화 모습을 보입니다. 추세선이 명확하게 보이시죠. 이 정도로 두 가지 변수가 아주 밀접하게 동반해서 상승을 할 경우에는 상관계수가 0.98 정도로 나옵니다.
그 다음은 상관계수가 – 경우인데요. 일본의 케이스입니다. 백신 접종률과 이동량 간의 상관계수가 -0.50 정도 되죠.
일본의 백신 접종률과 이동량을 한 그래프에 그려 보면 이렇습니다. 영국과는 상당히 다른 모습이죠. 접종률은 계속 올라가는데 이동량이 처음에는 증가했다가 3월 말쯤에 피크를 찍고 그 이후 지속적으로 감소하고 있죠.
OECD 37개국 중에서 백신 접종률은 우리나라가 36번째고 일본이 37번째, 마지막이죠. 백신 접종률이 워낙 낮기 때문에 이 정도로는 사람의 이동량 변화에 영향을 끼치지 않고 오히려 확진자나 사망자 증감 또는 통제 정책에 따라서 이동량이 영향을 받는 것이죠.
산포도를 그려보면 이렇습니다. 좌우 X축이 백신 접종률이고 상하 Y축이 이동량 변화입니다. 초기 이동량이 급격히 올라갔다가 다시 하락 추세에 있죠.
일자별 진행에 따라서 산포도를 그려보면 이렇습니다. 추세선이 확실하지 않습니다만 – 방향을 보이죠. 이 정도 될 때 상관계수가 -0.5로 나오죠.
마지막 세 번째, 오스트레일리아 경우인데요. 양자 간의 상관계수가 거의 0에 가깝습니다. 연두색이 백신 접종률, 하늘색이 이동량 변화죠. 이동량이 크게 증감을 보이지 않다가 5월 말 정도 가까이 와서 하락 추세를 보이죠.
산포도를 그러면 이렇습니다. 좌우 X축이 백신 접종률, 상하 Y축이 이동량 변화죠. 오스트레일리아 역시 백신 접종률이 상대적으로 낮기 때문에 백신 접종이 이동량에 큰 영향을 미치지 못하는 모습입니다.
날짜별 흐름에 따라서 산포도를 그리면 이런 변화 모습이죠. 산포도에서 추세선을 그리면 거의 플랫하죠. 이런 경우가 상관계수 -0.02, 거의 0에 가까울 때 모습이죠.
요컨대 상관계수는 두 가지 내용을 담고 있습니다.
첫째 하나는 방향성이죠. +면 비례관계, -면 반비례 관계를 보이죠. 그리고 두 번째는 상호 밀접도를 나타냅니다. 1이나 -1에 가까워질수록 상호 밀접도가 아주 높은 것이고 0에 가까울수록 밀접도가 낮은 것이죠. 그리고 0일 경우에는 두 가지 변수 간에 아무런 관계가 없습니다. 다시 말씀드려서 상호 독립적인 상태죠.
이상 여기까지 마치겠습니다. 감사합니다.