동영상 8 분

 

 

반갑습니다. 지난 에피소드가 나간 후에 몇 분께서 연락을 주셨는데요. 그 중에서 상관계수에 대한 이야기가 있었습니다.

첫 번째는 그 계수가 정확하게 산출되었느냐, 신뢰성 문제죠. 두 번째는 나도 그 계수를 구하고 싶은데, 어디서 자료를 찾아서 어떻게 구하는 거냐, 이 두 가지 내용이죠. 그래서 제가 오늘은 실제 인터넷에서 계수를 구하는 방법을 화면 있는 그대로 캡처해서 보여 드리겠습니다.

먼저, 저는 구글 크롬을 씁니다. 크롬에 들어가서 옥스포드 대학의 Our World in Data를 치죠. COVID-19로 들어갑니다. 아래로 스크롤 하면 다운로드가 나오죠. 클릭하고, 아래로 내려가면 CSV 파일이 있습니다. 클릭하지요. 왼쪽 하단에 파일이 다운로드 됐죠.

엑셀 파일을 열면 이렇습니다. 근 300만 건에 가까운 데이터가 실려 있죠. 이 중에서 제가 필요한 데이터만 구하기 위해서 삽입에 들어가서 피벗테이블을 누르죠. 이런 화면이 뜹니다. 제가 필요한 데이터만 선택합니다. 먼저, 날짜. 그 다음 필요한 지표가 신규 확진자 수인데요. 일별 편차가 심하기 때문에 스무디드(Smoothed), 7일 이동평균 숫자를 가져오겠습니다. 그리고 우리가 필요한 엄중성 지표, Stringency-Index를 가져오죠. 그런데 지표 중에서 필요한 것이 지표의 개수가 아니고, 실질 값이 필요한 것이죠. 그래서 개수 대신에 합계로 고칩니다. 마찬가지입니다.

그 다음 국가 선택의 문제인데, 200여 개국 모두 선택을 해도 되지만 제가 관심 있는 국가 20수 개국을 선택하겠습니다.

필터를 눌러서 쭉 아래로 가다 보면, 제일 먼저 오스트레일리아, 베스트 텐 국가죠. 프랑스, 포퓰리즘이 심한 국가입니다. 그리스, 마찬가지로 포퓰리즘이 심한 국가죠. 헝가리, 최근 소프트 독재정치가 완벽한 수준으로 구축된 나라죠. 이스라엘, 우리나라와 사정이 가장 비슷하죠. 질병과 전쟁, 기아가 공존하는 나라입니다. 이탈리아, 포퓰리즘 국가죠. 일본, 베스트 텐 국가죠. 말레이시아, 베스트 텐 국가죠. 뉴질랜드, 베스트 텐 중에서도 최고의 국가죠. 싱가포르, 베스트 텐 국가죠. 우리나라, 스리랑카, 베스트 텐 국가죠. 스페인, 포퓰리스트 국가죠. 스웨덴, 집단 감염을 추진했던 국가죠. 타이완, 베스트 텐 중에서도 탑 국가죠. 타일랜드, 베스트 텐 국가죠. 터키, 최근 소프트 연성 독재가 완성된 국가죠. 아랍에미리트, 베스트 텐 국가죠. 영국, 미국, 베네수엘라, 포퓰리스트 국가죠. 베트남, 개발도상국 중에서 코로나 성적이 제일 좋은 국가죠. 이들 국가들을 선택합니다.

표가 이렇게 나오죠. 부분합계는 필요 없으니까 없애고, 총합계도 필요 없으니까 없앱니다. 보고선 레이아웃은 테이블 형식으로 하겠습니다.

우리가 필요한 자료가 일자별 자료이기 때문에 월별로 감춰져 있는 날짜들을 일일이 풀어줍니다. 그러면 일자별로 펼쳐지죠.

피벗테이블이 완성됐죠. 전체 선택 – 복사. 새로운 창을 열고 데이터만 붙여넣기 합니다. 이쪽 칸에 상관계수를 넣겠습니다. 삽입.

상관계수를 구하죠. 함수에 들어가서 코릴레이션(CORREL) 날짜를 1월 4일부터 끝까지, 신규 확진자죠. 그 다음 Stringency-Index. 엔터를 치면 상관계수가 나오죠. 전 국가에 복사를 합니다. 이쪽 상관계수 부분을 카피해서 새 창을 열고 붙여넣기 하죠. 보기 편하게 오른쪽으로 펼쳐진 자료를 아래로 붙여넣기 합니다. 중간에 블랭크가 들어있죠. 그래서 범위를 지정하고, 정렬 소트에서 C를 선택, 상관계수가 큰 것부터 아래로 배열을 하면 결국 이런 표가 나오죠. 소수점 아래 숫자를 정리해서 소수점 두 자리로 만들겠습니다.

최종적으로 표가 완성됐습니다. 싱가포르 0.78, 상관계수가 정말 높죠. 뉴질랜드 0.65, 마찬가지입니다. 그 다음 0.47, 0.45, 0.45, 말레이시아, 일본, 오스트레일리아, 상당히 높죠. 미국과 그리스와 이탈리아가 의외죠. 대개 생각하기에 포퓰리스트 국가들은 코로나를 정치적으로 활용한다고 생각하기 쉬운데, 의외로 정치적인 용도보다는 국민생명 보호에 비중을 둔 것 같습니다. 그 다음 독일, 포퓰리스트 국가가 아니죠. 스웨덴도 상당히 높습니다. 우리들한테는 (스웨덴이) 집단감염을 실험했다는 인식이 있습니다만, 그와는 다르게 상당히 과학적으로 접근했죠. 타일랜드, 베스트 텐 국가입니다. 의외로 스페인, 영국도 0.33, 0.32, 상관관계가 어느 정도 있습니다. 타이완, 세계 최고의 성적을 내고 있는 국가인데, 이 국가는 초기에 완전히 제압을 했기 때문에 엄중성 지수를 올릴 필요 자체가 없었던 국가죠. 정말 부러운 국가입니다. 베트남도 개발도상국 중에서는 0.26, 우리나라 0.24 와 거의 비슷합니다. 그런데 0.3 밑에 베트남, 한국, 헝가리, 프랑스, 베네수엘라, 아랍에미리트, 이스라엘, 터키, 스리랑카. 상관관계가 거의 없다고 봐야죠. 특히 우리나라는 개발도상국인 베트남, 독재가 완성된 헝가리, 최고의 포퓰리스트 정권인 프랑스, 베네수엘라, 이 정도 부근에 위치해있죠.

여기까지 소스 데이터부터 시작해서 상관계수를 구할 때까지의 프로세스를 실제로 보여 드렸습니다. 감사합니다.