[논문리뷰] 트랜스유라시아 논쟁: 로비츠 외(2021) 가설과 그 과학적, 지정학적 파장에 대한 분석
마르티네 로비츠(Martine Robbeets)와 그녀의 국제 연구팀이 2021년 학술지 ‘네이처(Nature)’에 발표하여 학계에 큰 파장을 일으킨 혁신적이면서도 논쟁적인 논문에 대한 포괄적인 리뷰를 한다. 이 논문은 일본어족, 한국어족, 퉁구스어족, 몽골어족, 튀르크어족을 포함하는 트랜스유라시아어족이 약 9,000년 전 서요하(西遼河) 유역의 신석기 시대 조 농경민과 함께 확산되었다고 주장했다.
여기서는 먼저 로비츠 연구팀이 제시한 언어학, 고고학, 유전학 데이터를 통합하는 혁신적인 ‘삼각검증(triangulation)’ 방법론을 해부한다. 특히 이들의 이주 모델을 뒷받침하는 닝차오(Ning Chao) 등의 2020년 연구와 같은 유전학적 증거에 주목하여, 이 가설의 핵심적인 주장을 설명한다.
다음으로, 이 논문에 대해 신속하고도 혹독하게 제기된 반론, 즉 톈정(Zheng Tian) 등이 2022년에 발표한 “삼각검증의 실패(Triangulation fails)” 프리프린트(preprint)를 비판적으로 평가한다. 이 반론의 과학적 타당성뿐만 아니라, 저자 구성과 발표 매체 선택 등 그 전략적 성격까지 분석한다.
이어서 미야모토 카즈오(Miyamoto Kazuo)의 2022년 연구를 로비츠-톈 논쟁의 교착 상태를 벗어날 수 있는, 고고학에 기반을 둔 대안적 시각으로 제시한다. 미야모토의 모델은 이 지역의 문화 및 언어 확산에 대해 보다 미묘하고 신중한 설명을 제공한다.
마지막으로, 이 모든 과학적 논쟁을 동아시아 민족주의라는 더 넓은 지정학적 맥락 안에서 조명한다. 특히 로비츠의 논문이 어떻게 중국 중심주의적 역사 서사에 도전장을 내밀었으며, 이것이 학문적 반응의 강도를 어떻게 증폭시켰는지를 분석한다. 이 글은 현재 동북아 선사학 연구의 현주소를 평가하고, 정치화된 환경 속에서 향후 연구가 나아갈 길을 제언하며 마무리된다.
1. 새로운 종합 – 로비츠 외 연구팀의 동북아 선사 시대 삼각검증
마르티네 로비츠(Martine Robbeets)와 그녀의 국제 공동 연구팀이 2021년 ‘네이처(Nature)’에 발표한 논문은 동북아 선사학 연구의 패러다임을 바꿀 만한 시도였다. 이 연구의 핵심은 언어학, 고고학, 유전학이라는 세 가지 독립적인 학문 분야의 데이터를 하나의 통합된 서사로 엮어내는 ‘삼각검증’ 방법론을 적용한 데 있다. 이는 각 분야가 개별적으로 제기해 온 가설들을 상호 검증하고 보완함으로써, 동북아시아 인류 집단의 형성과 확산에 대한 거대하고 일관된 설명을 제시하려는 야심 찬 기획이었다.
1.1. ‘농업-언어 확산’ 가설의 재해석: 서요하 유역 조 농경민에서 트랜스유라시아 어족의 확산까지
로비츠 연구팀의 핵심 주장은 트랜스유라시아어족의 초기 확산이 후대의 유목민이 아닌 신석기 시대 초기 농경민의 인구 팽창에 의해 주도되었다는 것이다 (Robbeets et al., 2021). ‘농업 가설(Farming Hypothesis)’로 명명된 이 주장은 기존의 ‘유목민 가설(Pastoralist Hypothesis)’에 정면으로 도전한다 (Robbeets et al., 2021).
이 모델의 중심에는 언어의 기원지와 그 연대에 대한 구체적인 제시가 있다. 연구팀은 베이즈 계통발생학(Bayesian phylogenetics) 분석을 통해 트랜스유라시아 조어(Proto-Transeurasian)의 기원을 약 9,181년 전(BP) 서요하(西遼河) 유역으로 추정했다 (Robbeets et al., 2021). 이 시기는 해당 지역에서 조(millet) 농경이 시작된 시점과 일치하며, 이는 언어의 분화가 농업의 시작이라는 사회경제적 대변혁과 직접적으로 연결되어 있음을 시사한다 (Robbeets et al., 2021).
이들의 확산 모델은 신석기 시대에 일어난 초기 분화를 상정하며, 이후 신석기 후기와 청동기 시대에 추가적인 확산이 이루어졌다고 본다. 특히, 한국어의 조상인 원시 한국어(Proto-Koreanic)는 한반도로, 일본어의 조상인 원시 일본어(Proto-Japonic)는 한반도를 거쳐 일본 열도로 이동했으며, 이 모든 과정이 농경 집단의 이주와 관련이 있다고 주장했다 (Robbeets et al., 2021). 이러한 주장은 언어의 확산이 단순히 문화적 전파가 아닌, 인구의 물리적 이동(demic diffusion)을 통해 이루어졌다는 ‘농업-언어 확산 가설’의 전형적인 틀을 따른다.
1.2. 유전학적 초석: 아무르강 유역 및 황하 유역 조상의 만주에서 한반도와 일본까지의 추적
로비츠 가설의 가장 강력한 기둥 중 하나는 고대 유전체 데이터이다. 연구팀은 트랜스유라시아어족 화자들에게서 공통적으로 발견되는 유전적 요소로 ‘아무르강 유역 계통(Amur-like ancestry)’을 지목했다 (Robbeets et al., 2021). 이 유전적 특징은 아무르강(黑龍江)과 서요하(西遼河) 유역의 신석기 시대 수렵채집인 및 초기 농경민과 관련이 있으며, 지리적으로 흩어져 있는 현생 트랜스유라시아어족 화자들을 하나의 유전적 끈으로 연결하는 역할을 한다 (Robbeets et al., 2021).
이러한 유전학적 모델은 닝차오(Ning Chao) 등이 2020년에 발표한 선행 연구에 크게 의존하고 있다. 닝의 연구는 북중국 지역의 고해상도 고대 유전체 데이터를 제공함으로써, 서요하(西遼河)와 황하(黃河) 유역의 인구 집단이 정적인 상태가 아니라 생업 방식의 변화와 맞물려 역동적인 유전적 변화를 겪었음을 명확히 보여주었다 (Ning et al., 2020).
특히 닝의 연구는 신석기 후기(하가점 하층문화 시기)에 황하(黃河) 유역 관련 유전자 풀이 서요하(西遼河) 지역으로 대규모로 유입되었음을 밝혀냈는데, 이는 조 농경이 심화되던 시기와 일치한다 (Ning et al., 2020). 이 발견은 로비츠 가설에 결정적인 연결고리를 제공했다. 즉, 트랜스유라시아어족의 고향으로 지목된 서요하(西遼河) 유역의 농경민(아무르강 유역 계통 보유)이 남쪽의 황하(黃河) 유역 인구와 혼합된 후, 이 혼합된 유전적·문화적 꾸러미를 가지고 한반도와 일본으로 확산되었다는 구체적인 시나리오를 가능하게 한 것이다 (Ning et al., 2020; Robbeets et al., 2021). 로비츠 연구팀은 한국과 일본에서 새롭게 확보한 고대 유전체 분석을 통해, 청동기 시대에 있었던 대륙으로부터의 대규모 이주가 바로 이 서요하/황하 혼합 유전형을 가진 농경민 집단에 의해 이루어졌으며, 이것이 한국어족과 일본어족의 확산과 일치한다고 결론지었다 (Robbeets et al., 2021).
1.3. 고고학적 틀: 홍산문화와 하가점하층문화를 언어 확산과 연결
연구팀은 255개의 신석기-청동기 시대 유적 데이터베이스를 구축하고 베이즈 분석을 통해, 서요하(西遼河) 유역의 신석기 문화, 특히 홍산(紅山) 문화가 트랜스유라시아어족의 기원지일 가능성이 가장 높은 고고학적 군집임을 확인했다 (Robbeets et al., 2021).
이 분석은 서요하(西遼河) 핵심 지역으로부터 두 갈래의 조 농경 문화가 분기해 나가는 양상을 보여준다. 하나는 한반도의 빗살무늬토기(Chulmun) 문화에 해당하는 흐름이고, 다른 하나는 아무르강(黑龍江) 및 연해주 지역의 문화로 이어지는 흐름이다 (Robbeets et al., 2021). 연구팀은 이 고고학적 분기 패턴을 자신들이 재구성한 언어 계통수와 직접적으로 연결시켰다.
이 연결을 더욱 공고히 하기 위해, 연구팀은 조 경작, 농업, 정주 생활과 관련된 핵심 어휘들이 트랜스유라시아 조어와 그 초기 분파 언어들에서 재구될 수 있다고 주장했다 (Robbeets et al., 2021). 이는 언어학적 증거를 통해 당시 사람들의 생업 방식이 농경 중심이었음을 보여줌으로써, 고고학적 발견과 언어학적 추론을 일치시키려는 시도였다.
1.4. 언어학적 상부구조: ‘알타이’의 유령을 ‘트랜스유라시아’로 되살린 베이즈 계통발생학
이 모든 가설의 대전제는 일본어족, 한국어족, 퉁구스어족, 몽골어족, 튀르크어족이 단일한 유전적 계통, 즉 하나의 어족을 형성한다는 논쟁적인 언어학 이론에 기반한다. 로비츠는 기존의 ‘알타이어족(Altaic)’ 가설이 가진 부정적 이미지를 탈피하기 위해 ‘트랜스유라시아어족’이라는 새로운 명칭을 제안했다 (Robbeets, 2017).
연구팀은 3,000개 이상의 동원어(cognate) 세트로 구성된 새로운 데이터셋에 베이즈 계통발생학적 방법을 적용하여 연대가 측정된 계통수를 구축했다 (Robbeets et al., 2021). 이러한 정량적 접근법은 전통적인 비교언어학 방법에 비해 관계와 시간 깊이를 더 엄밀하게 검증할 수 있는 방법으로 제시되었다.
그러나 이 방법론은 본질적인 취약점을 내포한다. 이는 언어가 나무 모델(tree model)처럼 조상으로부터 수직적으로 분기한다는 가정을 전제로 하는데, 광범위한 지역에서 오랜 기간 접촉하며 차용(수평적 전파)이 빈번했던 언어들의 역사를 설명하는 데는 한계가 있을 수 있다 (Tian et al., 2022; Jacques & List, 2019). 또한, 분석 결과의 타당성은 입력 데이터, 즉 동원어 목록의 질에 절대적으로 의존하는데, 바로 이 지점이 수십 년간 알타이 가설 비판론자들이 집중적으로 공격해 온 지점이다 (Tian et al., 2022; Vovin, 2021).
로비츠 연구팀의 진정한 혁신은 개별 증거 하나하나에 있는 것이 아니라, 이질적인 세 분야의 데이터를 하나의 강력하고 이해하기 쉬운 서사로 엮어냈다는 점에 있다. 이러한 학제간 종합이야말로 이 논문이 ‘네이처’에 실릴 만큼 영향력을 갖게 하고, 동시에 기존의 패러다임에 위협을 가한 핵심 요인이었다. 개별적으로 존재하던 알타이 가설, 농업 확산 모델, 인구 유전학적 이동 경로가 ‘조 농경(고고학)이 특정 인구 집단(유전학)의 팽창을 유발했고, 이들이 특정 조어(언어학)를 전파했다’는 인과적 사슬로 연결되면서, 그 서사적 힘은 극대화되었다. 이 서사의 단순 명쾌함이 이 연구의 가장 큰 매력이자 가장 큰 취약점이 되었다.
표 1: 주요 가설 비교 프레임워크
| 구분 | 로비츠 외 (2021) | 톈 외 (2022) 비판 | 미야모토 (2022) |
| 언어 가족 | 트랜스유라시아어족 (단일 어족) | 유전적 관계 증거 불충분, 개별 어족들의 집합 | 원시 일본어족과 원시 한국어족은 남만주에서 기원한 친족 관계이나, 확산 과정은 상이함 |
| 조어 고향 | 서요하(西遼河) 유역 (홍산 문화) | 특정 불가, 증거 없음 | 동부 랴오시(遼西) 지역 (피안푸 문화) |
| 주요 확산 기제 | 농업 확산 (조 농경민의 인구 이동) | 증거 없음, 문화적 접촉 및 차용 가능성 | 토기 제작 기술의 전파, 정치적 이주 등 복합적 요인 (농업과 반드시 연동되지 않음) |
| 초기 분화 시기 | 약 9,000년 전 | 연대 추정 불가 | 원시 일본어 확산 (기원전 1500년경), 원시 한국어 확산 (기원전 5세기경) |
| 핵심 유전학적 증거 | ‘아무르강(黑龍江) 유역 계통’ 공유, 황하(黃河) 유역 유전자의 서요하(西遼河) 유입 후 한반도/일본으로 확산 | 유전적 연속성과 대안적 모델 가능성 제시, 농업 확산과의 직접적 연관성 부정 | (유전학 데이터 직접 사용 안 함) |
| 핵심 고고학적 증거 | 홍산(紅山) 문화 중심의 신석기 유적군, 농업 관련 어휘 | 고고학 데이터의 계통 발생 신호 미약, 이주 가설 재현 실패 | 피안푸-무문-야요이로 이어지는 4가지 특정 토기 제작 기술의 계보 |
2. 반격 – 삼각검증의 해체
로비츠 연구팀의 논문이 발표된 지 불과 몇 달 만에, 톈정(Zheng Tian)을 필두로 한 대규모 연구팀이 “언어학, 유전학, 고고학 데이터 어느 것도 트랜스유라시아 서사를 지지하지 않을 때 삼각검증은 실패한다(Triangulation fails when neither linguistic, genetic, nor archaeological data support the Transeurasian narrative)”라는 도발적인 제목의 프리프린트를 공개하며 체계적인 반론에 나섰다 (Tian et al., 2022). 이 반론은 단순히 학문적 이견을 제시하는 것을 넘어, 로비츠 가설의 근간을 이루는 세 가지 증거의 축을 모두 문제 삼으며 그 종합적 서사 자체를 무너뜨리려는 전략적 성격을 띤다.
2.1. “삼각검증의 실패” 비판: 가장 약한 고리에 대한 전략적 공격
톈 연구팀의 비판은 로비츠 가설의 가장 논쟁적이고 취약한 부분, 즉 언어학적 전제에 초점을 맞추는 전략을 구사한다 (Tian et al., 2022). 이는 만약 트랜스유라시아라는 언어 가족 자체가 성립하지 않음을 보일 수 있다면, 그 언어 가족의 확산에 대한 유전학적, 고고학적 논의는 무의미해진다는 논리적 귀결을 노린 것이다. 이러한 접근은 논문의 전체 구조를 흔드는 가장 효율적인 방식이다.
이 반론은 ‘네이처’와 같은 최고 권위 학술지에 실린 기념비적인 연구에 대해 신속하고도 전면적인 반박을 제기했다는 점에서 학계의 큰 주목을 받았다. 특히 동료심사(peer review)를 거치지 않는 프리프린트 서버를 통해 발표되었다는 점은, 이 반론이 학문적 논쟁의 속도와 여론 형성에서 주도권을 쥐려는 의도를 가졌음을 시사한다.
2.2. 언어학적 주장의 해체: 동원어, 음운 대응, 방법론적 엄밀성에 대한 평가
톈 연구팀의 비판의 핵심은 로비츠 연구팀의 언어학적 분석이 역사비교언어학의 기본 원칙을 충족하지 못한다는 데 있다. 역사비교언어학에서 언어들의 유전적 관계를 증명하는 유일하고 결정적인 증거는 규칙적이고 체계적인 음운 대응(sound correspondence)의 확립이다 (Campbell, 2013).
톈 연구팀은 컴퓨터를 이용한 재분석을 통해, 로비츠 연구팀이 제시한 3,166개의 동원어 세트 중 극소수인 17개만이 자신들이 제시한 음운 대응 규칙을 따른다고 주장했다. 또한 목록에 포함된 차용어나 단순 복사-붙여넣기 오류로 보이는 데이터들을 지적하며 증거의 신뢰성에 근본적인 의문을 제기했다 (Tian et al., 2022). 농업 확산 가설의 핵심 증거인 농업 관련 어휘 43개에 대해서도 유사한 비판을 가하며, 모든 기준을 충족하는 항목이 단 하나도 없다고 결론 내렸다 (Tian et al., 2022).
이에 대해 로비츠 연구팀은 “삼각검증은 오류의 다각형을 줄인다(Triangulation reduces the polygon of error)”라는 제목의 반박문에서, 트랜스유라시아어족에서 살아남은 동원어의 수는 비슷한 시간 깊이를 가진 다른 확립된 어족들과 비교했을 때 일관된 수준이라고 반박했다. 더 나아가, 톈 연구팀이 핵심 어휘에서 규칙적으로 대응하는 일부 동원어의 존재를 ‘부정하지 못했다’는 점을 지적하며, 바로 이 점이 트랜스유라시아어족의 유전적 관계에 대한 합의의 출발점이 될 수 있다고 역설했다 (Robbeets et al., 2022). 이는 비판의 핵심을 자신들의 주장을 일부 인정하는 근거로 재해석하는 논증 방식이다.
2.3. 유전학 및 고고학 서사의 문제 제기: 인구 연속성과 문화 전파에 대한 대안적 해석
톈 연구팀은 유전학과 고고학 분석에 대해서도 날카로운 비판을 제기했다. 유전학적으로는, 로비츠 연구팀이 제시한 주장이 “정당화되지 않은 가정과 선택적인 모델링”에 기반하고 있다고 비판했다 (Tian et al., 2022). 그들은 동북아시아의 광대한 지역에서 황하(黃河) 유역 농경민의 유전적 혼합이 없는 아무르강(黑龍江) 유역 계통 수렵채집인의 장기적인 유전적 연속성이 관찰된다는 점을 들어, ‘아무르강(黑龍江) 유역 계통’이 반드시 농경민과 독점적으로 연결되는 것은 아니라고 주장했다 (Tian et al., 2022). 또한 한국과 일본의 인구 형성 모델링이 문제적이며, 상정되지 않은 대안적 모델(예: 하가점 상층문화 대신 홍산문화를 유전자원으로 사용하는 모델)도 충분히 가능하다고 지적했다 (Tian et al., 2022).
고고학적으로는, 로비츠 연구팀이 사용한 데이터가 나무 모델과 같은 계통 발생적 신호를 거의 보이지 않는다고 주장했다. 이는 문화적 특성들이 조상에서 후손으로 수직적으로 전파(이주)되기보다는, 이웃 집단 간에 수평적으로 전파(확산)되었을 가능성이 더 높음을 의미하며, 이는 계통수 모델을 사용한 분석의 전제를 약화시킨다 (Tian et al., 2022). 그들은 서요하(西遼河)에서 한반도와 일본으로의 핵심적인 이주 가설을 뒷받침하는 결과를 재현하는 데 실패했다고 밝혔다 (Tian et al., 2022).
이에 대해 로비츠 연구팀은 톈 연구팀의 고고학 재분석이 북중국 데이터만을 재채점하고 전체 데이터의 60%에 달하는 나머지 지역은 기존 데이터를 그대로 사용하는 등 일관성이 결여되어 있으며, 고고학적 기록에 대한 실질적인 논의 없이 성급한 결론을 내렸다고 비판했다 (Robbeets et al., 2022). 유전학에 대해서도, 톈 연구팀이 수행한 제한적인 재분석이 자신들의 원래 모델링과 실질적으로 모순되지 않는다고 주장했다 (Robbeets et al., 2022).
2.4. 출판의 정치학: 프리프린트 서버와 ‘대응팀’의 저자 구성 분석
이 논쟁의 또 다른 중요한 측면은 과학 외적인 요소, 즉 발표 형식과 연구팀 구성에 있다. 톈 연구팀은 자신들의 반론을 동료심사를 거치지 않는 프리프린트 서버인 ‘바이오아카이브(bioRxiv)’에 발표했다. 이는 전통적인 학술 출판 과정의 긴 시간을 건너뛰고 신속하게 연구 결과를 배포하는 방식이다 (Sarabipour et al., 2019). 이러한 전략은 ‘네이처’ 논문이 일으킨 파장에 대한 신속한 대응을 가능하게 하여, 학계와 대중의 담론에 즉각적으로 개입하고 반대 서사를 형성하는 데 효과적이었다.
저자 구성 또한 매우 전략적이다. 이 연구팀은 푸단대학(復旦大學)의 톈정(역사/고고학)과 같은 중국의 주요 기관 소속 학자들을 다수 포함하고 있다 (Tian et al., 2022). 이는 중국 학계의 조직적인 대응이라는 인상을 준다. 그러나 동시에 프랑스(佛國) 국립과학연구센터(CNRS) 소속의 기욤 자크(Guillaume Jacques)와 같이 국제적으로 명망 높은 서구 언어학자들이 참여했다는 점이 결정적으로 중요하다 (Tian et al., 2022). 자크와 같은 학자들의 참여는 이 비판이 단순히 중국의 민족주의적 반발이 아니라, 알타이/트랜스유라시아 가설에 대해 오랫동안 과학적 회의론을 견지해 온 서구 학계의 비판적 시각과 궤를 같이한다는 점을 보여준다. 즉, 톈 연구팀의 논문은 중국 학계의 이해관계와 서구의 전통적인 알타이 회의론자들이라는 ‘회의론자들의 연합(Coalition of the Skeptics)’이 형성된 결과물로 해석할 수 있다. 이 연합은 비판에 상당한 과학적 권위와 국제적 정당성을 부여하며, 논쟁을 단순한 국가 간의 대립 구도 이상으로 복잡하게 만든다.
이처럼 톈 연구팀의 반론은 과학적 내용뿐만 아니라 그 형식과 구성에 있어서도 매우 전략적인 면모를 보인다. 이는 현대의 거대 과학 논쟁이 어떻게 순수한 학문적 토론을 넘어, 서사 통제와 여론 형성을 위한 정보전의 양상을 띠게 되는지를 보여주는 대표적인 사례라 할 수 있다.
표 2: 톈 외(2022)의 비판과 로비츠 외(2022)의 반박에 대한 체계적 분석
| 학문 분야 | 톈 외 (2022) “삼각검증의 실패” 비판 | 로비츠 외 (2022) “오류의 다각형 축소” 반박 |
| 언어학 | – 3,166개 동원어 세트 중 단 17개만이 제시된 음운 대응 규칙을 따름. – 농업 관련 어휘 중 모든 기준을 충족하는 항목 없음. – 차용어 및 데이터 오류가 분석에서 제외되지 않음. – 트랜스유라시아 어족의 유전적 관계를 입증할 증거 불충분. | – 현존하는 동원어 수는 비슷한 시간 깊이를 가진 다른 어족들과 일치하는 수준임. – 톈 연구팀이 핵심 어휘에서 규칙적으로 대응하는 일부 동원어의 존재를 부정하지 못했으며, 이는 어족 관계에 대한 합의의 근거가 될 수 있음. |
| 유전학 | – ‘아무르강(黑龍江) 유역 계통’이 반드시 농경민과 연관된 것은 아니며, 광범위한 수렵채집인에게서도 발견됨. – 한반도 및 일본 인구 형성 모델링이 선택적이며, 검증되지 않은 대안적 모델이 존재함. – 농업 확산과 유전자 흐름 간의 직접적 인과관계는 입증되지 않음. | – 톈 연구팀의 재분석은 한반도와 일본 샘플에 국한되었으며, 원래의 보수적인 모델링(신석기-홍산, 청동기-하가점 상층)과 모순되지 않음. – 반론 측의 주장은 고고학적 기록에 대한 논의 없이 이루어진 성급한 결론임. |
| 고고학 | – 로비츠 연구팀의 고고학 데이터는 계통 발생적(나무 모델) 신호가 거의 없음. 이는 이주보다 문화 확산(수평적 전파) 가능성을 시사함. – 서요하(西遼河)에서 한반도/일본으로의 핵심 이주 가설을 뒷받침하는 결과를 재현하는 데 실패함. – 다양한 역사적 과정을 거친 이질적인 고고학적 특징들을 단순히 결합하는 것은 문제 있음. | – 톈 연구팀의 재분석은 북중국 데이터에만 국한되었고, 그마저도 절반 이상이 불일치를 포함함. – 전체 데이터의 60%를 차지하는 북중국 이외 지역의 데이터를 왜 그대로 사용했는지 설명하지 않음. – 선사 시대 이주를 뒷받침하는 증거가 없다는 주장은 고고학적 기록에 대한 논의 없이 제기됨. |
3. 고고학에 기반한 관점 – 미야모토(2022)의 보정된 모델
로비츠와 톈 연구팀 간의 거대 담론이 충돌하는 가운데, 일본의 고고학자 미야모토 카즈오(Miyamoto Kazuo)는 2022년 ‘진화인류과학(Evolutionary Human Sciences)’에 발표한 논문을 통해 보다 신중하고 경험적인 대안을 제시한다. 그의 연구는 거대한 언어학적 가설에서 출발하는 하향식(top-down) 접근이 아닌, 구체적이고 관찰 가능한 고고학적 증거에서 출발하여 상향식(bottom-up)으로 논리를 구축하는 방식을 취한다. 이는 논쟁의 교착 상태를 해결할 수 있는 잠재적인 ‘제3의 길’을 모색하는 것으로 평가된다.
3.1. 대안적 기제: 문화 및 언어 확산의 고충실도 추적자로서의 토기 제작 기술
미야모토의 방법론적 핵심은 단순히 토기의 양식(style)이 아닌, ‘토기 제작 기술(pottery production techniques)’의 계보를 문화 전파의 핵심 추적자로 삼는 데 있다 (Miyamoto, 2022). 그는 양식은 쉽게 모방되거나 교역될 수 있지만, 복잡한 제작 기술의 전수는 언어 공유를 포함한 깊고 지속적인 문화적 접촉을 통해 이루어질 가능성이 높다고 본다. 이는 단순한 물건의 이동이 아닌 ‘지식’의 이동을 추적하는 것으로, 언어와 같은 무형문화의 확산을 추론하는 데 있어 더 높은 신뢰도를 제공한다.
그는 네 가지 구체적인 기술적 속성, 즉 (a) 넓은 점토판 사용, (b) 이전 판의 바깥 면에 점토판을 덧붙이는 방식, (c) 나무 도구로 표면을 다듬는 기법, (d) 지상에 만든 간이 가마에서의 소성 방식을 식별했다 (Miyamoto, 2022). 이 네 가지 기술의 패키지가 중국 요동(遼東) 지역의 피안푸(Pianpu) 문화에서 한반도의 무문(無文) 토기 문화로, 그리고 다시 일본의 야요이(彌生) 문화로 계승되었음을 논증한다 (Miyamoto, 2022). 이는 고전적인 고고학 유형학 및 확산 연구에 뿌리를 둔 접근법으로 (Childe, 1929), 추상적인 통계 모델이 아닌 구체적인 물질 증거에 기반한 문화 전파 경로를 제시한다.
3.2. 언어와 농업의 분리: 원시 일본어와 원시 한국어 확산에 대한 미묘한 모델
미야모토는 ‘농업-언어 확산 가설’을 동북아시아에 획일적으로 적용하는 것을 명시적으로 비판한다. 그는 일본 열도로의 마지막 전파를 제외하면, 원시 일본어와 원시 한국어의 확산이 반드시 농업의 확산과 연계된 것은 아니라고 주장하며, 언어와 생업 방식의 변화를 분리하여 분석할 것을 제안한다 (Miyamoto, 2022).
그는 두 언어의 확산을 다음과 같은 2단계 모델로 설명한다:
- 원시 일본어(Proto-Japonic)의 확산: 미야모토는 원시 일본어의 확산을 앞서 언급한 피안푸-무문-야요이 토기 제작 기술의 계보와 연결한다. 이 흐름은 기원전 2700년경 동부 랴오시(遼西) 지역에서 시작되어 기원전 1500년경 한반도에 도달했다고 본다. 이는 농업의 대규모 파급 효과보다는, 특정 기술을 보유한 집단의 점진적인 문화적 영향력 확대로 설명된다 (Miyamoto, 2022).
- 원시 한국어(Proto-Koreanic)의 확산: 반면, 원시 한국어의 확산은 훨씬 후대인 기원전 5세기경에 일어난 별개의 사건으로 본다. 그는 이 시기 중국 연(燕)나라의 동진 확장이라는 정치적 압력으로 인해 요동(遼東) 지역의 주민들이 한반도로 이주하면서 점토대토기(덧띠 토기) 문화를 형성했고, 이들과 함께 원시 한국어가 유입되었다고 주장한다. 이 모델에서 언어 확산의 동인은 농업이 아닌 사회정치적 요인이다 (Miyamoto, 2022). 이후 이 새로운 언어 집단이 한반도에 이미 존재하던 원시 일본어 화자들을 점진적으로 대체했다는 것이다.
3.3. 데이터의 재조정: 미야모토의 논지가 고고학적 간극을 메우고 논쟁점을 해결하는 방식
미야모토의 모델은 단일하고 거대한 ‘트랜스유라시아’ 농경민의 확산이라는 로비츠의 거대 서사보다 더 복잡하고 다층적인 그림을 제시함으로써, 기존의 고고학적 논쟁점들을 해결할 수 있는 실마리를 제공한다. 서로 다른 물질문화(무문토기 대 점토대토기)와 서로 다른 동인(문화 확산 대 정치적 이주)을 가진 두 개의 뚜렷한 문화·언어적 흐름을 상정함으로써, 그는 동북아 선사 시대의 복잡성을 더 잘 설명한다.
또한, 그의 접근법은 ‘알타이어족’이라는 논쟁적인 문제 자체를 우회하는 장점이 있다. 미야모토의 논지는 원시 일본어와 원시 한국어가 모두 남만주 지역에서 기원했다는 점에서는 로비츠의 주장과 양립 가능하지만, 두 언어가 반드시 하나의 거대한 상위 어족에 속해야 할 필요는 없다. 그의 주장은 논란의 여지가 많은 언어학적 거대 가설에서 출발하는 것이 아니라, 고고학적 데이터로부터 귀납적으로 구축되었기 때문에 톈 연구팀이 제기한 것과 같은 종류의 언어학적 공격에 덜 취약하며, 따라서 더 견고한 경험적 기반을 갖는다. 이는 거대 이론의 검증을 목표로 하는 ‘매크로’ 모델(로비츠)과, 관찰 가능한 데이터로부터 견고한 연결고리를 구축해 나가는 ‘마이크로’ 모델(미야모토) 사이의 근본적인 학문적 철학의 차이를 보여준다.
4. 지정학적 이면 – 동아시아의 민족주의와 과학 담론
동북아 선사학을 둘러싼 이 치열한 학술 논쟁은 순수한 과학적 탐구의 영역을 넘어, 현대 동아시아 국가들의 민족 정체성과 역사 서사가 얽힌 지정학적 문제와 깊이 연관되어 있다. 특히 로비츠 연구팀의 가설에 대한 중국 학계의 격렬한 반응은, 이 논쟁이 현대의 민족주의, 특히 중국 중심주의적 세계관에 대한 도전으로 인식되었음을 시사한다.
4.1. 중국 중심주의에 대한 도전: 북방 기원설이 기존 서사를 자극하는 이유
역사적으로 중국은 자신을 문명의 중심(‘천하(天下)’)으로 여기고 주변 민족을 문화와 기술을 전수받는 ‘오랑캐’로 간주하는 세계관을 유지해왔다 (Rozman et al., 2024). 이러한 관점은 현대에 이르러 황하(黃河) 유역을 ‘중화 문명의 요람’으로 보고, 동아시아 역사의 주된 동력이 이곳에서 비롯되었다는 민족주의적 서사로 변형되었다 (Kohl & Fawcett, 1995).
로비츠 연구팀의 논문은 이러한 서사의 근간을 여러 측면에서 흔든다. 첫째, 튀르크, 몽골, 한국, 일본 등 주요 국가의 기원이 되는 거대 어족의 발상지를 ‘문명의 중심’인 황하(黃河) 유역이 아닌, ‘주변부’로 여겨졌던 서요하(西遼河) 유역으로 설정했다 (Robbeets et al., 2021). 둘째, 조 농업과 같은 핵심적인 문화 혁신이 이 북방 지역에서 발생하여 황하(黃河) 유역으로 ‘역으로’ 전파되었을 가능성을 제기했다. 셋째, 한국과 일본의 민족 형성 과정을 이 북방 문화권의 확산이라는 틀 안에서 설명함으로써, 그들의 국가 기원 신화에서 중국의 중심적 역할을 상대화시켰다 (Robbeets et al., 2021). 이러한 주장들은 “모든 인류와 문화, 기술이 중국 중심에서 널리 퍼져나갔다”는 극단적인 자국 중심주의, 즉 ‘중화쇼비니즘)’이라 불리는 이데올로기의 핵심 전제를 직접적으로 공격하는 것으로 받아들여졌다.
이러한 맥락에서 볼 때, 로비츠의 가설은 단순한 학술적 제안을 넘어, 중국의 문화적·역사적 헤게모니에 대한 근본적인 도전으로 해석될 여지가 충분했다. 이는 과학적 데이터가 어떻게 민족의 자부심과 역사적 정체성의 문제와 충돌할 수 있는지를 명확히 보여준다.
4.2. 과거는 서막이다: 현대 국가 정체성 구축에서 고고학과 유전학의 역할
동아시아에서 고고학은 종종 ‘국사학(national history)’과 동일시되며, 현대 민족국가의 유구함, 연속성, 고유한 정체성을 증명하는 도구로 활용되어 왔다 (Kohl & Fawcett, 1995). 고고학적 발견은 현대의 국경과 문화적 영유권을 정당화하기 위해 민족주의적 시각으로 해석되는 경향이 있다 (Glover, 2008).
최근에는 고대 DNA 분석 기술이 여기에 더해져, 고대 인류와 현대 민족 간의 조상-후손 관계를 ‘과학적으로 증명’하는 강력한 수단으로 부상했다. 이는 민족의 순수성이나 역사적 연속성과 같은 서사를 객관적인 데이터로 뒷받침하는 것처럼 보이기 때문에 그 파급력이 매우 크다. 이러한 경향은 복잡하고 때로는 적대적인 역사적 관계를 공유하는 중국, 한국, 일본 사이에서 특히 첨예하게 나타난다 (Dubinsky, n.d.). 특정 국가의 영토에서 발견된 고고학적, 유전학적 증거가 다른 국가의 기원과 연결될 경우, 이는 상대국의 민족 정체성에 대한 위협으로 간주될 수 있다.
4.3. ‘경련적’ 반응의 해석: 국가 이데올로기와 학술 연구의 교차점
중국 학계의 반응을 ‘경련적(convulsive)’이고 ‘발작적(hysterical)’이라는 지적은, 톈 연구팀의 반론이 가진 신속성, 조직성, 그리고 전략적 성격을 통해 이해할 수 있다. 이는 위협받는 국가-과학 패러다임을 방어하려는 집단적 움직임으로 해석될 수 있다.
톈 연구팀의 프리프린트에 푸단대학(復旦大學), 교육부 중점연구소 등 중국의 여러 최상위 기관 소속 학자들이 참여했다는 사실은, 이것이 개별 연구자들의 산발적인 반응이 아니라 고도로 조직된, ‘범 학계적’ 대응이었음을 시사한다. 그러나 이 반응을 단순히 정치적 동기에 의한 ‘흠집내기’로만 치부하는 것은 사태를 지나치게 단순화하는 것이다. 앞서 2장에서 분석했듯이, 이 반론은 기욤 자크(Guillaume Jacques)와 같은 서구의 저명한 학자들을 포함함으로써 과학적 정당성을 확보했다. 이는 정치적 민감성이 높은 주제가 학술적 지원을 받아 신속하게 조직될 수 있었음을 보여준다. 즉, 이 반응의 본질은 과학적 불만과 정치적 동기가 복합적으로 작용한 결과물이며, 이 이중성을 이해하는 것이 논쟁의 핵심을 파악하는 데 중요하다.
이 논쟁은 단순히 고대의 역사 서사에 대한 방어를 넘어, 아시아의 과거를 정의하는 현대의 과학적 주도권을 둘러싼 경쟁의 성격을 띤다. 중국의 학술 기관들은 막대한 양의 고고학 및 고대 DNA 데이터를 생산하며 이 분야의 리더십을 추구하고 있다 (Ning et al., 2020). 이러한 상황에서 암묵적인 전제는 중국 학자들이 자국의 데이터를 해석하고 그 결과로 생성되는 역사 서사를 주도해야 한다는 것이다. 그러나 독일 막스플랑크 연구소 주도의 로비츠 논문은 (Robbeets et al., 2021), 외부 연구 그룹이 중국의 데이터(닝차오 연구팀의 데이터 등)를 활용하여 중국 내부의 컨센서스와 다른 서사를 구축한 사례이다. 따라서 중국 학계의 반응은 자국의 역사와 데이터에 대한 ‘해석적 주권(interpretive sovereignty)’을 방어하려는 시도로도 볼 수 있다. 이는 세계화된 개방형 과학 모델이 국가-과학적 목표와 충돌하는 현상을 보여주는 흥미로운 사례이다.
5. 종합 및 향후 전망
로비츠 연구팀의 야심 찬 종합에서부터 톈 연구팀의 전면적인 반박, 그리고 미야모토의 신중한 대안에 이르기까지, 트랜스유라시아 논쟁은 동북아 선사학 연구의 현주소와 미래 방향에 대해 중요한 시사점을 던져준다. 이 섹션에서는 논쟁의 핵심 쟁점들을 종합적으로 평가하고, 이 논쟁이 학계에 남긴 지속적인 영향과 향후 연구 과제를 전망한다.
5.1. 트랜스유라시아 가설의 현주소: 삼각검증의 어떤 요소가 살아남았는가?
논쟁의 핵심이었던 언어학적 구성 요소는 여전히 가장 해결되지 않은 문제로 남아있다. ‘트랜스유라시아’가 유효한 유전적 어족인지에 대한 근본적인 질문은 이 논쟁을 통해 해결되기보다는 오히려 그 논란이 더욱 부각되었다. 톈 연구팀이 제기한 비판은 알렉산더 보빈(Alexander Vovin)과 같은 오랜 회의론자들의 주장을 재확인하며, 로비츠 모델의 기반이 된 동원어 세트의 신뢰성에 상당한 의문을 남겼다.
그러나 거대한 언어학적 서사가 흔들리는 것과 별개로, 유전학과 고고학이 밝혀낸 연결고리들은 상당 부분 유효하게 남아있다. 특히 서요하(西遼河) 유역의 인구 집단이 남쪽과 동쪽으로 이동하여 한반도의 인구 구성에 기여했다는 사실은 이제 고대 DNA 분석을 통해 강력하게 뒷받침된다. 논쟁의 초점은 이제 이러한 연결이 ‘존재했는가’가 아니라, 그것이 ‘무엇을 의미하는가’로 이동했다. 즉, 이 이주민들이 과연 원시 한국어와 원시 일본어의 화자였는지, 아니면 더 복잡한 언어 및 문화적 모자이크의 일부였는지가 새로운 핵심 질문으로 떠올랐다.
5.2. 지속적인 기여: 동북아 선사학에 대한 고대 유전체학의 결정적이고 불가역적인 영향
언어학적 논쟁의 결과와 무관하게, 로비츠와 닝차오 연구팀의 연구는 동북아 선사학 연구의 지형을 영구적으로 바꾸어 놓았다. 대규모 고대 유전체 분석은 이제 인구 이동에 대한 모든 신뢰할 만한 모델의 기본 전제가 되었다. 토기 양식이나 언어학적 재구에만 의존하여 이론을 구축하던 시대는 사실상 막을 내렸다.
특히, 홍산(紅山) 및 하가점하층 문화 시기 인구와 후대 한반도 인구 집단 간의 유전적 연결고리가 확인된 것은 이 논쟁이 남긴 가장 중요하고 지속적인 발견 중 하나이다. 마찬가지로, 생업 방식의 변화가 서요하(西遼河)와 황하(黃河) 유역 간의 역동적인 인구 상호작용을 촉발했다는 증거 역시, 향후 모든 이론이 반드시 고려해야 할 근본적인 사실로 자리 잡았다.
5.3. 향후 연구를 위한 제언: 핵심 논쟁 해결과 복잡한 데이터 탐색을 위한 경로
향후 연구는 로비츠의 ‘매크로’ 접근법과 미야모토의 ‘마이크로’ 접근법 사이의 간극을 메우는 방향으로 나아가야 한다. 거대한 계통 발생 모델은 미야모토가 제시한 것과 같은 미시적이고 고고학적으로 검증된 데이터와 교차 검증되어야 한다. 또한, 수직적 유전(상속)과 수평적 전파(차용/접촉)를 모두 고려할 수 있는 더 정교한 모델의 개발이 시급하다 (Jacques & List, 2019).
연구의 공백을 메우기 위해서는 핵심 지역과 시기에 대한 추가적인 고대 DNA 샘플 확보가 필수적이다. 특히 한반도의 초기 무문토기 시대와 점토대토기 시대 유적에서 더 많은 유전체 데이터를 확보한다면, 미야모토와 로비츠의 상반된 모델을 직접적으로 검증하는 데 결정적인 역할을 할 수 있을 것이다.
마지막으로, 이 분야의 연구자들은 자신들의 연구가 놓인 지정학적 맥락을 명확히 인지해야 한다. 이는 연구 결과의 신중한 해석, 데이터의 투명한 공유, 그리고 국제 공동 연구의 활성화를 통해 연구 결과가 특정 민족주의적 서사에 의해 오용될 위험을 최소화하는 노력을 포함한다. 목표는 단일한 국가 서사를 위한 싸움에서 승리하는 것이 아니라, 복잡한 과거에 대한 공유된 이해를 구축하는 것이 되어야 한다.
결론적으로, 로비츠의 야심 찬 종합에서부터 톈의 격렬한 반박, 그리고 미야모토의 신중한 대안에 이르는 이 모든 논쟁은, 동북아 역사과학이라는 새로운 통합 분야의 탄생 과정에서 겪는 진통으로 볼 수 있다. 수십 년간 분리되어 있던 학문 분야들이 고대 DNA라는 강력한 도구에 의해 강제로 대화를 시작하게 된 것이다. 이 대화는 현재 대립적이고 정치화되어 있지만, 장기적으로는 언어학자, 고고학자, 유전학자들이 서로의 데이터와 방법론을 전례 없는 수준으로 깊이 이해하게 만드는 계기가 될 것이다. 따라서 이 논쟁은 단일한 학술적 다툼의 기록이 아니라, 새로운 과학 분야가 격동 속에서 출현하는 과정을 보여주는 중요한 이정표로 평가되어야 할 것이다.
참고문헌
Campbell, L. (2013). Historical Linguistics: An Introduction. Cambridge, MA: MIT Press.
Childe, V. G. (1929). The Danube in Prehistory. Oxford: Clarendon Press.
Dubinsky, S. (n.d.). Language Conflict and Language Rights in Japan. Florida International University.
Glover, I. C. (2008). ‘National and Political Uses of Archaeology in South-East Asia’. In: Habu, J., Fawcett, C. P., & Matsunaga, J. M. (eds.) Evaluating Multiple Narratives: Beyond Nationalist, Colonialist, Imperialist Archaeologies. New York: Springer, pp. 107-126.
Jacques, G. and List, J.-M. (2019). ‘Save the trees: Why we need tree models in linguistic reconstruction and should not believe the data’. In: Bostoen, K., de Heering, T. & Sagart, L. (eds.) The Mouton-CAS-Linguistics Trend Series. Berlin: De Gruyter Mouton, pp. 155–190.
Kohl, P. L. and Fawcett, C. (eds.) (1995). Nationalism, politics, and the practice of archaeology. Cambridge: Cambridge University Press.
Miyamoto, K. (2022). ‘The emergence of ‘Transeurasian’ language families in Northeast Asia as viewed from archaeological evidence’. Evolutionary Human Sciences, 4, e3.
Ning, C., et al. (2020). ‘Ancient genomes from northern China suggest links between subsistence changes and human migration’. Nature Communications, 11(1), 2700.
Robbeets, M. (2017). ‘The language of the Transeurasian farmers’. In: Robbeets, M. and Savelyev, A. (eds.) Language Dispersal Beyond Farming. Amsterdam: John Benjamins, pp. 93-116.
Robbeets, M., et al. (2021). ‘Triangulation supports agricultural spread of the Transeurasian languages’. Nature, 599(7886), pp. 616–621.
Robbeets, M., et al. (2022). ‘Triangulation reduces the polygon of error for the history of Transeurasian’. bioRxiv. [Preprint]. Available at: https://doi.org/10.1101/2022.10.05.510045 (Accessed: 5 August 2025).
Rozman, G., Sun, Y. and Cohen, D. (2024). Xi Jinping’s Quest for a Sinocentric Asia, 2013–2024: Deciphering Chinese Strategic Thinking in a Pivotal Period. London: Routledge.
Sarabipour, S., et al. (2019). ‘On the value of preprints: An early career researcher perspective’. PLoS Biology, 17(2), e3000151.
Tian, Z., et al. (2022). ‘Triangulation fails when neither linguistic, genetic, nor archaeological data support the Transeurasian narrative’. bioRxiv. [Preprint]. Available at: https://doi.org/10.1101/2022.06.09.495471 (Accessed: 5 August 2025).
Vovin, A. (2021). ‘Catching a Black Cat in a Dark Room’. International Journal of Eurasian Linguistics, 3(1), pp. 121–134.
Triangulation supports agricultural spread of the Transeurasian languages
삼각측량이 범유라시아 언어의 농업 확산을 뒷받침한다
Martine Robbeets, Remco Bouckaert, Matthew Conte, Alexander Savelyev, Tao Li, Deog-Im An, Ken-ichi Shinoda, Yinqiu Cui, Takamune Kawashima, Geonyoung Kim, Junzo Uchiyama, Joanna Dolińska, Sofia Oskolskaya, Ken-Yōjiro Yamano, Noriko Seguchi, Hirotaka Tomita, Hiroto Takamiya, Hideaki Kanzawa-Kiriyama, Hiroki Oota, Hajime Ishida, Ryosuke Kimura, Takehiro Sato, Jae-Hyun Kim, Bingcong Deng, Rasmus Bjørn, Seongha Rhee, Kyou-Dong Ahn, Ilya Gruntov, Olga Mazo, John R. Bentley, Ricardo Fernandes, Patrick Roberts, Ilona R. Bausch, Linda Gilaizeau, Minoru Yoneda, Mitsugu Kugai, Raffaela A. Bianco, Fan Zhang, Marie Himmel, Mark J. Hudson & Chao Ning
Abstract
The origin and early dispersal of speakers of Transeurasian languages—that is, Japanese, Korean, Tungusic, Mongolic and Turkic—is among the most disputed issues of Eurasian population history[1,2,3]. A key problem is the relationship between linguistic dispersals, agricultural expansions and population movements[4,5]. Here we address this question by ‘triangulating’ genetics, archaeology and linguistics in a unified perspective. We report wide-ranging datasets from these disciplines, including a comprehensive Transeurasian agropastoral and basic vocabulary; an archaeological database of 255 Neolithic–Bronze Age sites from Northeast Asia; and a collection of ancient genomes from Korea, the Ryukyu islands and early cereal farmers in Japan, complementing previously published genomes from East Asia. Challenging the traditional ‘pastoralist hypothesis’6,7,8, we show that the common ancestry and primary dispersals of Transeurasian languages can be traced back to the first farmers moving across Northeast Asia from the Early Neolithic onwards, but that this shared heritage has been masked by extensive cultural interaction since the Bronze Age. As well as marking considerable progress in the three individual disciplines, by combining their converging evidence we show that the early spread of Transeurasian speakers was driven by agriculture.
범유라시아 언어, 즉 일본어, 한국어, 퉁구스어, 몽골어, 튀르크어를 사용하는 화자의 기원과 초기 확산은 유라시아 인구사에서 가장 논쟁적인 주제 중 하나이다[1,2,3]. 주요 문제는 언어 확산, 농업 확장, 인구 이동 간의 관계이다[4,5]. 본 연구는 유전학, 고고학, 언어학을 통합적으로 분석하여 이 질문에 답하고자 한다. 우리는 범유라시아 농업·목축 및 기본 어휘에 대한 종합 데이터, 동북아시아의 신석기~청동기 시대 유적 255곳에 대한 고고학 데이터베이스, 한국, 류큐琉球열도, 일본 초기 곡물 농경민의 고대 유전체를 포함한 다양한 데이터를 분석했으며, 이는 동아시아에서 이미 발표된 유전체 연구를 보완한다. 기존의 ‘유목민 가설’[6,7,8]에 도전하며, 우리는 범유라시아 언어의 공통 기원과 주요 확산이 초기 신석기 시대부터 동북아시아 전역으로 이동한 첫 농경민들로부터 비롯되었음을 보여준다. 그러나 이 공유된 유산은 청동기 시대 이후 광범위한 문화적 상호작용으로 인해 감춰져 왔다. 이러한 세 가지 학문 분야 각각에서의 상당한 진전을 이룬 동시에, 이들의 수렴하는 증거를 결합해 범유라시아 화자의 초기 확산이 농업에 의해 주도되었음을 밝혀냈다.
목차
https://yoonsb.com/2025/08/05/2828/
Recent breakthroughs in ancient DNA sequencing have made us rethink the connections between human, linguistic and cultural expansions across Eurasia. Compared to western Eurasia[9,10,11], however, eastern Eurasia remains poorly understood. Northeast Asia—the vast region encompassing Inner Mongolia, the Yellow, Liao and Amur River basins, the Russian Far East, the Korean peninsula and the Japanese Islands—remains especially under-represented in the recent literature. With a few exceptions that are heavily focused on genetics[12,13,14] or limited to reviewing existing datasets[4], truly interdisciplinary approaches to Northeast Asia are scarce.
고대 DNA 분석 기술의 최근 발전은 유라시아 전역에서 인간, 언어, 문화 확산 간의 연결에 대한 우리의 이해를 새롭게 하고 있다. 그러나 서유라시아에 비해[9,10,11], 동유라시아는 여전히 잘 이해되지 못하고 있다. 특히, 내몽골內蒙古, 황하黃河, 요하遼河, 아무르강 유역, 러시아 극동, 한반도, 일본 열도를 포함한 광대한 동북아시아 지역은 최근 학문적 논의에서 특히 저평가되어 있다. 유전학에 크게 초점을 맞춘 연구[12,13,14]나 기존 데이터셋을 검토하는 데 한정된 연구[4]를 제외하면, 동북아시아에 대한 진정으로 학제적인 접근은 드물다.
The linguistic relatedness of the Transeurasian languages—also known as ‘Altaic’—is among the most disputed issues in linguistic prehistory. Transeurasian denotes a large group of geographically adjacent languages stretching across Europe and northern Asia, and includes five uncontroversial linguistic families: Japonic, Koreanic, Tungusic, Mongolic, and Turkic (Fig. 1a).
범유라시아(Transeurasian) 언어, 과거에 ‘알타이(Altaic)’로도 알려진 언어들의 계통적 관련성은 언어학적 선사시대에서 가장 논쟁적인 주제 중 하나이다. 범유라시아는 유럽과 북아시아에 걸쳐 지리적으로 인접한 광범위한 언어군을 지칭하며, 다섯 개의 확고한 언어 계통군을 포함한다: 일본어족, 한국어족, 퉁구스어족, 몽골어족, 튀르크어족(Fig. 1a).


Fig. 1: Distribution of Transeurasian languages in the past and in the present.
그림 1: 과거와 현재의 범유라시아 언어 분포.
a, Geographical distribution of the 98 Transeurasian language varieties included in this study. Contemporary languages are represented by coloured surfaces, historical varieties by red dots. For legend, see Extended Data Fig. 1. b, Reconstructed locations of Transeurasian ancestral languages spoken during the Neolithic (red) and the Bronze Age and later (green). For detailed homeland detection, see Supplementary Data 4. The estimated time-depth is based on Bayesian inference presented in Supplementary Data 24.
a. 본 연구에 포함된 98개의 범유라시아 언어 변종의 지리적 분포를 나타낸 지도. 현대 언어는 색상으로 표현된 면으로 나타내고, 역사적 언어 변종은 빨간 점으로 표시했다. 범례는 확장 데이터 그림 1을 참조.
b. 신석기 시대(빨간색)와 청동기 시대 이후(녹색)에 사용된 범유라시아 조상 언어의 재구된 위치. 상세한 기원지 탐지는 보충 데이터 4를 참조. 추정된 시간 범위는 보충 데이터 24에 제시된 베이지안 추론에 기반을 둔다.
The question of whether these five groups descend from a single common ancestor has been the topic of a long-standing debate between supporters of inheritance and borrowing. Recent assessments show that even if many common properties between these languages are indeed due to borrowing[15,16,17], there is nonetheless a core of reliable evidence for the classification of Transeurasian as a valid genealogical group[1,2,18,19].
이 다섯 언어군이 단일 공통 조상에서 유래했는지에 대한 문제는 오랜 기간 동안 유전과 차용을 지지하는 학자들 간의 논쟁 주제였다. 최근 연구에 따르면, 이 언어들 간의 많은 공통된 특징이 차용에 의한 것이라 하더라도[15,16,17], 범유라시아를 유효한 계통적 언어군으로 분류할 수 있는 핵심적인 신뢰할 만한 증거가 여전히 존재한다[1,2,18,19].
Accepting this classification, however, gives rise to new questions about the time depth, location, cultural identity and dispersal routes of ancestral Transeurasian speech communities. Here we challenge the traditional ‘pastoralist hypothesis’ that identifies the primary dispersals of the Transeurasian languages with nomadic expansions starting in the eastern steppe in the fourth millennium before present (bp)[6,7,8], by proposing a ‘farming hypothesis’, which places those dispersals within the scope of the ‘farming/language dispersal hypothesis’[5,20,21]. As these issues reach far beyond linguistics, we address them by integrating archaeology and genetics in a single approach termed ‘triangulation’.
이 분류를 수용하면, 범유라시아 조어 공동체의 시간적 깊이, 위치, 문화적 정체성, 확산 경로에 관한 새로운 질문이 제기된다. 본 연구에서는 범유라시아 언어의 주요 확산을 약 4천 년 전 동부 스텝 지역에서 시작된 유목민의 확산과 연관짓는 전통적인 ‘유목민 가설’[6,7,8]에 도전하며, 이를 대신해 ‘농경 가설’을 제안한다. 이 가설은 이러한 확산을 ‘농경/언어 확산 가설’[5,20,21]의 범주 안에 포함시킨다. 이러한 문제들은 단순히 언어학적 논의를 넘어서는 만큼, 우리는 이를 해결하기 위해 고고학과 유전학을 통합하는 ‘삼각측량’ 접근법을 적용했다.
언어학 Linguistics
We collected a new dataset of 3,193 cognate sets that represent 254 basic vocabulary concepts for 98 Transeurasian languages, including dialects and historical varieties (Supplementary Data 1). We applied Bayesian methods to infer a dated phylogeny of the Transeurasian languages (Supplementary Data 24).
우리는 방언과 역사적 변종을 포함한 98개의 범유라시아 언어에 대해 254개의 기본 어휘 개념을 대표하는 3,193개의 동원어 집합으로 구성된 새로운 데이터셋을 수집했다(보충 데이터 1). 또한, 범유라시아 언어의 시간적 계통수를 추론하기 위해 베이지안 방법을 적용했다(보충 데이터 24).
Our results indicate a time-depth of 9181 bp (5595–12793 95% highest probability density (95% HPD)) for the Proto-Transeurasian root of the family; 6811 bp (4404–10166 95% HPD) for Proto-Altaic, the unity of Turkic, Mongolic and Tungusic languages; 4491 bp (2599–6373 95% HPD) for Mongolo-Tungusic; and 5458 bp (3335–8024 95% HPD) for Japano-Koreanic (Fig. 1b). These dates estimate the time-depth of the initial break-up of a given language family into more than one foundational subgroup.
우리의 결과는 범유라시아어족의 기원인 원범유라시아어의 시간적 깊이를 약 9181년 전(bp)으로 추정하며, 95% 신뢰구간(HPD)은 5595–12793년 전이다. 원알타이어(튀르크어, 몽골어, 퉁구스어의 공통 조상)는 약 6811년 전(bp), 95% 신뢰구간은 4404–10166년 전으로 나타났다. 몽골어-퉁구스어는 약 4491년 전(bp), 95% 신뢰구간은 2599–6373년 전으로, 일본어-한국어 계통은 약 5458년 전(bp), 95% 신뢰구간은 3335–8024년 전으로 추정된다(Fig. 1b). 이러한 날짜는 각 언어 계통이 여러 주요 하위 그룹으로 분화되기 시작한 초기 시점을 나타낸다.
We used our lexical dataset to model the expansion of Transeurasian languages in space (Supplementary Data 3, 4). We applied Bayesian phylogeography to complement classical approaches, such as lexicostatistics, the diversity hotspot principle and cultural reconstruction[1,2,3,8].
우리는 범유라시아 언어의 공간적 확산을 모델링하기 위해 어휘 데이터셋을 활용했다(보충 데이터 3, 4). 이를 위해 전통적인 접근법인 어휘통계학, 다양성 집중지 원칙, 문화 재구성[1,2,3,8]을 보완하기 위해 베이지안 계통지리학을 적용했다.
In contrast to previously proposed homelands, which range from the Altai[6,7,8] to the Yellow River[22] to the Greater Khingan Mountains[23] to the Amur basin[24], we find support for a Transeurasian origin in the West Liao River region in the Early Neolithic. After a primary break-up of the family in the Neolithic, further dispersals took place in the Late Neolithic and Bronze Age. The ancestor of the Mongolic languages expanded northwards to the Mongolian Plateau, Proto-Turkic moved westwards over the eastern steppe and the other branches moved eastwards: Proto-Tungusic to the Amur–Ussuri–Khanka region, Proto-Koreanic to the Korean Peninsula and Proto-Japonic over Korea to the Japanese islands (Fig. 1b).
기존에 제안된 여러 기원지, 즉 알타이[6,7,8], 황하黃河[22], 대흥안령大興安嶺 산맥[23], 아무르강 유역[24]과는 달리, 초기 신석기 시대의 서요하西遼河 지역이 범유라시아 언어의 기원지라는 근거를 확인했다. 신석기 시대에 이 언어 계통이 처음 분화된 이후, 추가적인 확산은 후기 신석기와 청동기 시대에 이루어졌다. 몽골어 계통의 조상은 북쪽으로 몽골 고원으로 확산되었으며, 원튀르크어는 동부 스텝을 따라 서쪽으로 이동했다. 다른 가지들은 동쪽으로 이동하여 원퉁구스어는 아무르–우수리–한카 지역으로, 원한국어는 한반도로, 원일본어는 한반도를 거쳐 일본 열도로 확산되었다(Fig. 1b).
Through a qualitative analysis in which we examined agropastoral words that were revealed in the reconstructed vocabulary of the proto-languages (Supplementary Data 5), we further identified items that are culturally diagnostic for ancestral speech communities in a particular region at a particular time. Common ancestral languages that separated in the Neolithic, such as Proto-Transeurasian, Proto-Altaic, Proto-Mongolo-Tungusic and Proto-Japano-Koreanic, reflect a small core of inherited words that relate to cultivation (‘field’, ‘sow’, ‘plant’, ‘grow’, ‘cultivate’, ‘spade’); millets but not rice or other crops (‘millet seed’, ‘millet gruel’, ‘barnyard millet’); food production and preservation (‘ferment’, ‘grind’, ‘crush to pulp’, ‘brew’); wild foods suggestive of sedentism (‘walnut’, ‘acorn’, ‘chestnut’); textile production (‘sew’, ‘weave cloth’, ‘weave with a loom’, ‘spin’, ‘cut cloth’, ‘ramie’, ‘hemp’); and pigs and dogs as the only domesticated animals.
재구성된 원시 언어 어휘에서 드러난 농업·목축 관련 단어를 분석하는 질적 분석(보충 데이터 5)를 통해, 특정 지역과 특정 시기의 조상 언어 공동체를 문화적으로 진단할 수 있는 항목을 추가로 확인했다. 신석기 시대에 분화된 공통 조상 언어들, 예를 들어 원범유라시아어, 원알타이어, 원몽골어-퉁구스어, 원일본어-한국어는 다음과 같은 경작(‘밭’, ‘씨를 뿌리다’, ‘심다’, ‘자라다’, ‘경작하다’, ‘삽’), 조이지만 쌀이나 다른 작물은 포함되지 않는 작물(‘조 종자’, ‘조 죽’, ‘돌피’), 식량 생산과 보존(‘발효하다’, ‘갈다’, ‘으깨다’, ‘양조하다’), 정착 생활을 암시하는 야생 식품(‘호두’, ‘도토리’, ‘밤’), 직물 생산(‘바느질하다’, ‘옷감 짜다’, ‘베틀로 짜다’, ‘실 잣다’, ‘천을 자르다’, ‘모시’, ‘삼’), 돼지와 개만 포함된 가축화된 동물과 관련된 소수의 계승된 핵심 단어를 반영한다.
By contrast, individual subfamilies that separated in the Bronze Age, such as Turkic, Mongolic, Tungusic, Koreanic and Japonic, inserted new subsistence terms that relate to the cultivation of rice, wheat and barley; dairying; domesticated animals such as cattle, sheep and horses; farming or kitchen tools; and textiles such as silk (Supplementary Data 5). These words are borrowings that result from linguistic interaction between Bronze Age populations speaking various Transeurasian and non-Transeurasian languages.
반면, 청동기 시대에 분화된 튀르크어, 몽골어, 퉁구스어, 한국어, 일본어와 같은 개별 하위 계통들은 새로운 생계 관련 용어를 추가했다. 이러한 단어들은 쌀, 밀, 보리 재배, 낙농업, 소·양·말과 같은 가축, 농기구나 주방 도구, 비단과 같은 직물과 관련된다(보충 데이터 5). 이 단어들은 청동기 시대에 다양한 범유라시아 및 비범유라시아 언어를 사용하는 인구 간의 언어적 상호작용으로 인해 차용된 것이다.
In summary, the age, homeland, original agricultural vocabulary and contact profile of the Transeurasian family support the farming hypothesis and exclude the pastoralist hypothesis (Supplementary Data 5).
요약하면, 범유라시아 어족의 형성 시기, 기원지, 초기 농업 관련 어휘, 언어 접촉 양상은 농경 가설을 뒷받침하며, 유목민 가설은 배제한다(보충 데이터 5).
고고학 Archaeology
Although Neolithic Northeast Asia was characterized by widespread plant cultivation[25], cereal farming expanded from several centres of domestication, the most important of which for Transeurasian was the West Liao basin, where cultivation of broomcorn millet started by 9000 bp[26,27,28,29]. Extracting data from the published literature, we scored 172 archaeological features for 255 Neolithic and Bronze Age sites (Supplementary Data 6, Fig. 2a) and compiled an inventory of 269 directly carbon-14-dated early crop remains (Supplementary Data 9) in northern China, the Primorye, Korea and Japan.
신석기 시대의 동북아시아는 광범위한 식물 재배가 특징적이었으나[25], 곡물 농업은 여러 독립적인 재배 중심지에서 확산되었다. 그중 범유라시아와 관련하여 가장 중요한 중심지는 서요하西遼河 유역으로, 약 9000년 전부터 조 재배가 시작되었다[26,27,28,29]. 기존 문헌에서 데이터를 추출하여, 우리는 255개의 신석기 및 청동기 시대 유적에 대해 172개의 고고학적 특징을 분석했으며(보충 데이터 6, Fig. 2a), 중국 북부, 연해주, 한국, 일본에서 방사성 탄소 연대 측정(C-14)을 통해 직접 확인된 초기 작물 유물 269종의 목록을 작성했다(보충 데이터 9).

Fig. 2: Spatiotemporal distribution and clustering of sites included in the archaeological database.
그림 2: 고고학 데이터베이스에 포함된 유적지의 시공간적 분포와 군집.
a, Geographical distribution of 255 sites from the Neolithic (red) and the Bronze Age (green). b, Coloured dots cluster the investigated sites according to cultural similarity in line with Bayesian analysis in Supplementary Data 25, with indication of the spread of millet and rice in time and space. The distribution of archaeological sites in Fig. 2 is smaller than that of contemporary languages in Fig. 1 because we focus on the early dispersal of the linguistic subgroups in the Neolithic and the Bronze Age and on the links between the eastward spread of farming and language dispersal.
a. 신석기 시대(빨간색)와 청동기 시대(녹색)의 255개 유적의 지리적 분포를 나타냄.
b. 보충 데이터 25에 기반한 베이지안 분석에 따라, 문화적 유사성에 따라 조사된 유적들이 색깔 있는 점으로 군집화되었으며, 시간과 공간을 따라 조와 쌀의 확산 경로를 표시함. Fig. 2의 고고학적 유적 분포는 Fig. 1의 현대 언어 분포보다 작게 나타나는데, 이는 신석기 및 청동기 시대의 초기 언어 하위 계통 확산과 동쪽으로 농업 확산이 언어 확산에 미친 영향을 중점적으로 다루기 때문이다.
The main results of our Bayesian analysis (Supplementary Data 25), which clusters the 255 sites according to cultural similarity, are visualized in Fig. 2b. We find a cluster of Neolithic cultures in the West Liao basin, from which two branches associated with millet farming separate: a Korean Chulmun branch and a branch of Neolithic cultures covering the Amur, Primorye and Liaodong. This confirms previous findings about the dispersal of millet agriculture to Korea by 5500 bp and via the Amur to the Primorye by 5000 bp[30,31].
베이지안 분석(보충 데이터 25)의 주요 결과는 Fig. 2b에 시각화되었으며, 255개 유적을 문화적 유사성에 따라 군집화한 것이다. 우리는 서요하西遼河 유역에서 신석기 시대 문화의 군집을 확인했으며, 여기서 조 농사와 관련된 두 가지 가지가 분화된다. 하나는 한반도의 신석기 즐문櫛文(Chulmun) 문화이고, 다른 하나는 아무르, 연해주, 요동遼東을 포함한 신석기 시대 문화이다. 이는 약 5500년 전 한반도로, 약 5000년 전 아무르를 통해 연해주로 확산된 조 농사에 대한 기존 연구 결과를 확인해준다[30,31].
Our analysis further clusters Bronze Age sites in the West Liao area with Mumun sites in Korea and Yayoi sites in Japan. This mirrors how during the fourth millennium bp, the agricultural package of the Liaodong–Shandong area was supplemented with rice and wheat. These crops were transmitted to the Korean Peninsula by the Early Bronze Age (3300–2800 bp) and from there to Japan after 3000 bp (Fig. 2b).
우리의 분석은 서요하西遼河 지역의 청동기 시대 유적을 한반도의 무문無文토기 유적과 일본의 야요이彌生 유적과 군집화했다. 이는 약 4000년 전(bp)에 요동遼東–산동山東 지역의 농업 패키지에 쌀과 밀 재배가 추가된 과정을 반영한다. 이러한 작물은 초기 청동기 시대(약 3300–2800년 전)에 한반도로 전파되었고, 이후 약 3000년 전에 일본으로 전파되었다(Fig. 2b).
Although population movements were not linked with monothetic archaeological cultures, Neolithic farming expansions in Northeast Asia were associated with some diagnostic features, such as stone tools for cultivation and harvesting and textile technology[32] (Supplementary Data 7). Domesticated animals and dairying had an important role in the spread of the Neolithic in western Eurasia but, except for dogs and pigs, our database shows little evidence for animal domestication in Northeast Asia before the Bronze Age (Supplementary Data 6). The link between agriculture and population migrations is especially clear from similarities between ceramics, stone tools, and domestic and burial architecture between Korea and western Japan[33].
인구 이동은 단일한 고고학적 문화와 연결되지는 않았지만, 동북아시아의 신석기 농업 확산은 경작 및 수확용 석기와 직물 기술과 같은 진단적 특징들과 관련이 있었다[32] (보충 데이터 7). 서유라시아에서 신석기 시대의 확산에는 가축화된 동물과 낙농업이 중요한 역할을 했으나, 우리 데이터베이스에 따르면 동북아시아에서는 청동기 시대 이전에 개와 돼지를 제외한 동물 가축화에 대한 증거가 거의 없다(보충 데이터 6). 특히, 농업과 인구 이동의 연관성은 한반도와 일본 서부 간의 도자기, 석기, 주거 및 매장 구조에서 나타나는 유사성을 통해 명확히 드러난다[33].
Building on previous studies, we provide an overview of demographic changes associated with the introduction of millet farming across the regions in our study (Extended Data Fig. 3). Having invested in elaborate paddy fields, wet rice farmers tended to stay in one place, absorbing population growth through extra labour, whereas millet farmers typically adopted a more expansionary settlement pattern[34]. Neolithic population densities increased across Northeast Asia before a population crash in the Late Neolithic 35,36. The Bronze Age then saw exponential population increases in China, Korea and Japan.
기존 연구를 기반으로, 본 연구 지역 전역에서 조 농사 도입과 관련된 인구 변화의 개요를 제공한다(확장 데이터 Fig. 3). 정교한 논밭에 투자한 습지 벼농사 농민들은 한곳에 정착하며 추가 노동력을 통해 인구 증가를 흡수하는 경향이 있었던 반면, 조농사 농민들은 보다 확장적인 정착 양식을 채택했다[34]. 신석기 시대 동안 동북아시아 전역에서 인구 밀도가 증가했으나, 후기 신석기 시대에 인구 붕괴가 발생했다[35,36]. 이후 청동기 시대에는 중국, 한국, 일본에서 인구가 기하급수적으로 증가했다.
유전학 Genetics
We report genomic analyses of 19 authenticated ancient individuals from the Amur, Korea, Kyushu and the Ryukyus and combined them with published genomes that cover the eastern steppe, West Liao, Amur and Yellow River regions, Liaodong, Shandong, the Primorye and Japan between 9500 and 300 bp (Fig. 3a, Extended Data Fig. 4, Supplementary Data 11, 13, 17).
우리는 아무르, 한국, 규슈九州, 류큐琉球에서 발굴된 19명의 고대 개체에 대한 검증된 유전체 분석 결과를 보고하며, 이를 9500년 전부터 300년 전 사이 동부 스텝, 서요하西遼河, 아무르, 황하黃河, 요동遼東, 산동山東, 연해주, 일본 지역을 포함하는 기존에 발표된 유전체 데이터와 결합했다(Fig. 3a, 확장 데이터 Fig. 4, 보충 데이터 11, 13, 17).
We projected them onto a principal component analysis (PCA) of 149 present-day Eurasian populations and 45 East Asian populations (Extended Data Figs. 5–8). Figure 3b models our key ancient populations as an admixture of five genetic components, whereby Jalainur represents Amur, Yangshao the Yellow River and Rokutsu the Jomon genome, whereas Hongshan and Upper Xiajiadian in the West Liao River are composed of Yellow River and Amur genomes (qpAdm admixture of various East Asian genetic components in Supplementary Data 16).
우리는 이 고대 개체들을 149개의 현대 유라시아 인구와 45개의 동아시아 인구를 대상으로 한 주성분 분석(PCA)에 투영했다(확장 데이터 Fig. 5–8). Fig. 3b는 주요 고대 인구를 다섯 가지 유전적 구성 요소의 혼합으로 모델링한다. 잘라이누르扎賚諾爾는 아무르를, 앙소仰韶는 황하黃河를, 로쿠츠六通는 조몬繩文 유전체를 대표한다. 서요하西遼河의 홍산紅山과 하가점상층夏家店上層 유적은 황하黃河와 아무르 유전체로 구성되어 있다(qpAdm를 이용한 동아시아 다양한 유전적 구성 요소의 혼합 분석은 보충 데이터 16 참조).


Fig. 3: Spatiotemporal distribution and admixture of ancient genomes.
그림 3: 고대 유전체의 시공간적 분포와 혼합.
a, Ancient genomes located in time and space. For detailed legend, see Extended Data Fig. 4. b, QpAdm proximal admixture modelling of 20 key ancient populations from this study. The x axis shows ancestry proportion estimates for the target populations in the y axis; the error bars represent ± 1 s.e.m. range, estimated by 5-cM block jackknifing.
a. 시간과 공간에 배치된 고대 유전체. 자세한 범례는 확장 데이터 Fig. 4를 참조.
b. 본 연구에서 다룬 20개의 주요 고대 인구에 대한 QpAdm 근접 혼합 모델링. x축은 대상 인구(y축)에 대한 조상 비율 추정치를 나타내며, 오류 막대는 5-cM 블록 잭나이핑을 통해 추정된 ± 1 표준 오차 범위를 나타낸다.

Contemporary Tungusic as well as Nivkh speakers in the Amur form a tight cluster[13] (Extended Data Fig. 5). Neolithic hunter-gatherers from Baikal, Primorye and the southeastern steppe, as well as farmers from the West Liao and Amur, all project within this cluster (Extended Data Figs. 8–10).
현대 퉁구스어 화자와 아무르 지역의 니브흐어 화자들은 밀접한 군집을 형성한다[13] (확장 데이터 Fig. 5). 바이칼, 연해주, 동남부 스텝 지역의 신석기 수렵채집인과 서요하西遼河 및 아무르 지역의 농경민 모두 이 군집 내에 투영된다(확장 데이터 Fig. 8–10).
Late Neolithic Angangxi (Supplementary Data 12) show a high proportion of Amur-like ancestry, whereas West Liao Neolithic millet farmers show a considerable proportion of Amur-like ancestry with a gradual shift towards the Yellow River genome over time[12] (Extended Data Figs. 8–10, Fig. 3b).
후기 신석기 시대의 앙앙시昂昂溪 유적(보충 데이터 12)은 높은 비율의 아무르 계통 조상을 보여준다. 반면, 서요하西遼河 신석기 시대 조 농경민들은 상당한 비율의 아무르 계통 조상을 지니고 있으며, 시간이 지남에 따라 점차 황하黃河 유전체 쪽으로 변화하는 양상을 보인다[12] (확장 데이터 Fig. 8–10, Fig. 3b).
Although we lack Early Neolithic genomes in the West Liao River, Amur-like ancestry thus is likely to represent the original genetic profile of indigenous pre-Neolithic (or late Palaeolithic) hunter-gatherers covering Baikal, Amur, Primorye, the southeastern steppe and West Liao, continuing in the early farmers from this region. This contradicts a recent genetic study[13], which concludes that the absence of Yellow River influence in ancient genomes from Mongolia and the Amur does not support the West Liao genetic correlate of the Transeurasian language family.
비록 서요하西遼河 지역의 초기 신석기 유전체는 확보되지 않았지만, 아무르 계통의 조상은 바이칼, 아무르, 연해주, 동남부 스텝, 서요하西遼河를 포함한 후기 구석기 또는 신석기 이전의 토착 수렵채집인들의 원래 유전적 특성을 나타낸 것으로 보이며, 이는 이 지역 초기 농경민들에게도 이어졌다. 이는 최근의 유전학 연구[13]와 상반되는데, 이 연구에서는 몽골과 아무르 지역의 고대 유전체에서 황하黃河 영향이 없다는 점을 들어 서요하西遼河 유전적 특성이 범유라시아 언어 계통과 상관관계가 없다고 결론지었다.
The PCA (Extended Data Figs. 8–10) shows a general trend for Neolithic individuals from Mongolia to contain high Amur-like ancestry with extensive gene flow from western Eurasia increasing from the Bronze to Middle Ages[37]. Whereas the Turkic-speaking Xiongnu[38], Old Uyghur and Türk are extremely scattered, the Mongolic-speaking[39] Iron Age Xianbei fall closer to the Amur cluster than the Shiwei, Rouran, Khitan and Middle Mongolian Khanate from Antiquity and the Middle Ages.
PCA 분석(확장 데이터 Fig. 8–10)에 따르면, 몽골 지역의 신석기 시대 개체들은 높은 비율의 아무르 계통 조상을 포함하며, 청동기 시대부터 중세에 이르기까지 서유라시아로부터 광범위한 유전자 흐름이 증가하는 일반적인 경향을 보여준다[37]. 튀르크어를 사용하는 흉노匈奴[38], 고古위구르回鶻 및 돌궐突厥은 매우 흩어진 양상을 보이는 반면, 몽골어를 사용하는[39] 철기 시대 선비鮮卑는 아무르 군집에 더 가까운 위치를 차지한다. 이는 고대 및 중세의 실위室韋, 유연柔然, 거란契丹, 중세 몽골 제국과 비교된다.
As Amur-related ancestry can be traced down to speakers of Japanese and Korean[13], it appears to be the original genetic component common to all speakers of Transeurasian languages. By analysing ancient genomes from Korea (Supplementary Data 12), we find that Jomon ancestry was present on the Peninsula by 6000 bp (Fig. 3b, Supplementary Data 13).
아무르 계통 조상이 일본어와 한국어 화자들에게까지 이어지는 것으로 볼 때[13], 이는 범유라시아 언어 화자들 모두에게 공통적으로 나타나는 원래의 유전적 구성 요소로 보인다. 한국에서 발굴된 고대 유전체를 분석한 결과(보충 데이터 12), 약 6000년 전(bp)에 한반도에서 조몬繩文 계통 조상이 존재했음을 확인했다(Fig. 3b, 보충 데이터 13).
The proximal qpAdm modelling (Supplementary Data 13) suggests that Neolithic Ando can be entirely derived from an ancestry related to Hongshan, whereas Yŏndaedo and Changhang can be modelled as an admixture of Jomon with a high proportion of Hongshan ancestry, although Yŏndaedo has only limited resolution (Supplementary Data 16, Fig. 3b). Yokchido, on the southern coast of Korea, contains nearly 95% Jomon ancestry. Although our genetic analysis cannot itself distinguish between possible East Asian ancestries for Bronze Age Taejungni, given the Bronze Age date it can be best modelled as Upper Xiajiadian; a possible minor Jomon admixture is not statistically significant (P = 0.228; Supplementary Data 16). We therefore observe a heterogeneous presence of Jomon ancestry in Neolithic Koreans (0–95%) and its eventual disappearance over time, as shown by a negligible Jomon contribution to present-day Koreans. The lack of a significant Jomon component in Taejungni indicates that early populations, without detectable Jomon ancestry linked to present-day Koreans, migrated to the Korean peninsula in association with rice farming, and replaced Neolithic populations with some Jomon admixture—although our genetic data currently do not have resolution to test this hypothesis, owing to limited sample size and coverage. We therefore associate the spread of farming to Korea with different waves of Amur and Yellow River gene flow, modelled by Hongshan for the Neolithic introduction of millet farming and by Upper Xiajiadian for the Bronze Age addition of rice agriculture.
근접 qpAdm 모델링(보충 데이터 13)에 따르면, 신석기 시대 안도는 홍산紅山과 관련된 조상으로부터 완전히 기원한 것으로 보인다. 연대도와 장항은 조몬繩文과 높은 비율의 홍산紅山 계통 조상이 혼합된 것으로 모델링될 수 있으나, 연대도는 해상도가 제한적이다(보충 데이터 16, Fig. 3b). 한국 남해안의 욕지도는 약 95%의 조몬繩文 계통 조상을 포함하고 있다. 청동기 시대 대정리의 경우, 유전 분석만으로 동아시아 조상 기원을 구분할 수는 없으나, 청동기 시대로 판단할 때 하가점상층夏家店上層 계통으로 모델링하는 것이 가장 적합하다. 소량의 조몬繩文 혼합 가능성이 있지만 이는 통계적으로 유의미하지 않다(P = 0.228; 보충 데이터 16). 따라서 신석기 시대 한국인들 사이에서 조몬繩文 계통의 다양성(0~95%)과 시간이 지남에 따라 점진적인 소멸이 관찰된다. 현대 한국인에게서 조몬繩文 기여도가 미미한 것은, 현대 한국인과 관련된 조몬繩文 계통이 감지되지 않는 초기 인구가 벼농사와 함께 한반도로 이주해 일부 조몬繩文 혼합이 있던 신석기 인구를 대체했음을 시사한다. 그러나 현재의 유전학 데이터는 표본 크기와 범위의 제한으로 이 가설을 검증할 해상도를 가지지 못한다. 이에 따라, 한국으로의 농업 확산은 서로 다른 시기의 아무르와 황하黃河 계통 유전자 흐름과 연관된 것으로 보인다. 신석기 시대에는 홍산紅山이 조 농사 도입과 연관되었고, 청동기 시대에는 하가점상층夏家店上層이 벼농사 확산과 연관되었다고 모델링된다.
Analysing the genomes from Yayoi farmers (Supplementary Data 12), we found that, like Taejungni, they can be modelled as indigenous Jomon ancestry admixed with Bronze Age Upper Xiajiadian ancestry. Our results support massive migration from Korea into Japan in the Bronze Age.
야요이彌生 농경민의 유전체를 분석한 결과(보충 데이터 12), 대정리와 마찬가지로 이들은 토착 조몬繩文 계통과 청동기 시대 하가점상층夏家店上層 계통이 혼합된 것으로 모델링할 수 있었다. 이 결과는 청동기 시대에 한반도로부터 일본으로 대규모 이주가 이루어졌다는 것을 뒷받침한다.
The Nagabaka genomes from Miyako Island (Supplementary Data 12) represent the first—to our knowledge—ancient genome-wide data from the Ryukyus. Contrary to previous findings that Holocene populations reached the southern Ryukyus from Taiwan[40], our results suggest that the prehistoric Nagabaka population originated in Jomon cultures to the north (Extended Data Fig. 7). The genetic turn-over from Jomon- to Yayoi-like ancestry before the early modern period mirrors the late arrival of agriculture and Ryukyan languages in this region.
미야코섬의 나가바카 유전체(보충 데이터 12)는 류큐琉球 열도에서 처음으로, 우리가 아는 한, 고대 전체 유전체 데이터를 제공한다. 홀로세 시대 인구가 대만에서 남부 류큐琉球로 도달했다는 기존 연구 결과와는 달리[40], 우리의 결과는 선사 시대 나가바카 인구가 북쪽의 조몬繩文 문화에서 기원했음을 시사한다(확장 데이터 Fig. 7). 조몬繩文 계통에서 야요이彌生 계통으로의 유전적 전환은 근세 이전에 발생했으며, 이는 이 지역으로 농업과 류큐琉球 언어가 늦게 도입된 것과 일치한다.
논의 Discussion
Triangulation of linguistic, archaeological and genetic evidence shows that the origins of the Transeurasian languages can be traced back to the beginning of millet cultivation and the early Amur gene pool in Neolithic Northeast Asia. The spread of these languages involved two major phases that mirror the dispersal of agriculture and genes (Fig. 4). The first phase, represented by the primary splits in the Transeurasian family, goes back to the Early–Middle Neolithic, when millet farmers associated with Amur-related genes spread from the West Liao River to contiguous regions. The second phase, represented by linguistic contacts between the five daughter branches, goes back to the Late Neolithic, Bronze and Iron Ages, when millet farmers with substantial Amur ancestry gradually admixed with Yellow River, western Eurasian and Jomon populations and added rice, west Eurasian crops and pastoralism to the agricultural package.
언어학, 고고학, 유전학 증거의 삼각측량 분석을 통해 범유라시아 언어의 기원을 신석기 시대 동북아시아의 조 농사 시작과 초기 아무르 계통 유전자 풀로 추적할 수 있다. 이 언어의 확산은 농업과 유전자의 확산을 반영하는 두 주요 단계를 포함한다(Fig. 4). 첫 번째 단계는 범유라시아 어족의 초기 분화를 나타내며, 이는 초기~중기 신석기 시대로 거슬러 올라간다. 이 시기에는 아무르 계통 유전자와 연관된 조 농사민들이 서요하西遼河 지역에서 인접한 지역으로 확산했다. 두 번째 단계는 다섯 개 하위 계통 간의 언어적 접촉을 나타내며, 후기 신석기, 청동기, 철기 시대로 거슬러 올라간다. 이 시기에는 상당한 아무르 계통을 가진 조 농사민들이 황하黃河, 서유라시아, 조몬繩文 집단과 점진적으로 혼합되었으며, 농업 패키지에 쌀, 서유라시아 작물, 유목 활동을 추가했다.


Fig. 4: Integration of linguistic, agricultural and genetic expansions in Northeast Asia.
그림 4: 동북아시아에서의 언어적, 농업적, 유전적 확산의 통합.
Amur ancestry is marked in red, Yellow River ancestry in green and Jomon ancestry in blue. The red arrows show the eastward migrations of millet farmers in the Neolithic, bringing Koreanic and Tungusic languages to the indicated regions. The green arrows mark the integration of rice agriculture in the Late Neolithic and the Bronze Age, bringing the Japonic language over Korea to Japan.
아무르 계통은 빨간색, 황하黃河 계통은 녹색, 조몬繩文 계통은 파란색으로 표시된다. 빨간 화살표는 신석기 시대 조 농사민들의 동쪽으로의 이동을 나타내며, 이는 한국어족과 퉁구스어족을 해당 지역으로 확산시켰다. 녹색 화살표는 후기 신석기와 청동기 시대에 벼농업이 통합된 과정을 나타내며, 이는 일본어족이 한반도를 거쳐 일본으로 확산된 경로를 보여준다.
Bringing together the spatiotemporal and subsistence patterns, we find clear links between the three disciplines (Supplementary Data 26). The onset of millet cultivation in the West Liao region around the ninth millennium bp can be associated with substantial Amur-related ancestry and overlaps in time and space with the ancestral Transeurasian speech community. In line with recent associations between the Sino-Tibetan family estimated at 8000 bp[41,42] and Neolithic farmers from the Upper and Middle Yellow River[13,14], our results associate the two centres of millet domestication in Northeast Asia with the origins of two major language families: Sino-Tibetan on the Yellow River and Transeurasian on the West Liao River. The lack of evidence for Yellow River influence in the ancestral Transeurasian language and genes is consistent with the multi-centric origins of millet cultivation suggested in archaeobotany[28].
시공간적 및 생계 양식을 종합한 결과, 세 학문 분야 간의 명확한 연관성을 확인할 수 있었다(보충 데이터 26). 약 9천 년 전(bp)에 시작된 서요하西遼河 지역의 조 재배는 상당한 아무르 계통 조상과 연관되며, 범유라시아 조어 공동체와 시간 및 공간적으로 겹친다. 약 8천 년 전(bp)으로 추정되는 한장어족漢藏語族과 황하黃河 상류 및 중류 지역의 신석기 농경민 간의 최근 연관성 연구[41,42]와 일치하게, 우리의 결과는 동북아시아에서 두 주요 조 재배 중심지와 두 주요 언어 계통의 기원을 연결 짓는다. 즉, 황하黃河 지역에서는 한장어족漢藏語族이, 서요하西遼河 지역에서는 범유라시아 어족이 발생했다는 것이다. 범유라시아 언어와 유전자에 황하黃河의 영향이 없다는 증거의 부재는, 고고식물학에서 제시된 조 재배의 다중 중심적 기원설과 일치한다[28].
The early stages of millet domestication in the ninth to seventh millennia bp are accompanied by population growth (Extended Data Fig. 3), leading to the formation of environmentally or socially separated subgroups in the West Liao region and broken connectivity between speakers of Altaic and Japano-Koreanic.
약 9천 년 전에서 7천 년 전 사이(bp) 초기 조 재배 단계는 인구 증가와 동반되었으며(확장 데이터 Fig. 3), 이는 서요하西遼河 지역에서 환경적 또는 사회적으로 분리된 하위 집단의 형성을 초래했다. 이로 인해 알타이어족 화자와 일본-한국어족 화자 간의 연결성이 단절되는 결과를 낳았다.
Around the mid-sixth millennium bp, some of these farmers started to migrate eastwards, around the Yellow Sea into Korea and northeast into the Primorye, bringing Koreanic and Tungusic languages to these regions and bringing from the West Liao region additional Amur ancestries to the Primorye and mixed Amur–Yellow River ancestries to Korea. Our newly analysed Korean genomes are notable in that they testify to the presence of and admixture with Jomon-related ancestries outside Japan.
약 6천 년 전 중반(bp)에 이르러, 일부 농경민들이 황해를 따라 동쪽으로 한반도에, 그리고 북동쪽으로 연해주 지역으로 이주하기 시작했다. 이들은 한국어족과 퉁구스어족을 해당 지역으로 확산시켰으며, 서요하西遼河 지역에서 연해주로 추가적인 아무르 계통을, 한반도로는 아무르와 황하黃河 혼합 계통을 가져왔다. 새롭게 분석된 한국 유전체는 일본 외부에서도 조몬繩文 계통과의 존재 및 혼합을 보여준다는 점에서 주목할 만하다.
The Late Bronze Age saw extensive cultural exchange across the Eurasian steppe, which resulted in the admixture of populations from the West Liao region and the Eastern steppe with western Eurasian genetic lineages. Linguistically, this interaction is mirrored in the borrowing of agropastoral vocabulary by Proto-Mongolic and Proto-Turkic speakers, especially relating to wheat and barley cultivation, herding, dairying and horse exploitation.
후기 청동기 시대에는 유라시아 스텝 전역에서 광범위한 문화적 교류가 이루어졌으며, 이는 서요하西遼河 지역과 동부 스텝 지역 인구가 서유라시아 계통 유전자를 혼합하는 결과를 낳았다. 언어적으로 이러한 상호작용은 원몽골어와 원튀르크어 화자들이 밀, 보리 재배, 목축, 낙농, 말 이용과 관련된 농업·목축 어휘를 차용한 것으로 반영된다.
Around 3300 bp, farmers from the Liaodong–Shandong area migrated to the Korean peninsula, adding rice, barley and wheat to millet agriculture. This migration aligns with the genetic component modelled as Upper Xiajiadian in our Bronze Age sample from Korea and is reflected in early borrowings between Japonic and Koreanic languages. Archaeologically it can be associated with agriculture in the larger Liaodong–Shandong area without being specifically restricted to Upper Xiadiajian material culture.
약 3300년 전(bp), 요동遼東–산동山東 지역의 농경민들이 한반도로 이주하며 기존의 조 농사에 쌀, 보리, 밀 농업을 추가했다. 이 이주는 한국 청동기 시대 표본에서 하가점상층夏家店上層으로 모델링된 유전적 구성 요소와 일치하며, 일본어족과 한국어족 간의 초기 차용어로도 반영된다. 고고학적으로 이는 요동遼東–산동山東 지역의 농업과 연관되며, 반드시 하가점상층夏家店上層의 물질문화로만 제한되지는 않는다.
In the third millennium bp, this agricultural package was transmitted to Kyushu, triggering a transition to full-scale farming, a genetic turn-over from Jomon to Yayoi ancestry and a linguistic shift to Japonic. By adding unique samples from Nagabaka in the southern Ryukyus, we traced the farming/language dispersal to the edge of the Transeurasian world. Demonstrating that Jomon ancestry stretched as far south as Miyako Island, our results contradict previous assumptions of a northward expansion by Austronesian populations from Taiwan. Together with the Jomon profile discovered at Yokchido in Korea, our results show that Jomon genomes and material culture did not always overlap.
약 3천 년 전(bp), 이러한 농업 패키지가 규슈九州로 전파되며, 본격적인 농업 전환, 조몬繩文 계통에서 야요이彌生 계통으로의 유전적 교체, 일본어족으로의 언어적 전환을 촉발했다. 류큐琉球 남부 나가바카에서 발굴된 독특한 표본을 추가 분석함으로써 농업과 언어의 확산이 범유라시아 세계의 가장자리에 이르렀음을 추적했다. 우리의 결과는 조몬繩文 계통이 미야코섬까지 확장되었음을 보여주며, 대만에서 오스트로네시아 인구의 북쪽 확장이 이루어졌다는 기존 가정을 반박한다. 또한, 한국의 욕지도에서 발견된 조몬繩文 유전체와 함께, 조몬繩文 유전체와 물질문화가 항상 일치하지 않았음을 시사한다.
By advancing new evidence from ancient DNA, our research thus confirms recent findings that Japanese and Korean populations have West Liao River ancestry, whereas it contradicts previous claims that there is no genetic correlate of the Transeurasian language family[13].
고대 DNA에서 새로운 증거를 제시함으로써, 우리의 연구는 일본인과 한국인이 서요하西遼河 계통을 가지고 있다는 최근 연구 결과를 확인했다. 반면, 범유라시아 언어 계통에 유전적 연관성이 없다는 이전 주장을 반박한다[13].
Although some previous research regarded the Transeurasian zone as beyond the area suitable for farming[20], our research confirms that the farming/language dispersal hypothesis remains an important model for understanding Eurasian population dispersals[21]. Triangulation of linguistics, archaeology and genetics resolves the competition between the pastoralist and farming hypotheses and concludes that the early spread of Transeurasian speakers was driven by agriculture.
이전 연구 중 일부는 범유라시아 지역을 농업에 적합하지 않은 지역으로 간주했으나[20], 우리의 연구는 농업/언어 확산 가설이 유라시아 인구 이동을 이해하는 데 여전히 중요한 모델임을 확인했다[21]. 언어학, 고고학, 유전학의 삼각측량 분석은 유목민 가설과 농업 가설 간의 논쟁을 해소하며, 범유라시아 화자의 초기 확산이 농업에 의해 주도되었음을 결론짓는다.
방법론 Methods
언어학 Linguistics
베이시언 계통학 Bayesian phylogenetics
Combining dictionary search with fieldwork, we collected a comparative dataset including 3,193 datapoints representing 254 basic vocabulary concepts for 98 Transeurasian languages, including contemporary and historical varieties (Supplementary Data 1). These concepts are based on a merger of the Leipzig–Jakarta 200 (ref. 43) and Jena 200 (ref. 44) lists (Supplementary Data 2). The Turkic and Tungusic basic vocabulary included is based on a revision of recently published datasets[45,46]. Cognate coding is supported by an inventory of basic vocabulary etymologies and sound correspondences across the Transeurasian languages presented in Supplementary Data 2.
사전 검색과 현장 조사를 결합하여, 현대와 역사적 변종을 포함한 98개의 범유라시아 언어에 대해 254개의 기본 어휘 개념을 대표하는 3,193개의 데이터를 포함한 비교 데이터셋을 수집했다(보충 데이터 1). 이 개념들은 라이프치히–자카르타 200 목록[43]과 예나 200 목록[44]을 통합하여 기반을 두고 있다(보충 데이터 2). 튀르크어와 퉁구스어의 기본 어휘는 최근 발표된 데이터셋의 개정판을 기반으로 했다[45,46]. 동원어 코딩은 보충 데이터 2에 제시된 범유라시아 언어 전반의 기본 어휘 어원과 음운 대응 재고를 통해 지원된다.
We performed a Bayesian phylogenetic analysis with cognates encoded as binary data[47]. Because the data were collected such that at least one cognate was present, the data were ascertained to not contain any sites having all zeros. Ascertainment correction was applied to cater for this[47].
우리는 동원어를 이진 데이터로 코딩하여 베이지안 계통 분석을 수행했다[47]. 데이터는 최소한 하나의 동원어가 포함되도록 수집되었기 때문에, 모든 값이 0인 사이트는 포함되지 않도록 확인되었다. 이를 보완하기 위해 검증 보정(ascertainment correction)이 적용되었다[47].
We considered the following substitution models, which govern the evolutionary process of cognates along branches of a tree: continuous time Markov chain (CTMC), which assumes a constant rate of mutations; covarion, which assumes a slow and fast rate and the model switching between these two states; and the pseudo Dollo covarion model, which is based on the Dollo principle that a cognate can only appear once, but can be lost many times. Detailed descriptions of the CTMC and covarion models[47] and the pseudo Dollo covarion model[48] are available in the literature. For all models, we assume that each meaning class has its own relative rate to capture the variation between rates of evolution of different words.
우리는 계통수 가지를 따라 동원어의 진화 과정을 설명하는 다음의 치환 모델들을 고려했다. 연속 시간 마르코프 연쇄(CTMC)는 일정한 돌연변이율을 가정하며, 코바리온(covarion)은 느린 속도와 빠른 속도라는 두 상태 간 전환을 가정한다. 의사 돌로 코바리온 모델(pseudo Dollo covarion model)은 동원어가 한 번만 나타날 수 있지만 여러 번 소실될 수 있다는 돌로 원리에 기반한다. CTMC와 코바리온 모델[47], 의사 돌로 코바리온 모델[48]에 대한 자세한 설명은 관련 문헌에 제시되어 있다. 모든 모델에서 우리는 서로 다른 단어의 진화 속도 차이를 반영하기 위해 각 의미 범주가 고유한 상대적 속도를 가진다고 가정했다.
Although language evolves on average at a constant rate, we find that there can be considerable variation in rates between branches on a tree[47,48]. Such variation can be captured using the uncorrelated relaxed clock[49], assuming rates are log-normally distributed.
언어는 평균적으로 일정한 속도로 진화하지만, 계통수의 가지들 사이에서는 진화 속도가 상당히 다를 수 있음을 확인했다[47,48]. 이러한 변이는 속도가 로그 정규 분포를 따른다고 가정하여 비상관 완화 시계(uncorrelated relaxed clock)를 사용함으로써 포착할 수 있다[49].
A birth death model is used to describe the generative process of language creation. As the data contain ancient languages that may be ancestral to current languages, we allow the tree to have ancestral nodes. A fossilized birth death model[50], which allows such ancestral nodes, is used as prior on the tree. Language family node ages were informed by age priors (Japonic 2100 bp ± 175, Koreanic 800 bp ± 175, Turkic 2100 bp ± 175, Mongolic 750 bp ± 50, Tungusic 1900 bp ± 275). These calibrations are supported by chronological estimations proposed in linguistic literature (Supplementary Data 18). We found that these node age priors helped to reduce uncertainty slightly in the root age distribution.
언어 생성 과정을 설명하기 위해 출생-사망 모델(birth-death model)을 사용했다. 데이터에는 현재 언어의 조상이 될 수 있는 고대 언어가 포함되어 있으므로, 계통수에 조상 노드가 존재할 수 있도록 허용했다. 이러한 조상 노드를 허용하는 화석화된 출생–사망 모델(fossilized birth-death model)[50]을 계통수의 사전 확률로 사용했다. 언어 계통 노드의 연령은 다음과 같은 연령 사전값에 기반했다: 일본어족 2100년 전(bp) ± 175, 한국어족 800년 전(bp) ± 175, 튀르크어족 2100년 전(bp) ± 175, 몽골어족 750년 전(bp) ± 50, 퉁구스어족 1900년 전(bp) ± 275. 이러한 보정값은 언어학 문헌에서 제안된 연대 추정치를 바탕으로 한다(보충 데이터 18). 우리는 이러한 노드 연령 사전값이 계통수 뿌리 연령 분포의 불확실성을 약간 줄이는 데 도움이 되었음을 확인했다.
We compared the fit of different models by estimating the marginal likelihoods using nested sampling[51] (Supplementary Data 18), and conclude that the pseudo Dollo covarion model with a relaxed clock has the best fit, and covarion with relaxed clock the next best fit. Both models produce compatible time estimates, though covarion estimates tend to have larger uncertainty (that is, have larger 95% HPD intervals). Time estimates of the CTMC model with relaxed clock are still compatible but even wider, and tend to have a higher mean.
우리는 중첩 샘플링(nested sampling)[51]을 사용하여 주변 가능성(marginal likelihood)을 추정함으로써 다양한 모델의 적합성을 비교했다(보충 데이터 18). 그 결과, 완화 시계(relaxed clock)를 적용한 의사 돌로 코바리온 모델(pseudo Dollo covarion model)이 가장 적합하며, 완화 시계를 적용한 코바리온 모델(covarion with relaxed clock)이 그다음으로 적합하다는 결론에 도달했다. 두 모델 모두 유사한 시간 추정치를 산출하지만, 코바리온 모델의 경우 불확실성이 더 큰 경향이 있어(즉, 95% HPD 구간이 더 넓음) 의사 돌로 코바리온 모델보다 신뢰도가 낮다. 완화 시계가 적용된 CTMC 모델의 시간 추정치도 여전히 호환 가능하지만, 95% HPD 구간이 더 넓고 평균값이 더 높은 경향을 보였다.
All posterior estimates were performed using BEAST v.2.652 using adaptive coupled Markov chain Monte Carlo (MCMC)[53]. Detailed specification of the models, priors, hyperpriors and settings used to run these models can be found in the BEAST XML files (Supplementary Data 19). The results of our Bayesian analysis are visualized as a dated phylogenetic tree of the Transeurasian languages (Supplementary Data 24).
모든 사후 추정치는 BEAST v.2.6.5[52]를 사용하여 적응적 결합 마르코프 연쇄 몬테카를로(MCMC) 방법[53]으로 수행되었다. 이러한 모델을 실행하는 데 사용된 모델, 사전값(priors), 초사전값(hyperpriors), 설정에 대한 자세한 사양은 BEAST XML 파일에서 확인할 수 있다(보충 데이터 19). 우리의 베이지안 분석 결과는 범유라시아 언어의 시간 계통수로 시각화되었다(보충 데이터 24).
베이시언 계통지리학 Bayesian phylogeography
We assumed that the dispersal of people through Eurasia can be described as a random walk, so is best captured by diffusion on a sphere[54]. To get an impression about the uncertainty in locating origins by such model, we performed a post hoc analysis using the posterior tree set from the lexical analysis. We assigned point positions to the tips and randomly sampled trees from the posterior while estimating geographical parameters through MCMC. Even in this relatively restricted set-up, the uncertainty in root location does not allow us to distinguish the different geographical origin hypotheses. The results of our analysis are represented on a map (Supplementary Data 3). As Bayesian phylogeography must contend with a number of limitations[55,56], we complemented it with other homeland detection methods such as linguistic palaeontology and the diversity hotspot principle to reach a balanced location for the homelands of the root and nodes of the Transeurasian family (Supplementary Data 4).
우리는 유라시아 전역으로의 인구 확산이 무작위 보행(random walk)으로 설명될 수 있다고 가정했으며, 이는 구면(diffusion on a sphere) 상의 확산으로 가장 잘 포착된다고 보았다[54]. 이러한 모델로 기원의 위치를 추정할 때 발생하는 불확실성을 평가하기 위해, 어휘 분석에서 생성된 사후 계통수 집합을 사용하여 사후 분석(post hoc analysis)을 수행했다. 끝점(tips)에 점 위치를 할당하고, 사후에서 무작위로 계통수를 샘플링하며 MCMC를 통해 지리적 매개변수를 추정했다. 이처럼 상대적으로 제한된 설정에서도 뿌리 위치에 대한 불확실성으로 인해 서로 다른 지리적 기원 가설을 명확히 구별할 수는 없었다. 분석 결과는 지도 형태로 표현되었다(보충 데이터 3). 베이지안 계통지리학(Bayesian phylogeography)은 여러 제한 사항을 가지고 있기 때문에[55,56], 이를 보완하기 위해 언어 고생물학(linguistic palaeontology)과 다양성 집중지 원칙(diversity hotspot principle)과 같은 기원 탐지 방법을 추가로 적용하여 범유라시아 어족의 뿌리와 노드에 대한 균형 잡힌 기원지를 도출했다(보충 데이터 4).
언어학적 고생물학 Linguistic palaeontology
We compiled comparative agropastoral vocabularies for each Transeurasian subfamily: Turkic (Supplementary Data 5a), Mongolic (Supplementary Data 5b), Tungusic (Supplementary Data 5c), Koreanic (Supplementary Data 5d) and Japonic (Supplementary Data 5e). We applied linguistic reconstruction, a procedure for inferring an unattested ancestral state of a language on the evidence of data that are available from a later period, to corresponding words (Supplementary Data 5).
우리는 범유라시아 어족의 각 하위 계통에 대한 농업·목축 관련 어휘를 비교하여 수집했다: 튀르크어족(보충 데이터 5a), 몽골어족(보충 데이터 5b), 퉁구스어족(보충 데이터 5c), 한국어족(보충 데이터 5d), 일본어족(보충 데이터 5e). 이를 기반으로, 나중 시기의 데이터에 근거하여 언어의 미확인된 조상 상태를 추론하는 절차인 언어 재구성(linguistic reconstruction)을 해당 단어들에 적용했다(보충 데이터 5).
To distinguish between inherited and borrowed correspondence sets, we used standard criteria based on the phonology, semantics, morphology and distribution of the word involved, as specified in Supplementary Data 5. Dividing our dataset into inherited versus borrowed subsistence vocabulary, we determined distinctive spatiotemporal and cultural patterns for each category (Supplementary Data 5).
계승된 동원어와 차용된 동원어를 구별하기 위해, 우리는 보충 데이터 5에 명시된 바와 같이 단어의 음운, 의미, 형태, 분포를 기준으로 한 표준 기준을 사용했다. 생계 관련 어휘를 계승된 어휘와 차용된 어휘로 나누어 분석한 결과, 각 범주별로 뚜렷한 시공간적 및 문화적 패턴을 확인했다(보충 데이터 5).
We applied linguistic palaeontology to our subsistence vocabulary, a historical comparative method that enables us to study human prehistory by correlating our linguistic reconstructions with information from archaeology about the culture of the ancient speech communities that used these words. In this way, we drew inferences about the subsistence strategies available to speakers of the different Transeurasian proto-languages in the Neolithic and Bronze Age (Supplementary Data 5) and identified a plausible location for the homeland of the ancient speech communities involved (Supplementary Data 4).
우리는 생계 관련 어휘에 언어 고생물학(linguistic palaeontology)을 적용했다. 이는 언어 재구성과 고고학적 증거를 연계하여 고대 언어 공동체의 문화에 대한 정보를 통해 인간의 선사를 연구할 수 있는 역사비교언어학 방법이다. 이를 통해 신석기와 청동기 시대 범유라시아 원시 언어 화자들이 사용했던 생계 전략에 대한 추론을 도출하고(보충 데이터 5), 해당 고대 언어 공동체의 기원지로 적합한 위치를 확인했다(보충 데이터 4).
다양성 중심지 원칙 Diversity hotspot principle
To estimate the location of the ancient speech communities involved, we combined Bayesian phylogeography and linguistic palaeontology with the diversity hotspot principle. The principle is based on the assumption that the homeland is closest to the greatest diversity with regard to the deepest subgroups of the language family. We located these areas on the map and took them as an approximation of the area where a certain proto-language began to diversify (Supplementary Data 4). Although this method must contend with certain limitations (Supplementary Data 4), taken together with the other techniques for homeland location discussed here, it can give us a reasonably robust estimation of the location of an ancient speech community.
고대 언어 공동체의 위치를 추정하기 위해, 우리는 베이지안 계통지리학과 언어 고고학을 다양성 집중지 원칙(diversity hotspot principle)과 결합했다. 이 원칙은 언어 계통의 가장 깊은 하위 그룹들에 대한 최대 다양성에 가장 가까운 지역이 기원지일 가능성이 높다는 가정에 기반한다. 우리는 이러한 지역들을 지도에 표시하고, 특정 원시 언어가 분화되기 시작한 지역의 근사치로 간주했다(보충 데이터 4). 비록 이 방법이 특정 제한 사항을 고려해야 하지만(보충 데이터 4), 여기서 논의된 다른 기원지 추정 기법들과 결합하면, 고대 언어 공동체의 위치에 대해 비교적 신뢰할 수 있는 추정을 제공할 수 있다.
고고학 Archaeology
고고학 데이터베이스 Archaeological database
We scored 172 cultural traits for 255 Neolithic–Bronze Age archaeological sites or phases from the West Liao river basin (36), the Amur (Jilin, Heilongjiang and inland Liaoning) (32), the Primorye (4), the Liaodong peninsula (37), the eastern steppes (1), the Shandong peninsula (4), the Yellow River basin (2), the Korean peninsula (58) and the Japanese islands (85).
우리는 서요하西遼河 유역(36), 아무르(길림吉林, 흑룡강黑龍江 및 요녕遼寧 내륙)(32), 연해주(4), 요동遼東 반도(37), 동부 스텝(1), 산동山東 반도(4), 황하黃河 유역(2), 한반도(58), 일본 열도(85)의 신석기~청동기 시대 고고학적 유적 또는 시기에서 총 255개 유적에 대해 172개의 문화적 특성을 분석했다.
Sites with several major cultural phases were scored separately. The sites date from 8400–1700 bp and include the Early Neolithic to Bronze Age in northeast China, the Middle Neolithic Zaisanovka culture in the Primorye, the Middle–Late Neolithic Chulmun and Bronze Age Mumun cultures in Korea, and the Late Neolithic–Bronze Age Final Jomon and Yayoi cultures in western Japan. Categories of cultural traits scored comprised ceramics (70), stone tools (38), buildings (9), plant and animal remains (26), shell and bone artefacts (17) and burials (12). Definitions of scored features are found in Supplementary Data 6 (sheet 2) and further discussion of scoring methods can be found in Supplementary Data 7. All features were scored as present (1) or absent (0) following published site reports or other literature.
여러 주요 문화 단계가 있는 유적은 각각 별도로 평가되었다. 유적의 연대는 8400년 전(bp)부터 1700년 전(bp)까지로, 중국 동북부의 초기 신석기부터 청동기 시대, 연해주의 중기 신석기 자이사노브카 문화, 한반도의 중·후기 신석기 즐문櫛文 문화와 청동기 시대 무문無文토기 문화, 일본 서부의 후기 신석기~청동기 시대 후기 조몬繩文 및 야요이彌生 문화를 포함한다. 평가된 문화적 특성 범주는 도자기(70), 석기(38), 건축물(9), 식물 및 동물 유물(26), 패각 및 골기 유물(17), 매장(12)이다. 평가된 특징의 정의는 보충 데이터 6(시트 2)에 있으며, 평가 방법에 대한 추가 논의는 보충 데이터 7에서 찾을 수 있다. 모든 특징은 발굴 보고서나 기타 문헌에 따라 존재(1) 또는 부재(0)로 기록되었다.
The database was used to analyse changes in the distribution of Neolithic and Bronze Age artefacts over time, especially in relation to the spread of agricultural systems in Northeast Asia (Supplementary Data 7).
이 데이터베이스는 신석기 및 청동기 시대 유물의 분포 변화를 분석하는 데 사용되었으며, 특히 동북아시아 농업 시스템의 확산과 관련된 변화를 중점적으로 다루었다(보충 데이터 7).
In addition, the cultural data in our archaeological database were analysed using Bayesian phylogenetic methods. There is a large amount of phylogenetic work with archaeological data[57], some parsimony-based[58], others distance-based[59]. The benefit of Bayesian approaches is that they are model-based, have sound formal mathematical foundations in probability theory allowing us to estimate uncertainty around all estimates, and allow integration of information from various sources in a single analysis (like cognate and geographic data) based on probability theory. BEAST is aimed specifically at inferring rooted time trees, and uncertainty of time estimates, which sets it apart from other Bayesian packages that target unrooted trees. Furthermore, BEAST supports models that are currently not available in other packages, hence the use of this package.
추가적으로, 우리의 고고학 데이터베이스에 포함된 문화 데이터는 베이지안 계통학적 방법으로 분석되었다. 고고학 데이터를 활용한 계통학적 작업은 상당히 많으며[57], 일부는 최대 절약법(parsimony-based)[58], 다른 일부는 거리 기반(distance-based)[59] 접근법을 사용한다. 베이지안 접근법의 장점은 모델 기반이며, 확률 이론에 기반한 견고한 수학적 기초를 가지고 있어 모든 추정치에 대한 불확실성을 추정할 수 있으며, 확률 이론을 기반으로 다양한 출처(예: 동원어 및 지리적 데이터)로부터 정보를 단일 분석에 통합할 수 있다는 것이다. BEAST는 뿌리를 가진 시간 계통수와 시간 추정의 불확실성을 추론하는 데 특화되어 있으며, 이는 뿌리가 없는 계통수를 대상으로 하는 다른 베이지안 패키지와의 차별점이다. 게다가, BEAST는 현재 다른 패키지에서 사용할 수 없는 모델을 지원하므로 이 패키지가 사용되었다.
The cultural data are encoded as a binary alignment, and we applied the same substitution and clock models as for the lexical data. The pseudo Dollo model with relaxed clock fits the data best (Supplementary Data 20). Because the coefficient of variation of the relaxed clock exceeded 1, which indicates a considerable amount of variation, we also ran the analysis with the standard deviation capped at 1, which only slightly affected time estimates.
문화 데이터는 이진 정렬(binary alignment)로 코딩되었으며, 어휘 데이터와 동일한 치환 및 시계 모델을 적용했다. 완화 시계(relaxed clock)를 적용한 의사 돌로 모델(pseudo Dollo model)이 데이터에 가장 적합했다(보충 데이터 20). 완화 시계의 변동 계수가 1을 초과해 상당한 변동성을 나타내므로, 표준 편차를 1로 제한한 상태로도 분석을 수행했다. 이는 시간 추정치에 약간의 영향을 미칠 뿐이었다.
The large number of sampling dates and uncertainty on number of missing cultures made it hard to apply the fossilized birth death prior, so we opted for the flexible Bayesian skyline plot instead[60]. Timing information is based on sampling dates of archaeological finds. As there is uncertainty in dating these findings, tip dates were uniformly sampled in these intervals during the MCMC. In line with previous archaeological studies[61,62,63], we constrained the clades ‘Xinglongwa–Zhabaogou–Hongshan’ and ‘Yabuli–Primorye’ to be monophyletic (Supplementary Data 8). All analyses were performed in BEAST v.2.652 using adaptive coupled MCMC[53]. Details on models, priors, hyperpriors and settings can be found in the BEAST XML (Supplementary Data 21). The results of our Bayesian analysis are visualized as a phylogenetic tree of archaeological cultures in Northeast Asia (Supplementary Data 25) and interpreted in Supplementary Data 8.
표본화된 날짜의 수가 많고 누락된 문화의 수에 대한 불확실성이 커서 화석화된 출생-사망 사전(fossilized birth-death prior)을 적용하기 어려웠으므로, 대신 유연한 베이지안 스카이라인 플롯(Bayesian skyline plot)을 선택했다[60]. 시간 정보는 고고학적 발견물의 표본화된 날짜를 기반으로 한다. 이러한 발견물의 연대 추정에는 불확실성이 있으므로, MCMC 과정에서 끝점 날짜를 해당 간격 내에서 균등하게 표본화했다. 기존 고고학 연구[61,62,63]에 따라, ‘흥륭와興隆窪–조보구趙寶溝–홍산紅山(Xinglongwa–Zhabaogou–Hongshan)’과 ‘야불리–연해주(Yabuli–Primorye)’ 계통군이 단일계통군(monophyletic)을 이루도록 제한을 두었다(보충 데이터 8). 모든 분석은 BEAST v.2.6.5[52]에서 적응적 결합 MCMC(adaptive coupled MCMC)[53]를 사용해 수행되었다. 모델, 사전값(priors), 초사전값(hyperpriors), 설정에 대한 세부 정보는 BEAST XML 파일에 나와 있다(보충 데이터 21).
우리의 베이지안 분석 결과는 동북아시아 고고학적 문화의 계통수로 시각화되었으며(보충 데이터 25), 보충 데이터 8에서 해석되었다.
고고식물학 데이터베이스 Archaeobotanical database
In addition to the database of archaeological features, we compiled a list of the earliest crop remains from each region of Northeast Asia directly dated by radiocarbon (Supplementary Data 9). This list comprises 269 samples (China, 82; Primorye, 12; Korea, 31; Japan (excluding Ryukyus), 120; Ryukyu Islands, 24). Radiocarbon dates in this database were re-calibrated using OxCal v.4.4. We used kernel density mapping to plot the spread of cereals in this database over time Supplementary Data 7). Our databases were supplemented by published datasets for faunal remains[64,65], dolmens[66] and spindle whorls[67].
고고학적 특징 데이터베이스 외에도, 동북아시아 각 지역에서 방사성 탄소 연대 측정을 통해 직접 연대를 추정한 초기 작물 유물 목록을 작성했다(보충 데이터 9). 이 목록은 총 269개의 표본으로 구성되어 있으며, 중국 82개, 연해주 12개, 한국 31개, 일본(류큐琉球 제외) 120개, 류큐琉球 열도 24개를 포함한다. 이 데이터베이스의 방사성 탄소 연대는 OxCal v.4.4를 사용해 재보정되었다. 우리는 커널 밀도 매핑(kernel density mapping)을 사용해 이 데이터베이스에 포함된 곡물의 시간에 따른 확산을 시각화했다(보충 데이터 7). 또한, 우리의 데이터베이스는 기존에 발표된 동물 유물 데이터셋[64,65], 고인돌[66], 방추차(spindle whorls)[67] 관련 데이터로 보완되었다.
유전학 Genetics
실험실 절차 Laboratory procedures
Ancient DNA wet laboratory work, including DNA extraction and library preparation, was performed in a dedicated ancient DNA clean room facility at the Max Planck Institute for the Science of Human History (MPI-SHH) and in an ancient DNA laboratory at Jilin University following established protocols[68]. A double-stranded library was built with 8-mer index sequences at both P5 and P7 Illumina adapters. Four individuals from China characterized in Jilin were directly shotgun-sequenced on the Illumina HiSeq X10 instrument in the 150-bp paired-end sequencing design to obtain an adequate coverage. Eighty-three double-stranded libraries for 33 individuals from Korea and Japan were generated and characterized in the MPI-SHH either by shotgun sequencing or by insolution capture at approximately 1.2 million informative nuclear single-nucleotide polymorphisms (SNPs). After initial screening of the preservation of those libraries, a further 108 single-stranded libraries were built aiming at retrieving more endogenous DNA from the samples, and again, those libraries were directly shotgun-sequenced and in-solution-captured at around 1.2 million SNPs (Supplementary Data 17) and sequenced on the Illumina HiSeq 4000 platform following the manufacturer’s protocols.
고대 DNA 실험실 작업은 막스 플랑크 인간 역사 과학 연구소(MPI-SHH)의 고대 DNA 전용 클린룸 시설과 길림吉林대학의 고대 DNA 실험실에서 수행되었으며, 확립된 프로토콜을 따랐다[68]. P5와 P7 Illumina 어댑터 양쪽에 8-mer 인덱스 서열을 포함한 이중 가닥 라이브러리가 구축되었다. 길림吉林대학에서 분석된 중국의 4개 개체는 Illumina HiSeq X10 기기로 150-bp 페어-엔드 시퀀싱 설계로 직접 샷건 시퀀싱이 진행되어 적절한 커버리지를 확보했다. 한국과 일본의 33개 개체에 대해 MPI-SHH에서 이중 가닥 라이브러리 83개가 생성되었으며, 샷건 시퀀싱 또는 약 120만 개의 유의미한 핵 단일염기 다형성(SNP)에 대한 인솔루션 캡처(in-solution capture) 방식으로 특성화되었다. 해당 라이브러리의 보존 상태를 초기 검토한 후, 샘플에서 더 많은 내인성 DNA를 확보하기 위해 단일 가닥 라이브러리 108개가 추가로 구축되었다. 이 라이브러리 역시 샷건 시퀀싱 및 약 120만 개의 SNP에 대한 인솔루션 캡처 방식으로 특성화되었으며(보충 데이터 17), 제조사의 프로토콜에 따라 Illumina HiSeq 4000 플랫폼에서 시퀀싱되었다.
시퀀스 데이터 처리 Sequence data processing
Raw sequencing reads were processed by an automated workflow with the EAGER v.1.92.55 programme[69]. Illumina adapter sequences were trimmed from the sequencing data and overlapping pairs were merged with AdapterRemoval v.2.2.070. We mapped the merged reads with a minimum of 30 bp to the human reference genome (hs37d[5]; GRCh[37] with decoy sequences) using BWA v.0.7.1271. We removed PCR duplicates by DeDup v.0.12.260. To minimize the effect of post-mortem DNA damage on genotyping, we masked 2 bp for nonUDG libraries and 10 bp for half-UDG libraries on both ends per read using the trimbam function on bamUtils v.1.0.1372. The cleaned reads with both base quality (Phred-scale quality) and mapping quality (Phred-scale mapping quality) over 30 were piled up by SAMtools 1.360 with the mpileup function. We called pseudo-diploid genotypes using the pileupCaller program (https://github.com/stschiff/sequenceTools) against SNPs in the ‘1240k’ panel[73,74] under the random haploid calling mode. For C/T and G/A SNPs, we used the masked BAM files; for the rest we used the original unmasked BAM files.
원시 시퀀싱 리드는 EAGER v.1.92.55 프로그램[69]을 사용한 자동화된 워크플로우로 처리되었다. Illumina 어댑터 서열은 시퀀싱 데이터에서 제거되었고, AdapterRemoval v.2.2.0[70]을 사용해 겹치는 쌍이 병합되었다. 병합된 리드는 최소 30 bp 이상을 BWA v.0.7.12[71]를 이용해 인간 참조 유전체(hs37d[5]; GRCh[37], 데코이 서열 포함)에 매핑했다. PCR 중복은 DeDup v.0.12.2[60]를 사용해 제거했다. 유전체형 분석에서 사후 손상된 DNA의 영향을 최소화하기 위해, bamUtils v.1.0.13[72]의 trimbam 기능을 이용해 비-UDG(non-UDG) 라이브러리는 읽기당 양쪽 끝에서 2 bp, 반-UDG(half-UDG) 라이브러리는 10 bp를 마스킹했다. 품질 점수(Phred 품질)와 매핑 품질(Phred 매핑 품질) 모두 30 이상인 정제된 리드는 SAMtools 1.3[60]의 mpileup 기능을 사용해 정리되었다. ‘1240k’ 패널[73,74] 내 SNP를 기준으로 pileupCaller 프로그램(https://github.com/stschiff/sequenceTools)을 사용해 랜덤 단일배체(random haploid) 호출 모드로 의사이배체(pseudo-diploid) 유전체형을 호출했다. C/T 및 G/A SNP의 경우, 마스킹된 BAM 파일을 사용했으며, 나머지 SNP의 경우 원본 비마스킹 BAM 파일을 사용했다.
참조 데이터셋 Reference datasets
We compared our ancient individuals to three sets of world-wide genotype panels, one based on the Affymetrix HumanOrigins Axiom Genome-wide Human Origins 1 array (‘HumanOrigins’; 593,124 autosomal SNPs)[75], the ‘1240k’ panel[73], and the ‘Illumina’ dataset[76]. We augmented these datasets by adding the Simons Genome Diversity Panel[77] and published ancient genomes (Supplementary Data 11).
우리는 고대 개체를 다음 세 가지 전 세계 유전체형 패널과 비교했다: Affymetrix HumanOrigins Axiom Genome-wide Human Origins 1 배열을 기반으로 한 ‘HumanOrigins’ 패널(593,124개의 상염색체 SNP 포함)[75], ‘1240k’ 패널[73], 그리고 ‘Illumina’ 데이터셋[76]. 여기에 Simons Genome Diversity Panel[77]과 기존에 발표된 고대 유전체 데이터를 추가하여 데이터셋을 확장했다(보충 데이터 11).
고대 DNA 인증 Ancient DNA authentication
We applied multiple criteria to confirm the authentication of the newly published ancient genomes from Korea and Japan. First, we characterized the post-mortem chemical modifications characteristic for ancient DNA using mapDamage v.2.0.678. Second, we estimated mitochondrial contamination rates for all individuals using Schmutzi v.1.5.179. Third, we measured the nuclear genome contamination rate in males on the basis of X chromosome data as implemented in ANGSD v.0.91080. As males have only a single copy of the X chromosome, mismatches between bases, aligned to the same polymorphic position, beyond the level of sequencing error are considered as evidence of contamination. Fourth, we assessed the potential West Eurasian contamination with all reads available and the damage-restricted reads on single-stranded libraries implemented in the PMDtools[81] with a PMD score of at least 3 and compared their positions in a Eurasia PCA with all reads and damaged reads alone. Fifth, we applied qpAdm[74] per individual to further characterize the West Eurasian contamination with West Eurasian characteristic groups such as Sintashta_MLBA or LBK_EN as sources (see Supplementary Data 17, 22 for details).
우리는 한국과 일본에서 새롭게 발표된 고대 유전체의 인증을 확인하기 위해 여러 기준을 적용했다. 첫째, mapDamage v.2.0.6[78]을 사용하여 고대 DNA에 특징적인 사후 화학적 변형을 분석했다. 둘째, Schmutzi v.1.5.1[79]을 사용하여 모든 개체의 미토콘드리아 오염률을 추정했다. 셋째, ANGSD v.0.910[80]에서 구현된 X 염색체 데이터를 기반으로 남성 개체의 핵 유전체 오염률을 측정했다. 남성은 X 염색체를 하나만 가지므로, 동일한 다형적 위치에 정렬된 염기 사이의 불일치가 시퀀싱 오류를 넘어서는 경우 이를 오염의 증거로 간주했다. 넷째, 단일 가닥 라이브러리에서 PMDtools[81]로 구현된 모든 리드와 손상 제한 리드를 사용하여 서유라시아 오염 가능성을 평가했으며, PMD 점수가 최소 3인 리드를 사용하고, 유라시아 PCA에서 모든 리드와 손상 리드만 사용한 결과를 비교했다. 다섯째, qpAdm[74]을 각 개체에 적용하여 Sintashta_MLBA 또는 LBK_EN과 같은 서유라시아 특성 그룹을 소스로 사용해 서유라시아 오염을 추가로 특성화했다(자세한 내용은 보충 데이터 17, 22 참조).
인구 구조 분석 Population structure analysis
We performed a PCA with the smartpca v.1600082 using a set of 2,077 present-day Eurasian individuals from the ‘HumanOrigins’ dataset and the ‘1240kIllumina’ dataset with the option ‘lsqproject: YES’ and ‘shrinkmode: YES’. We used outgroup-f3 statistics[83,84] to obtain a measurement of genetic affinity between two populations since their divergence from an African outgroup. We calculated f4 statistics with the ‘f4mode: YES’ function in admixtools[31]. Both f3 and f4 statistics were calculated using qp3Pop v.435 and qpDstat v.755 in the admixtools package.
우리는 smartpca v.16000[82]를 사용해 PCA를 수행했으며, ‘HumanOrigins’ 데이터셋과 ‘1240kIllumina’ 데이터셋에서 2,077명의 현대 유라시아인을 포함했다. 이 과정에서 lsqproject: YES 및 shrinkmode: YES 옵션을 사용했다. 두 인구가 아프리카 외집단에서 분화한 이후의 유전적 친연성을 측정하기 위해 outgroup-f3 통계[83,84]를 사용했다. 또한 admixtools v.3.1의 f4mode: YES 기능을 사용해 f4 통계를 계산했다. f3 통계는 qp3Pop v.435, f4 통계는 qpDstat v.755를 사용해 admixtools 패키지에서 계산했다.
유전적 성별 판별 및 단일 부모 계통군 할당 Genetic sexing and uniparental haplogroup assignment
We determined the molecular sex of our ancient samples by comparing the ratio of X and Y chromosome coverages to autosomes[85]. For women, we would expect an approximately even ratio of X to autosome coverage and a Y ratio of 0. For men we would expect roughly half of the coverage on X and Y than autosomes.
우리는 고대 샘플의 분자적 성별을 X와 Y 염색체의 커버리지를 상염색체와 비교하여 결정했다[85]. 여성의 경우, X 염색체와 상염색체 커버리지의 비율이 대략 동일하고 Y 염색체의 비율은 0일 것으로 예상된다. 남성의 경우, X와 Y 염색체의 커버리지가 상염색체의 약 절반 정도일 것으로 예상된다.
qpAdm을 사용한 혼합 모델링 Admixture modelling with qpAdm
We modelled the ancient individuals in this study using the qpWave/qpAdm framework (qpWave v.410 and qpAdm v.810) in the admixtools v.5.1 package[74]. We used the following 7 populations in ‘1240k’ datasets as outgroup (‘OG’): Mbuti, Onge, Iran_N, Villabruna, Karitiana, Naxi and Funadomari Jomon. This set includes an African outgroup (Mbuti), Andamanese islanders (Onge), early Neolithic Iranians from the Tepe Ganj Dareh site (Iran_N), late Pleistocene European hunter-gatherers (Villabruna), indigenous Karitiana from Brazil, a Tibetan-Burman speaking group from southern China (Naxi) and ancient hunter-gatherers from Japan (Funadomari Jomon) (Supplementary Data 13, 16).
우리는 admixtools v.5.1 패키지[74]의 qpWave/qpAdm 프레임워크(qpWave v.410 및 qpAdm v.810)를 사용하여 본 연구의 고대 개체를 모델링했다. 우리는 ‘1240k’ 데이터셋에서 다음 7개 집단을 외집단(‘OG’)으로 사용했다: 음부티(Mbuti), 온게(Onge), 이란_N(Iran_N), 빌라브루나(Villabruna), 카리티아나(Karitiana), 낙시(Naxi), 후나도마리 조몬繩文(Funadomari Jomon). 이 집단들은 아프리카 외집단(음부티), 안다만 제도 원주민(온게), 테페 간즈다레(Tepe Ganj Dareh) 유적의 초기 신석기 이란인(이란_N), 후기 플라이스토세 유럽 수렵채집인(빌라브루나), 브라질 원주민 카리티아나(카리티아나), 중국 남부 티베트-버마어 화자 집단(낙시), 일본의 고대 수렵채집인(후나도마리 조몬繩文)을 포함한다(보충 데이터 13, 16 참조).
삼각측량 Triangulation
The term ‘triangulation’ is borrowed from a navigational technique that determines a single point in space with the convergence of measurements taken from two other distinct points. In qualitative research it designates a method used to capture different dimensions of the same phenomenon by using evidence from three distinct scientific disciplines. To avoid circularity in the argumentation, data collection, analyses and results are performed or reached within the limits of each individual discipline, independently from the other two. Only in the final phase of the triangulation process are the inferences drawn by the three disciplines mapped on each other by comparing a number of variables describing the phenomenon. The purpose of triangulation is to increase the credibility and validity of the results by evaluating the extent to which the evidence from the three disciplines converges and by identifying correlations, inconsistencies, uncertainties and potential biases across the different perspectives on the investigated phenomena.
‘삼각측량(triangulation)’이라는 용어는 두 개의 서로 다른 지점에서 측정값이 수렴하여 공간 내의 단일 지점을 결정하는 항법 기술에서 차용되었다. 질적 연구에서 이는 세 가지 서로 다른 과학적 학문 분야의 증거를 사용하여 동일한 현상의 다양한 차원을 포착하는 데 사용하는 방법을 지칭한다. 논증 과정에서 순환 논리를 피하기 위해, 데이터 수집, 분석, 결과 도출은 각 개별 학문 분야의 한계 내에서 다른 두 학문 분야와 독립적으로 수행된다. 삼각측량 과정의 마지막 단계에서야, 세 학문 분야가 도출한 추론을 서로 비교하여 현상을 설명하는 여러 변수를 대조함으로써 연결한다. 삼각측량의 목적은 세 학문 분야의 증거가 수렴하는 정도를 평가하고, 조사된 현상에 대한 서로 다른 관점 간의 상관관계, 불일치, 불확실성 및 잠재적 편향을 식별함으로써 결과의 신뢰성과 타당성을 높이는 것이다.
Building on previous applications of triangulation in anthropology[86], we applied the method to the dispersal of the Transeurasian languages, integrating linguistics, archaeology and genetics to contribute a better understanding of the phenomenon. We collected different datasets and applied the methods described above to draw independent inferences with regard to a number of variables such as location, chronology, migratory dynamics, continuity versus diffusion, and subsistence (Supplementary Data 26). Each discipline inferred the most parsimonious model involving these variables on the basis of the application of tools internal to its own field, whether qualitative or quantitative, based on direct or indirect evidence. Taken by itself, a single discipline alone cannot conclusively resolve the question about farming/language dispersals, but taken together the three disciplines increase the credibility and validity of this scenario. Aligning the evidence offered by the three disciplines, we gained a more balanced and richer understanding of Transeurasian migration than each of the three disciplines could provide us with individually.
인류학에서 삼각측량을 적용한 이전 연구를 바탕으로[86], 우리는 이 방법을 범유라시아 언어의 확산에 적용하여 언어학, 고고학, 유전학을 통합함으로써 이 현상에 대한 더 나은 이해를 도모했다. 우리는 서로 다른 데이터셋을 수집하고 앞서 설명한 방법을 적용하여 위치, 연대, 이주 동태, 연속성 대 확산, 생계와 같은 여러 변수에 대해 독립적인 추론을 도출했다(보충 데이터 26). 각 학문 분야는 직접적 또는 간접적 증거를 기반으로, 질적 또는 양적 도구를 활용하여, 해당 분야 내부에서 가장 간단한 모델을 추론했다. 단일 학문 분야만으로는 농업/언어 확산에 대한 질문을 결정적으로 해결할 수 없지만, 세 학문 분야를 결합하면 이 시나리오의 신뢰성과 타당성을 높일 수 있다. 세 학문 분야에서 제공된 증거를 정렬함으로써, 각 학문 분야가 개별적으로 제공할 수 있는 것보다 더 균형 있고 풍부한 범유라시아 이주에 대한 이해를 얻을 수 있었다.
Reporting summary
Further information on research design is available in the Nature Research Reporting Summary linked to this paper.
연구 설계에 대한 추가 정보는 이 논문에 연결된 Nature Research Reporting Summary에서 확인할 수 있다.
Data availability
Linguistic and archaeological datasets are available through the Supplementary Information. Files that require applications were uploaded to FigShare. The links to FigShare are as follows: Supplementary Data 3: Bayesian phylogeographic analysis modelling the spatiotemporal expansion of the Transeurasian languages (https://figshare.com/s/b9c67ca3ea47faf51d%5B48%5D); Supplementary Data 19: BEAST XML files specifying the models, priors, hyperpriors and settings used to run the analyses of the linguistic database (https://figshare.com/s/748bf751fe3ba7752046); Supplementary Data 21: BEAST XML files specifying the models, priors, hyperpriors and settings used to run the analyses of the archaeological database (https://figshare.com/s/99f5aab9a2e43eb2ffd%5B4%5D); Supplementary Data 24: dated Bayesian phylogeny of the Transeurasian languages (https://figshare.com/s/709f239fa45982911b%5B87%5D); and Supplementary Data 25: Bayesian phylogenetic analysis of the archaeological database (https://figshare.com/s/65615dddc0817bc0184f). The link to the figtree application is: https://github.com/rambaut/figtree/releases/tag/v%5B1%5D.4.3 For our genetic datasets, the DNA sequences reported in this paper have been deposited in the European Nucleotide Archive (ENA) under accession PRJEB46162. Haploid genotype data of ancient individuals in this study on the ‘1240k’ panel are available in the EIGENSTRAT format from the following link: https://edmond.mpg.de/.
언어학 및 고고학 데이터셋은 보충 정보를 통해 제공된다. 응용 프로그램이 필요한 파일은 FigShare에 업로드되었으며, 링크는 다음과 같다:
보충 데이터 3: 범유라시아 언어의 시공간 확산을 모델링한 베이지안 계통지리 분석
https://figshare.com/s/b9c67ca3ea47faf51d[48]
보충 데이터 19: 언어 데이터베이스 분석에 사용된 모델, 사전값, 초사전값 및 설정을 명시한 BEAST XML 파일
https://figshare.com/s/748bf751fe3ba7752046
보충 데이터 21: 고고학 데이터베이스 분석에 사용된 모델, 사전값, 초사전값 및 설정을 명시한 BEAST XML 파일
https://figshare.com/s/99f5aab9a2e43eb2ffd[4]
보충 데이터 24: 범유라시아 언어의 연대 베이지안 계통수
https://figshare.com/s/709f239fa45982911b[87]
보충 데이터 25: 고고학 데이터베이스의 베이지안 계통 분석
https://figshare.com/s/65615dddc0817bc0184f
figtree 애플리케이션 링크:
https://github.com/rambaut/figtree/releases/tag/v[1].4.3
유전체 데이터셋의 경우, 본 논문에 보고된 DNA 서열은 European Nucleotide Archive (ENA)에 PRJEB46162 접근번호로 등록되었다.
이 연구의 고대 개체에 대한 ‘1240k’ 패널의 단일배체 유전체형 데이터는 EIGENSTRAT 형식으로 다음 링크에서 제공된다:
https://edmond.mpg.de/
Code availability
Readers can access the code that underlies our Bayesian analyses of linguistic and cultural datasets through the Supplementary Information. The files in Supplementary Data 19 relate to languages and those in Supplementary Data 21 to cultures. The web-links are: Supplementary Data 19: BEAST XML files specifying the models, priors, hyperpriors and settings used to run the analyses of the linguistic database (https://figshare.com/s/748bf751fe3ba7752046); Supplementary Data 21: BEAST XML files specifying the models, priors, hyperpriors and settings used to run the analyses of the archaeological database (https://figshare.com/s/99f5aab9a2e43eb2ffd%5B4%5D).
독자들은 우리의 언어 및 문화 데이터셋에 대한 베이지안 분석의 기반이 되는 코드를 보충 정보를 통해 액세스할 수 있다. 보충 데이터 19는 언어와 관련된 파일이며, 보충 데이터 21은 문화와 관련된 파일이다. 웹 링크는 다음과 같다:
보충 데이터 19: 언어 데이터베이스 분석에 사용된 모델, 사전값, 초사전값 및 설정을 명시한 BEAST XML 파일 https://figshare.com/s/748bf751fe3ba7752046
보충 데이터 21: 고고학 데이터베이스 분석에 사용된 모델, 사전값, 초사전값 및 설정을 명시한 BEAST XML 파일 https://figshare.com/s/99f5aab9a2e43eb2ffd[4]
References
- Starostin, S., Dybo, A. & Mudrak, O. Etymological Dictionary of the Altaic Languages Vol. I– III (Brill, 2003).
- Blažek, V. Altaic Languages. History of Research, Survey, Classification and a Sketch of Comparative Grammar (Masaryk Univ. Press, 2019).
- Robbeets, M. in The Oxford Guide to the Transeurasian Languages (eds Robbeets, M. & Savelyev, A.) 772–783 (Oxford Univ. Press, 2020).
- Mallory, J., Dybo, A. & Balanovsky, O. The impact of genetics research on archaeology and linguistics in Eurasia. Russ. J. Genet. 55, 1472–1487 (2019).
- Bellwood, P. & Renfrew, C. (eds) Examining the Farming/Language Dispersal Hypothesis (McDonald Institute for Archaeological Research, 2002).
- Menges, K. Dravidian and Altaic. Anthropos 72, 129–179 (1977).
- Miller, R. A. Archaeological light on Japanese linguistic origins. Asian Pac. Quart. Soc. Cult. Affairs 22, 1–26 (1990).
- Dybo, A. Language and archeology: some methodological problems. 1. Indo-European and Altaic landscapes. J. Language Relationship 9, 69–92 (2013).
- Haak, W. et al. Massive migration from the steppe was a source for Indo-European languages in Europe. Nature 522, 207–211 (2015).
- Allentoft, M. et al. Population genomics of Bronze Age Eurasia. Nature 522, 167–172 (2015).
- Damgaard, P. et al. The first horse herders and the impact of early Bronze Age steppe expansions into Asia. Science 360, eaar7711 (2018).
- Ning, C. et al. Ancient genomes from northern China suggest links between subsistence changes and human migration. Nat. Commun. 11, 2700 (2020).
- Wang, C. C. et al. Genomic insights into the formation of human populations in East Asia. Nature 591, 413–419 (2021).
- Yang, M. A. et al. Ancient DNA indicates human population shifts and admixture in northern and southern China. Science 369, 282–288 (2020).
- Francis-Ratte, A. & Unger, J. M. in The Oxford Guide to the Transeurasian Languages (eds Robbeets, M. & Savelyev, A.) 705–714 (Oxford Univ. Press, 2020).
- Anderson, G. in The Oxford Guide to the Transeurasian Languages (eds Robbeets, M. & Savelyev, A.) 715–725 (Oxford Univ. Press, 2020).
- Vajda, E. in The Oxford Guide to the Transeurasian Languages (eds Robbeets, M. & Savelyev, A.) 726–734 (Oxford Univ. Press, 2020).
- Robbeets, M. Is Japanese related to Korean, Tungusic, Mongolic and Turkic? (Harrassowitz, 2005).
- Robbeets, M. Diachrony of Verb Morphology: Japanese and the Transeurasian languages (Vol. 291 in Trends in Linguistics. Studies and Monographs) (Mouton de Gruyter, 2015).
- Heggarty, P. & Beresford-Jones, D. in Encyclopedia of Global Archaeology (ed. Smith, C.) 1–9 (Springer, 2014).
- Bellwood, P. First Farmers: The Origins of Agricultural Societies (Blackwell, 2005).
- Starostin, S. in Past Human Migrations in East Asia: Matching Archaeology, Linguistics and Genetics (eds Sanchez-Mazas, A. et al.) 254–262 (Routledge, 2008).
- Ramstedt, G. J. A Comparison of the Altaic Languages with Japanese. Trans. Asiatic Soc. Japan Second Ser. 7, 41–54 (1924).
- Kæmpfer, E. De Beschryving van Japan, benevens eene Beschryving van het Koningryk Siam (Balthasar Lakeman, 1729).
- Crawford, G. W. in Handbook of East and Southeast Asian Archaeology (eds Habu, J., Lape, P.V. & Olsen, J.W.) 421–435 (Springer, 2018).
- Stevens, C. & Fuller, D. The spread of agriculture in eastern Asia: archaeological bases for hypothetical farmer/language dispersals. Lang. Dyn. Chang. 7, 152–186 (2017).
- Leipe, C. et al. Discontinuous spread of millet agriculture in eastern Asia and prehistoric population dynamics. Sci. Adv. 5, eaax6225 (2019).
- Stevens, C. et al. A model for the domestication of Panicum miliaceum (common, proso or broomcorn millet) in China. Veget. Hist. Archaeobot. 30, 21–33 (2021).
- Shelach-Lavi, G. et al. Sedentism and plant cultivation in northeast China emerged during affluent conditions. PLoS ONE 14, e0218751 (2019).
- Lee, G. A. in Handbook of East and Southeast Asian Archaeology (eds Habu, J., Lape, P. & Olsen, J.) 451–481 (Springer, 2017).
- Li, T. et al. Millet agriculture dispersed from Northeast China to the Russian Far East: integrating archaeology, genetics and linguistics. Archaeol. Res. Asia 22, 100177 (2020).
- Nelson, S. M. et al. Tracing population movements in ancient East Asia through the linguistics and archaeology of textile production. Evol. Hum. Sci. 2, e[5] (2020).
- Hudson, M. J. Ruins of Identity: Ethnogenesis in the Japanese Islands (Univ. Hawai‘i Press, 1999).
- Qin, L. & Fuller D. Q. in Prehistoric Maritime Cultures and Seafaring (eds Wu, C. & Rolett, B.) 159–191 (Springer, 2019).
- Hosner, D. et al. Spatiotemporal distribution patterns of archaeological sites in China during the Neolithic and Bronze Age: an overview. Holocene 26, 1576–1593 (2016).
- Hudson, M. J. & Robbeets, M. Archaeolinguistic evidence for the farming/language dispersal of Koreanic. Evol. Hum. Sci. 2, e[52] (2020).
- Jeong, C. et al. A dynamic 6,000-year genetic history of Eurasia’s Eastern Steppe. Cell 183, 890–904 (2020).
- Savelyev, A. & Jeong, C. Early nomads of the Eastern Steppe and their tentative connections in the West. Evol. Human Sci. 2, e[20] (2020).
- Janhunen, J. in The Mongolic languages (ed. Janhunen, J.) 1–29 (Routledge, 2003).
- Hudson, M. J. in New Perspectives in Southeast Asian and Pacific Prehistory (eds Piper, P., H. Matsumura, H. & Bulbeck, D.) 189–199 (ANU Press, 2017).
- Sagart, L. et al. Dated language phylogenies shed light on the ancestry of Sino-Tibetan. Proc. Natl Acad. Sci. USA 116, 10317–10322 (2019).
- Zhang, H. et al. Dated phylogeny suggests early Neolithic origin of SinoTibetan languages. Sci. Rep. 10, 20792 (2020).
- Haspelmath, M. & Tadmor, U. Loanwords in the World’s Languages: a Comparative Handbook (Mouton de Gruyter, 2009).
- Heggarty, P. & Anderson, C. Cognacy in Basic Lexicon (CoBL), https://www.shh.mpg.de/dlce-research-projects/ie-cor-database (Max Planck Institute for the Science of Human History, 2015).
- Savelyev, A. & Robbeets, M. Bayesian phylolinguistics infers the internal structure and the time-depth of the Turkic language family. J. Lang. Evol. 39–53 (2019).
- Oskolskaya, S., Koile, E. & Robbeets, M. A Bayesian approach to the classification of Tungusic languages. Diachronica https://www.jbe-platform.com/content/journals/10.1075/dia.20010.osk (2021).
- Bouckaert, R., Bowern, C. & Atkinson, Q. D. The origin and expansion of Pama–Nyungan languages across Australia. Nat. Ecol. Evol. 2, 741–749 (2018).
- Bouckaert, R. & Robbeets, M. Pseudo Dollo models for the evolution of binary characters along a tree. Preprint at https://www.biorxiv.org/content/10.1101/207571v1 (2018).
- Drummond, A. J. et al. Relaxed phylogenetics and dating with confidence. PLoS Biol. 4, e[88] (2006).
- Gavryushkina, A. et al. Bayesian inference of sampled ancestor trees for epidemiology and fossil calibration. PLoS Comput. Biol. 10, e1003919 (2014).
- Maturana, P. M. et al. Model selection and parameter inference in phylogenetics using nested sampling. Syst. Biol. 68, 219–233 (2019).
- Bouckaert, R. et al. BEAST 2.5: an advanced software platform for Bayesian evolutionary analysis. PLoS Comput. Biol., 15, e1006650 (2019).
- Mueller, N. F. & Bouckaert, R. Adaptive parallel tempering for BEAST 2. Preprint at https://www.biorxiv.org/content/10.1101/603514v2 (2020).
- Bouckaert, R. Phylogeography by diffusion on a sphere: whole world phylogeography. PeerJ, 4, e2406 (2016).
- Wichmann, S. & Rama, T. Testing methods of linguistic homeland detection using synthetic data. Preprint at https://www.biorxiv.org/content/10.1101/2020.09.03.280826v4 (2020).
- Neureiter, N., Ranacher, P., van Gijn, R., Bickel, B. & Weibel, R. 2021 Can Bayesian phylogeography reconstruct migrations and expansions in linguistic evolution? R. Soc. Open Sci. 8, 201079 (2021).
- Mace, R., Holden, C. & Shennan, S. The Evolution of Cultural Diversity—a Phylogenetic Approach (UCL Press, 2005).
- O’Brien, M. J. & Lyman, R. L. Evolutionary archeology: current status and future prospects. Evol. Anthropol. 11, 26–36 (2002).
- Allaby, R. G., Fuller, D. Q. & Brown, T. A. The genetic expectations of a protracted model for the origins of domesticated crops. Proc. Natl Acad. Sci. USA 105, 13982–13986 (2008).
- Drummond, A. J. et al. Bayesian coalescent inference of past population dynamics from molecular sequences. Mol. Biol. Evol. 22, 1185–1192 (2005).
- Shelach, G. & Teng, M. in A Companion to Chinese Archaeology (ed. Underhill, A.) 37–54 (Wiley–Blackwell, 2013).
- Miyamoto, K. The initial spread of early agriculture into Northeast Asia. Asian Archaeol. 3, 11–26 (2014).
- Li, T., Ning, C., Zhushchikhovskaya, I. S., Hudson, M. J. & Robbeets, M. Millet agriculture dispersed from Northeast China to the Russian Far East: integrating archaeology, genetics and linguistics. Archaeol. Res. Asia 22, e100177 (2020).
- Kōmoto, M. in A Study on the Environmental Change and Adaptation System in Prehistoric Northeast Asia (ed. Kōmoto, M.) 8–34 (Kumamoto Univ., 2007).
- An, S. (ed.) Nongŏbŭi kogohak (Sahoep’yŏngnon, 2013).
- Nishitani, T. (ed.) Higashi Ajia ni okeru shisekibo no sōgōteki kenkyū (Kyushu Univ., 1997).
- Furusawa, Y. in A Study on the Environmental Change and Adaptation System in Prehistoric Northeast Asia (ed. Kōmoto, M.) 86–109 (Kumamoto Univ., 2007).
- Dabney, J. et al. Complete mitochondrial genome sequence of a Middle Pleistocene cave bear reconstructed from ultrashort DNA fragments. Proc. Natl Acad. Sci. USA 110, 15758–15763 (2013).
- peltzer, A., Herbig, A. & Krause, J. EAGER: efficient ancient genome reconstruction. Genome Biol. 17, 60 (2016).
- Schubert, M., Lindgreen, S. & Orlando, L. AdapterRemoval v2: rapid adapter trimming, identification, and read merging. BMC Res. Notes 9, 88 (2016).
- Li, H. et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078–2079 (2009).
- Jun, G. et al. An efficient and scalable analysis framework for variant extraction and refinement from population-scale DNA sequence data. Genome Res. 25, 918–925 (2015).
- Mathieson, I. et al. Genome-wide patterns of selection in 230 ancient Eurasians. Nature 528, 499–503 (2015).
- Haak, W. et al. Massive migration from the steppe was a source for Indo-European languages in Europe. Nature 522, 207–211 (2015).
- Jeong, C. et al. The genetic history of admixture across inner Eurasia. Nat. Ecol. Evol. 3, 966–976 (2019).
- Jeong, C. et al. Bronze Age population dynamics and the rise of dairy pastoralism on the eastern Eurasian steppe. Proc. Natl Acad. Sci. USA 115, E11248–E11255 (2018).
- Mallick, S. et al. The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature 538, 201–206 (2016).
- Jónsson, H., Ginolhac, A., Schubert, M., Johnson, P. L. F. & Orlando, L. mapDamage[2].0: fast approximate Bayesian estimates of ancient DNA damage parameters. Bioinformatics 29, 1682–1684 (2013).
- Renaud, G., Slon, V., Duggan, A. T. & Kelso, J. Schmutzi: estimation of contamination and endogenous mitochondrial consensus calling for ancient DNA. Genome Biol. 16, 224 (2015).
- Korneliussen, T. S., Albrechtsen, A. & Nielsen, R. ANGSD: analysis of next generation sequencing data. BMC Bioinformatics 15, 356 (2014).
- Skoglund, P. et al. Separating endogenous ancient DNA from modern day contamination in a Siberian Neandertal. Proc. Natl Acad. Sci. USA 111, 2229–2234 (2014).
- patterson, N., Price, A. L. & Reich, D. Population structure and eigen analysis. PLoS Genet. 2, e190 (2006).
- Raghavan, M. et al. Upper Palaeolithic Siberian genome reveals dual ancestry of Native Americans. Nature 505, 87–91 (2014).
- patterson, N. et al. Ancient admixture in human history. Genetics 192, 1065–1093 (2012).
- Fu, Q. et al. An early modern human from Romania with a recent Neanderthal ancestor. Nature 524, 216–219 (2015).
- Kirch, P. V. & Green, R. Hawaiki, Ancestral Polynesia: An Essay in Historical Anthropology (Cambridge Univ. Press, 2001).
- Oh, Y., Conte, M., Kang, S., Kim, J. & Hwang, J. Population fluctuation and the adoption of food production in prehistoric Korea: using radiocarbon dates as a proxy for population change. Radiocarbon 59, 1761–1770 (2017).
- Hosner. D., Wagner, M., Tarasov, P. E., Chen, X. & Leipe, C. Spatiotemporal distribution patterns of archaeological sites in China during the Neolithic and Bronze Age: an overview. Holocene 26, 1576–1593 (2016).
- Koyama, S. Jomon subsistence and population. SENRI Ethnol. Stud. 2, 1–65 (1978).