Wang, C. C. et al. Genomic insights into the formation of human populations in East Asia. Nature 591, 413–419 (2021).
[편집자주] 본 자료는 논문을 구글에서 인식한 후 openai40을 통해 한글로 번역했습니다. 학술적인 용도로 활용할 때는 반드시 논문의 원본을 다시 확인하세요.
Genomic insights into the formation of human populations in East Asia
동아시아 인류 집단 형성에 관한 유전체적 이해
https://doi.org/10.1038/s41586-021-03336-2
Received: 19 March 2020
Accepted: 5 February 2021
Published online: 22 February 2021
ABSTRACT
The deep population history of East Asia remains poorly understood owing to a lack of ancient DNA data and sparse sampling of present-day people[1,2] . Here we report genome-wide data from 166 East Asian individuals dating to between 6000 BC and ad 1000 and 46 present-day groups. Hunter-gatherers from Japan, the Amur River Basin, and people of Neolithic and Iron Age Taiwan and the Tibetan Plateau are linked by a deeply splitting lineage that probably reflects a coastal migration during the Late Pleistocene epoch. We also follow expansions during the subsequent Holocene epoch from four regions.
동아시아의 고대인구 역사는 고대 DNA 데이터의 부족과 현대 인구의 샘플링이 드문 탓에 여전히 제대로 이해되지 않고 있다[1,2]. 본 연구에서는 기원전 6000년부터 서기 1000년까지의 동아시아 지역 166명의 고대 인류와 현대의 46개 집단에서 얻은 전장 유전체 데이터(genome-wide data)를 보고한다. 일본, 아무르강 유역의 수렵채집인, 신석기 및 철기 시대 대만과 티베트 고원의 사람들이 해안선을 따라 이동했던 후기 홍적세(Late Pleistocene) 동안의 이주를 반영하는 깊게 분기된 계통에 의해 연결되어 있음을 확인했다. 또한 이후 홀로세(Holocene) 시기의 네 지역에서 일어난 확장을 추적했다.
First, hunter-gatherers from Mongolia and the Amur River Basin have ancestry shared by individuals who speak Mongolic and Tungusic languages, but do not carry ancestry characteristic of farmers from the West Liao River region (around 3000 BC), which contradicts theories that the expansion of these farmers spread the Mongolic and Tungusic proto-languages.
첫째, 몽골과 아무르강 유역의 수렵채집인은 몽골어족과 퉁구스어족을 사용하는 사람들과 공유하는 계통을 가지고 있지만, 약 기원전 3000년경 서요하 지역 농경민의 특징적인 계통은 가지고 있지 않다. 이는 이들 농경민의 확장이 몽골어족과 퉁구스어족의 원시 언어를 확산시켰다는 기존 이론과 모순된다.
Second, farmers from the Yellow River Basin (around 3000 BC) probably spread Sino-Tibetan languages, as their ancestry dispersed both to Tibet—where it forms approximately 84% of the gene pool in some groups—and to the Central Plain, where it has contributed around 59–84% to modern Han Chinese groups.
둘째, 약 기원전 3000년경 황하 유역의 농경민들은 한-티베트어족 언어를 확산시켰을 가능성이 있다. 이들의 계통은 티베트로 확산되어 일부 집단의 유전자 풀에서 약 84%를 차지했으며, 중원으로 확산되어 현대 한족 집단의 약 59~84%를 차지하는 데 기여했다.
Third, people from Taiwan from around 1300 BC to ad 800 derived approximately 75% of their ancestry from a lineage that is widespread in modern individuals who speak Austronesian, Tai–Kadai and Austroasiatic languages, and that we hypothesize derives from farmers of the Yangtze River Valley. Ancient people from Taiwan also derived about 25% of their ancestry from a northern lineage that is related to, but different from, farmers of the Yellow River Basin, which suggests an additional north-to-south expansion.
셋째, 기원전 1300년부터 서기 800년 사이의 대만 사람들은 약 75%의 조상을 현대 오스트로네시아어, 타이-까다이어, 오스트로아시아어를 사용하는 집단에서 널리 퍼진 계통에서 물려받았으며, 이는 양자강 유역 농민들에게서 유래했다고 추정된다. 대만의 고대인들은 또한 약 25%의 조상을 황하 유역 농민들과 관련은 있지만 다른 북방 계통에서 물려받았는데, 이는 북쪽에서 남쪽으로의 추가 확장을 시사한다.
Fourth, ancestry from Yamnaya Steppe pastoralists arrived in western Mongolia after around 3000 BC but was displaced by previously established lineages even while it persisted in western China, as would be expected if this ancestry was associated with the spread of proto-Tocharian Indo-European languages. Two later gene flows affected western Mongolia: migrants after around 2000 BC with Yamnaya and European farmer ancestry, and episodic influences of later groups with ancestry from Turan.
넷째, 얌나야 초원의 목축민 계통이 기원전 3000년경 이후 서몽골에 도달했으나, 기존에 자리 잡고 있던 계통들에 의해 대체되었다. 반면, 이 계통은 서중국에서는 지속되었는데, 이는 이 계통이 초기 토카리아어 인도유럽어의 확산과 연관되었을 가능성을 시사한다. 이후 서몽골에는 두 차례 주요 유전자 흐름이 영향을 미쳤다. 첫 번째는 기원전 2000년경 이후 얌나야와 유럽 농민 계통을 가진 이주민들의 유입이며, 두 번째는 투란 지역 계통을 가진 후대 집단들의 간헐적 영향이다.
목차
A Late Pleistocene coastal expansion
후기 플라이스토세 해안 확산
Refining the trans-Eurasian hypothesis
범유라시아 가설 정교화
Northern origin of Sino-Tibetan languages
한-티베트어족의 북방 기원
Rice farming expansions linked by shared ancestry
공통 조상으로 연결된 벼농사 확산
Admixture of West and East Eurasian populations
서유라시아와 동유라시아 집단의 혼합
East Asia was one of the earliest centres of animal and plant domestication, and harbours an extraordinary diversity of language families including Sino-Tibetan, Tai–Kadai, Austronesian, Austroasiatic, Hmong–Mien, Indo-European, Mongolic, Turkic, Tungusic, Koreanic, Japonic, Yukaghiric and Chukotko–Kamchatkan1. Our current understanding of the human population history in the region remains poor because of the minimal sampling of genetic diversity of present-day people on the Tibetan Plateau and southern China[2] , and a paucity of ancient DNA data compared with West Eurasia[3–6] . We collected DNA from 383 people from 46 populations from China (n = 337) and Nepal (n = 46) who provided informed consent for broad studies of population history; we carried out community consultation with minority group leaders as an integral part of the consent process (see Methods, ‘Ethics statement’). We genotyped DNA using the Affymetrix Human Origins array at about 600,000 single-nucleotide polymorphisms (SNPs) (Extended Data Table 1 and Supplementary Information section 1).
동아시아는 동식물의 가장 초기 목축경작화 중심지 중 하나였으며, 한-티베트어족, 타이-까다이어족, 오스트로네시아어족, 오스트로아시아어족, 묘야오어족, 인도유럽어족, 몽골어족, 투르크어족, 퉁구스어족, 한국어족, 일본어족, 유카기르어족, 추코트캄차카어족 등 언어 계통의 놀라운 다양성을 보유하고 있다[1]. 그러나 현재 티베트 고원과 중국 남부 지역 사람들의 유전적 다양성에 대한 표본화가 부족하고[2], 서유라시아에 비해 고대 DNA 데이터가 매우 제한적이어서[3–6] 이 지역의 인구 역사에 대한 이해는 여전히 부족하다. 본 연구에서는 중국(337명)과 네팔(46명)의 46개 집단에서 383명의 DNA를 수집했으며, 이들은 인구 역사에 대한 폭넓은 연구를 위해 동의서를 제공했다. 동의 과정의 일환으로 소수 민족 집단 지도자들과의 커뮤니티 상담을 진행했다(방법, ‘윤리 성명’ 참조). 우리는 약 60만 개의 단일염기다형성(SNP)을 대상으로 Affymetrix Human Origins 배열을 사용해 DNA를 유전자형으로 분석했다(확장 데이터 표 1 및 보충 정보 섹션 1 참조).
For ancient individuals, we obtained permission for analysis from sample custodians, following protocols to minimize damage to skeletal material and including members of local minority groups as part of our study team when there was a plausible cultural connection between modern communities and ancient individuals (see Methods, ‘Ethics statement’). We prepared powder from bones and teeth, extracted DNA, and prepared double- or single-stranded libraries for sequencing on Illumina instruments (Methods). For most samples, we enriched the DNA for a set of about 1.2 million SNPs[3,7] ; for the Chinese samples, we used exome enrichment (Methods, Supplementary Information section 1 and Supplementary Table 1). We sequenced the DNA and processed the data using one of two nearly identical bioinformatics procedures (Methods and Supplementary Table 2), for which we found indistinguishable results from the perspective of analyses of population history (Supplementary Table 3).
고대 개체에 대해서는 표본 관리자의 허가를 받아 분석을 진행했으며, 골격 손상을 최소화하기 위한 절차를 따랐고, 현대 공동체와 고대 개체 간에 문화적 연관성이 있을 가능성이 있는 경우 지역 소수 민족 구성원을 연구팀에 포함시켰다(방법, ‘윤리 성명’ 참조). 뼈와 치아에서 가루를 채취하여 DNA를 추출한 뒤, Illumina 장비로 염기서열 분석을 수행하기 위해 이중 가닥 또는 단일 가닥 라이브러리를 준비했다(방법 참조). 대부분의 표본에 대해서는 약 120만 개의 SNP 세트를 대상으로 DNA를 농축했고[3,7], 중국 표본의 경우 엑솜 농축 방법을 사용했다(방법, 보충 정보 섹션 1 및 보충 표 1 참조). 우리는 DNA를 염기서열화하고 데이터를 두 가지 거의 동일한 생정보학 절차 중 하나를 사용해 처리했으며(방법 및 보충 표 2 참조), 인구 역사 분석 관점에서 두 절차 간 차이가 없음을 확인했다(보충 표 3 참조).
We considered samples to fail screening if they had fewer than 5,000 of the targeted SNPs covered at least once; if they had a too-low rate of cytosine-to-thymine substitution in the terminal nucleotide; or if they showed evidence of major contamination based on polymorphisms in mitochondrial DNA sequences[8] or the X chromosome in male individuals[9] or a ratio of Y-to-X chromosomes that would be unexpected for a male or female individual (Supplementary Tables 1, 2). We newly report data from 166 individuals (Fig. 1 and Supplementary Table 1):
우리는 다음의 조건에 해당하는 표본을 스크리닝 실패로 간주했다: 목표 SNP 중 5,000개 미만이 최소 한 번이라도 확인된 경우, 말단 뉴클레오타이드에서 사이토신-티민 치환율이 너무 낮은 경우, 또는 미토콘드리아 DNA 서열의 다형성[8], 남성 개체에서 X 염색체를 기반으로 한 주요 오염 증거, 혹은 남성 또는 여성 개체에 대해 예상치 못한 Y-X 염색체 비율이 나타난 경우(보충 표 1, 2 참조). 이번 연구에서는 새롭게 166명의 데이터를 보고한다(그림 1 및 보충 표 1).
Fig. 1: Overview.
a, Locations, sample size (in brackets) and temporal distribution of newly reported ancient individuals, plotted using the ‘Google Map Layer’ from ArcGIS Online Basemaps (map data ©2020 Google). b, Plot of the first and second principal components (PCs) defined in an analysis of East Asian individuals with minimal West Eurasian-related mixture. cal.ad, calibrated years ad; cal.bc, calibrated years bc. N, Neolithic; BA, Bronze Age; IA, Iron Age; E, Early; M, Middle; L, Late.
a, 새롭게 보고된 고대 개체들의 위치, 표본 크기(괄호 안) 및 시간 분포. ArcGIS Online Basemaps의 ‘Google Map Layer’를 사용해 작성되었으며, 지도 데이터는 ©2020 Google.
b, 최소한의 서유라시아 관련 혼합을 가진 동아시아 개체들을 분석하여 정의된 첫 번째 및 두 번째 주성분(PCs) 플롯.
cal.ad, 교정된 서기 연도; cal.bc, 교정된 기원전 연도; N, 신석기 시대; BA, 청동기 시대; IA, 철기 시대; E, 초기; M, 중기; L, 후기.

82 individuals from Mongolia from between around 5700 BC and ad 1400, 11 individuals from the Chinese Mainland from a site dating to approximately 3000 BC in the Yellow River Basin, 7 individuals from Japan comprising Jomon hunter-gatherers dating to around 2500–800 BC, 18 individuals from the Russian Far East interred in the Boisman-2 cemetery dating to 5400–3600 BC as well as an individual dating to around 900 BC and another dating to around ad 1100, and 46 individuals from 2 sites in Taiwan dating to between 1300 BC and AD 800 (Supplementary Table 1). For analysis we focused on 130 individuals after excluding 16 individuals with evidence of low but non-zero contamination, 10 individuals in which 5,000–15,000 SNPs were covered and 11 individuals who were close relatives of another higher-coverage individual in the dataset (Extended Data Table 2).
여기에는 약 기원전 5700년부터 서기 1400년 사이 몽골 출신 82명, 황하 유역의 약 기원전 3000년 유적에서 발굴된 중국 본토 출신 11명, 약 기원전 25003600년 사이 보이즈만-2 공동묘지에 묻힌 러시아 극동 출신 18명과 약 기원전 900년 및 서기 1100년 개체 2명, 그리고 약 기원전 1300년부터 서기 800년 사이의 대만 2개 유적지 출신 46명이 포함된다(보충 표 1).
분석에서는 다음의 이유로 제외된 37명을 제외하고 총 130명에 초점을 맞췄다: 낮은 수준이지만 0이 아닌 오염 증거가 확인된 16명, 5,000~15,000개의 SNP만 확인된 10명, 데이터셋 내 더 높은 커버리지를 가진 개체와 가까운 친척인 것으로 나타난 11명(확장 데이터 표 2 참조).
We merged our dataset with published data: 1,079 ancient individuals reported in 30 publications (Supplementary Table 4a) and 3,265 present-day individuals reported in 16 publications (Supplementary Table 4b). We grouped individuals by geography, time (aided by 108 newly reported direct dates; Supplementary Table 5), archaeological context and genetic cluster (Supplementary Table 1).
We carried out principal component analysis[10] , projecting ancient individuals onto axes computed using present-day people. The population structure is correlated with geography (R2 = 0.261; P < 0.0001) and language (R2 = 0.087; P < 0.0001) (Supplementary Table 6), with some exceptions. Groups in northwest China, Nepal and Siberia deviate towards West Eurasian populations (Supplementary Information section 2), reflecting admixture that occurred, on average, between 5 and 70 generations ago[11] (Supplementary Tables 7, 8). Differentiation was much higher in East Asian individuals living in the early Holocene (fixation index (FST) = 0.067) compared to present-day populations (FST = 0.013) (Supplementary Table 9), reflecting mixture between deep East Asian lineages.
우리는 본 데이터셋을 기존에 발표된 데이터와 병합했다. 여기에는 30개의 논문에서 보고된 고대 개체 1,079명(보충 표 4a)과 16개의 논문에서 보고된 현대 개체 3,265명(보충 표 4b)이 포함된다. 개체들은 지리적 위치, 시간(새롭게 보고된 108개의 직접 측정 연대 활용, 보충 표 5), 고고학적 맥락, 유전적 군집을 기준으로 분류했다(보충 표 1).
우리는 현대인 데이터를 기반으로 축을 계산한 뒤, 고대 개체를 해당 축에 투영하여 주성분 분석을 수행했다[10]. 인구 구조는 지리적 위치(R² = 0.261; P < 0.0001)와 언어(R² = 0.087; P < 0.0001)와 상관관계를 보였으며, 일부 예외도 확인됐다. 중국 북서부, 네팔, 시베리아 집단은 서유라시아 인구 쪽으로 편향되었으며(보충 정보 섹션 2 참조), 이는 평균적으로 5~70세대 전에 발생한 혼합을 반영한다[11](보충 표 7, 8).
초기 홀로세 시대 동아시아인들 사이에서 관찰된 분화(FST = 0.067)는 현대 집단(FST = 0.013)에 비해 훨씬 더 높았으며, 이는 깊게 분기된 동아시아 계통 간의 혼합을 나타낸다(보충 표 9).
Present-day East Asian individuals with minimal West-Eurasian-related ancestry grade between three poles. The ‘Amur Basin cluster’ correlates with ancient and present-day people in the Amur River Basin, and linguistically with speakers of Tungusic languages and the Nivkh. The ‘Tibetan Plateau cluster’ is most strongly represented in ancient people from Nepal and Indigenous Tibetan peoples. The ‘Southeast Asian cluster’ is maximized in ancient Taiwan and in East Asian individuals speaking Tai–Kadai, Austroasiatic and Austronesian languages (Extended Data Figs. 1–3). Automated clustering[12] provides similar results (Extended Data Fig. 4 and Supplementary Information section 2).
현대 동아시아인 중 서유라시아 관련 계통이 최소화된 개체들은 세 개의 중심축 사이에서 분포를 보인다. ‘아무르강 유역 군집’은 고대 및 현대 아무르강 유역의 사람들과 상관되며, 언어적으로는 퉁구스어와 니브흐어를 사용하는 집단과 연관된다. ‘티베트 고원 군집’은 네팔의 고대인과 티베트 원주민에서 가장 강하게 나타난다. ‘동남아시아 군집’은 고대 대만과 타이-까다이어, 오스트로아시아어, 오스트로네시아어를 사용하는 동아시아인들에서 최대화된다(확장 데이터 그림 1–3). 자동 군집화 분석[12] 또한 유사한 결과를 제공한다(확장 데이터 그림 4 및 보충 정보 섹션 2).
We organize our findings around themes. First, we considered deep time and determined the early branching lineages contributing to East Asian populations. Then, we shed light on how population structure came to be how it is today by testing three hypotheses about language expansions and their possible connection to farming spreads. Finally, we document how West and East Eurasian groups mixed along their geographical contact zone.
우리는 연구 결과를 주제별로 정리했다. 첫째, 깊은 시간 속에서 동아시아 인구에 기여한 초기 분기 계통을 조사했다. 둘째, 오늘날의 인구 구조가 형성된 과정을 조명하기 위해 언어 확산과 농업 전파의 연관성을 탐구하는 세 가지 가설을 검증했다. 마지막으로, 서유라시아와 동유라시아 집단이 지리적 접촉 지대에서 어떻게 혼합되었는지 문서화했다.
A Late Pleistocene coastal expansion
후기 플라이스토세 해안 확산
Only two pre-Ice Age genomes are available from East Asia: the approximately 40,000-year-old individual from Tianyuan Cave in northern China[13] and the around 35,000-year-old Salkhit individual from Mongolia[14] .
Nevertheless, important insights can be gleaned from analysis of post-Ice Age genomes. One question concerns the extent to which the peopling of East Asia by modern humans occurred via a coastal or interior route. Suggestive genetic evidence for a coastal route comes from Y chromosome data as Tibetan populations have a high frequency (around 50%) of the deeply branching haplogroup D-M174, which is shared with modern Japanese groups (and ancient Jomon hunter-gatherers of Japan) along with Indigenous Andaman islanders of the Bay of Bengal[15] .
동아시아에서 발견된 빙하기 이전 유전체는 두 개뿐이다. 하나는 약 4만 년 전 중국 북부 톈위안 동굴에서 나온 개체[13]이며, 다른 하나는 약 3만 5천 년 전 몽골의 살흐트 개체[14]이다.
그럼에도 불구하고, 빙하기 이후 유전체 분석을 통해 중요한 통찰을 얻을 수 있다. 한 가지 주요 질문은 현대 인류가 동아시아로 유입된 경로가 해안 경로인지 내륙 경로인지에 관한 것이다. 해안 경로를 시사하는 유전적 증거는 Y 염색체 데이터에서 찾을 수 있다. 티베트 집단은 약 50%의 높은 빈도로 깊게 분기된 하플로그룹 D-M174를 보유하고 있는데, 이는 일본의 현대 집단 및 고대 조몬 수렵채집민뿐만 아니라 벵골만의 안다만 제도 원주민들과 공유된다[15].
We used qpGraph[16] to explore scenarios of population splits and gene flow that are consistent with the data and to therefore identify a parsimonious working model for the deep history of key lineages that contribute to ancestry extremes in our principal component analysis (Extended Data Fig. 5 and Supplementary Information section 3). Our fit (Fig. 2 and Extended Data Fig. 6) suggests that much of the ancestry of East Asian individuals can be derived from mixtures in different proportions of two ancient populations: one from the same lineage as the approximately 40,000-year-old Tianyuan individual[10,13] and the other from the same lineage as Indigenous Andaman Islanders (Onge).
우리는 qpGraph[16]을 사용해 데이터와 일치하는 인구 분기와 유전자 흐름 시나리오를 탐구함으로써, 주성분 분석에서 관찰된 계통의 극단적 조상에 기여하는 주요 계통의 깊은 역사를 설명할 간결한 작동 모델을 식별했다(확장 데이터 그림 5 및 보충 정보 섹션 3). 분석 결과(그림 2 및 확장 데이터 그림 6)에 따르면, 동아시아인들의 조상의 대부분은 두 고대 집단의 계통 혼합에서 비롯되었음을 시사한다. 하나는 약 4만 년 전 톈위안 개체와 같은 계통에서 유래했으며[10,13], 다른 하나는 벵골만 안다만 제도 원주민(온지)과 같은 계통에서 유래했다.
Fig. 2: Model of deep population relationships.
We started with a skeleton tree with one admixture event that fits the data for Denisovan, Mbuti, Onge, Tianyuan and Loschbour according to qpGraph. We grafted on Mongolia East Neolithic (E Neo), Late Neolithic farmers from the Upper Yellow River, Liangdao 2, Japan Jomon, Nepal Chokhopani, Taiwan Hanben and Late Neolithic farmers from the West Liao River, adding them consecutively to all possible edges and retaining only graphs that provided no differences of |Z| < 3 between fitted and estimated statistics (maximum |Z| = 2.95 here). We used relative population split time estimates from the multiple sequentially Markovian coalescent (MSMC) and MSMC2 analyses48,49 to constrain models. a, We colour lineages modelled as derived from the hypothesized coastal expansion (green), interior southern expansion (red) or interior northern expansion (blue), and populations according to ancestry proportions. Dashed lines represent admixture (proportions are indicated). The grey circles represent sampled populations and white circles represent unsampled hypothesized nodes. b, Locations and dates of East Asian individuals used in model fitting, with colours indicating the majority ancestry source, are plotted using the ‘Google Map Layer’ from ArcGIS Online Basemaps (map data ©2020 Google).
a, qpGraph를 사용하여 데니소바인(Denisovan), 음부티(Mbuti), 온지(Onge), 톈위안(Tianyuan), 로슈부르(Loschbour)의 데이터를 설명하는 하나의 혼합 사건을 포함하는 골격 계통수를 생성했다. 몽골 동부 신석기(E Neo), 황하 상류 후기 신석기 농민, 량다오 2, 일본 조몬, 네팔 초코파니, 대만 한벤, 서요하 유역 후기 신석기 농민을 계통수에 순차적으로 추가하며 모든 가능한 간선에 연결하고, 추정 통계와 적합 통계 간 |Z| < 3의 차이를 제공하지 않는 그래프만 유지했다(여기서 최대 |Z| = 2.95). 다중 순차적 마르코프 응집(MSMC) 및 MSMC2 분석에서 도출된 상대적 인구 분기 시간 추정치를 사용해 모델을 제한했다[48,49].
a, 가설로 제시된 해안 확산(녹색), 남부 내륙 확산(빨간색), 북부 내륙 확산(파란색)에서 유래한 계통을 색상으로 표시했으며, 인구는 조상 비율에 따라 표시했다. 점선은 혼합을 나타내며(비율도 표시됨), 회색 원은 샘플링된 인구, 흰색 원은 샘플링되지 않은 가설적 노드를 나타낸다.
b, 모델 적합에 사용된 동아시아 개체들의 위치와 날짜를 표시했으며, 색상은 주요 조상 출처를 나타낸다. 지도는 ArcGIS Online Basemaps의 ‘Google Map Layer’를 사용해 작성되었으며, 지도 데이터는 ©2020 Google.


We infer that a Tianyuan-related lineage with a northern geographical distribution contributed 98% of the ancestry of Neolithic people from Mongolia and 90% to Neolithic farmers from the Upper Yellow River. (The Upper Yellow River farmer lineage then mixed with an Onge-related branch, which we speculate is related to Tibetan hunter-gatherers to form modern Tibetan populations.) We infer that another Tianyuan-related lineage with a more southern geographical distribution contributed 73% of the ancestry of a hunter-gatherer from the Liangdao site on an island off the southeast coast of China[17] and 56% to Jomon hunter-gatherers from Japan. Japan was occupied by humans before and after the Ice Age and southern and northern Jomon were morphologically distinct[18] , which may relate to the admixture that we detect. The northerly Tianyuan-related lineage also contributed to farmers from the West Liao River (67%) and from Taiwan (25%) with the rest of the ancestry of these latter groups being related to Liangdao southern hunter-gatherers. The fact that this northern Tianyuan-related lineage is different from (albeit related to) the lineage that contributed to farmers from the Upper Yellow River suggests that there was probably an expansion of northern farmers to Taiwan that was not linked to the expansion of Yellow River farmers.
우리는 북쪽 지리적 분포를 가진 톈위안 계통이 몽골 신석기인들의 조상에 98%, 황하 상류 지역 신석기 농민들의 조상에 90% 기여했다고 추정한다. (황하 상류 농민 계통은 이후 온지 계통과 섞였으며, 이 온지 계통은 티베트 수렵채집민과 연관된 것으로 추정된다. 이러한 혼합은 현대 티베트인의 형성에 기여했을 것으로 보인다.)
또한, 보다 남쪽 지리적 분포를 가진 또 다른 톈위안 계통이 중국 동남부 해안의 섬에 위치한 량다오 유적지의 수렵채집민 조상에 73%, 일본 조몬 수렵채집민 조상에 56% 기여했다고 추정한다[17]. 일본은 빙하기 전후로 사람이 거주했으며, 남조몬과 북조몬은 형태적으로 구별되었는데[18], 이는 우리가 감지한 혼합과 관련이 있을 수 있다.
북쪽 톈위안 계통은 서요하 유역 농민(67%)과 대만 농민(25%)의 조상에도 기여했으며, 이들 집단의 나머지 조상은 량다오 지역 남부 수렵채집민들과 관련이 있다. 북쪽 톈위안 계통이 황하 상류 농민들에게 기여한 계통과 관련이 있지만 별개의 계통이라는 점은, 황하 농민의 확산과는 별개로 북방 농민이 대만으로 확산했을 가능성을 시사한다.
The contributions of the Onge-related lineage are concentrated in coastal groups: we estimate 100% in Andamanese, 44% in Jomon and 20% in ancient Taiwan farmers, consistent with the coastal route expansion hypothesized based on the Y-chromosomal haplogroup D-M174 that is found in both Andamanese and Japanese populations[15] .
온지 계통의 기여는 해안 지역 집단에 집중되어 있다. 우리는 온지 계통이 안다만 제도 원주민에서는 100%, 조몬 수렵채집민에서는 44%, 고대 대만 농민에서는 20%를 차지한다고 추정한다. 이는 안다만 제도 원주민과 일본 집단에서 모두 발견되는 Y 염색체 하플로그룹 D-M174을 기반으로 제안된 해안 경로 확산 가설과 일치한다[15].
Although Tibet is not coastal, the relatively high inferred contribution of this lineage to ancient Tibetan populations (16%) and the presence of D-M174 with a frequency of around 50% in modern Tibetan individuals, provides a link between this Y-chromosomal haplogroup and Onge-related ancestry. We hypothesize that Tibetan hunter-gatherers represent an early splitting branch of this Late Pleistocene coastal expansion that spread inland and occupied the high plateau.
티베트는 해안 지역이 아니지만, 고대 티베트 인구에서 온지 계통의 기여도가 비교적 높게 추정되는 것(16%)과 현대 티베트인에서 약 50%의 빈도로 발견되는 D-M174의 존재는 이 Y 염색체 하플로그룹과 온지 계통 사이의 연관성을 보여준다. 우리는 티베트 수렵채집민이 후기 홍적세 해안 확산의 초기 분기된 가지를 대표하며, 내륙으로 확산되어 티베트 고원을 점유했다고 가설을 세운다.
Refining the trans-Eurasian hypothesis
범유라시아 가설 정교화
The farming-and-language-dispersal hypothesis[19] suggests that increases in population densities in and around centres of domestication were important in propelling movements of people that spread languages. However, in East Asia there have been limited data available to test this theory. We searched for genetic correlates of the ‘trans-Eurasian hypothesis’ [20] , which proposes a macrofamily that includes Mongolic, Turkic, Tungusic, Koreanic and Japonic languages based on reconstructed features including shared agricultural terms. The trans-Eurasian hypothesis proposes that languages of these families descend from a proto-language that was associated with the expansion of early millet farmers around the West Liao River in northeast China who spread west towards Mongolia, north towards Siberia and east towards Korea and Japan.
농업과 언어 확산 가설[19]은 목축경작화 중심지 주변에서 인구 밀도가 증가하면서 사람들의 이동이 촉진되고 언어가 확산되었다고 제안한다. 그러나 동아시아에서는 이 이론을 검증할 수 있는 데이터가 제한적이었다. 우리는 ‘범유라시아 가설’[20]과 관련된 유전적 연관성을 조사했다. 이 가설은 몽골어족, 투르크어족, 퉁구스어족, 한국어족, 일본어족을 포함하는 하나의 거대 어족이 존재했으며, 공유된 농업 용어를 포함한 재구성된 특징들에 기반을 두고 있다.
범유라시아 가설은 이러한 언어 계통들이 초기 기장 농업과 연관된 조어(祖語)에서 기원했으며, 이 조어는 중국 동북부 서요하 유역에서 초기 기장 농민들의 확산과 함께 서쪽 몽골, 북쪽 시베리아, 동쪽 한국과 일본으로 퍼졌다고 제안한다.
To obtain insight into possible genetic correlates of this language spread, we studied our time transect in the Amur River Basin[21] . From the early Neolithic individuals (around 5500 BC) and Boisman individuals (about 5000 BC) until the Iron Age Yankovsky culture (around 900 BC) and Xianbei culture (ad 50–250), individuals from the Amur River Basin are consistent with being a clade according to qpWave (Supplementary Table 10). This locally continuous population also contributed to later populations, as reflected in the Y-chromosomal haplogroup C2b-F1396 and mitochondrial haplogroups D4 and C5 of Boisman individuals—which are predominant in present-day speakers of Tungusic, Mongolic and some Turkic languages—and in an individual from the Heishui Mohe culture (around AD 1100) who had an estimated 43 ± 15% ancestry from the Amur River Basin lineage (the remaining ancestry was well-modelled as Han Chinese ancestry, which could be expected if there was an immigration from the south in historical times) (Supplementary Table 10). This anciently established Amur River Basin lineage was part of a cline of more Jomon-relatedness in the east and most Mongolian Neolithic-related ancestry in the west. We infer 77–94% Mongolian Neolithic-related ancestry in Baikal hunter-gatherers[5] (the remainder from Ancient North Eurasian populations comprising a deeply splitting West Eurasian-related lineage that was established in the Baikal region during the Ice Age) (Supplementary Table 11).
이 언어 확산의 유전적 연관성에 대한 통찰을 얻기 위해 우리는 아무르강 유역의 시간 단면 데이터를 연구했다[21]. 초기 신석기 시대 개체들(약 기원전 5500년)과 보이즈만 개체들(약 기원전 5000년)부터 철기 시대 얀콥스키 문화(약 기원전 900년)와 선비 문화(서기 50–250년)에 이르기까지, 아무르강 유역 개체들은 qpWave 분석에 따르면 하나의 클레이드(clade)로 일관되었다(보충 표 10 참조).
이 지역적으로 지속된 인구는 이후 집단들에도 기여했다. 이는 보이즈만 개체들에서 발견된 Y 염색체 하플로그룹 C2b-F1396과 미토콘드리아 하플로그룹 D4와 C5에서 나타나는데, 이들 하플로그룹은 현대 퉁구스어족, 몽골어족, 일부 투르크어족 사용자들에게서 주로 발견된다. 또한, 흑수 말갈 문화(약 서기 1100년)의 한 개체에서도 약 43 ± 15%의 아무르강 유역 계통이 추정되었으며, 나머지 계통은 한족 계통으로 잘 모델링되었다. 이는 역사적으로 남쪽에서의 이주가 있었음을 시사한다(보충 표 10 참조).
이 고대의 아무르강 유역 계통은 동쪽으로는 조몬 계통과의 더 큰 연관성을, 서쪽으로는 몽골 신석기 계통의 대부분을 포함하는 점진적인 경사(cline)의 일부였다. 우리는 바이칼 수렵채집민들에서 77–94%가 몽골 신석기 계통에 해당한다고 추정하며[5], 나머지 계통은 빙하기 동안 바이칼 지역에서 형성된 서유라시아 관련 계통인 고대 북유라시아 집단(Ancient North Eurasian)에서 비롯된 것이다(보충 표 11 참조).
We infer around 87% Mongolian Neolithic-related ancestry in Amur River Basin hunter-gatherers such as Boisman (the remaining ancestry is Jomon-related). Native American individuals share more alleles with Boisman and the Mongolian Neolithic individuals than with most other East Asian populations, suggesting that an early branch of this lineage— reflecting the northern distribution of the Tianyuan-related branch in Fig. 2—was the source for the East-Asian-related ancestry in Native American peoples (Supplementary Table 12).
우리는 보이즈만과 같은 아무르강 유역의 수렵채집민들이 약 87% 몽골 신석기 계통을 가지고 있으며, 나머지 계통은 조몬과 관련이 있다고 추정한다. 또한, 원주민 아메리카인들은 보이즈만 및 몽골 신석기 개체들과 대부분의 다른 동아시아 집단보다 더 많은 대립유전자를 공유한다. 이는 이 계통의 초기 분기, 즉 그림 2에서 톈위안 계통의 북쪽 분포를 반영한 계통이 원주민 아메리카인들에게 동아시아 관련 조상의 근원이 되었음을 시사한다(보충 표 12 참조).
The trans-Eurasian hypothesis is that the Mongolic, Turkic, Tungusic, Koreanic and Japonic proto-languages were spread by agriculturalists from the West Liao River region, who had a mixture of ancestries related to individuals from the Upper Yellow River (around 67%) and Liangdao (~33%) (Fig. 2).
범유라시아 가설은 몽골어족, 투르크어족, 퉁구스어족, 한국어족, 일본어족의 조어(祖語)가 서요하 유역 농업민들에 의해 확산되었다고 제안한다. 이 농업민들은 황하 상류 지역 계통(약 67%)과 량다오 계통(약 33%)이 혼합된 조상을 가지고 있었다(그림 2).
Notably, we observe that this characteristic mixture of ancestries is absent from the time transects of Mongolia and the Amur River Basin in our study (Fig. 3), which is not what is expected on the basis of the hypothesis that expansions of West Liao River farmers spread Mongolic and Tungusic languages.
그러나 주목할 점은, 우리의 연구에서 몽골과 아무르강 유역의 시간 단면에서는 이러한 조상 혼합의 특징이 관찰되지 않았다는 것이다(그림 3). 이는 서요하 농민들의 확장이 몽골어와 퉁구스어의 확산을 이끌었다는 가설과 일치하지 않는다.
Fig. 3: Estimates of mixture proportions using qpAdm.
a, qpAdm modelling of ancestry related to Yellow River farmers (blue) and Liangdao (orange) in present-day East Asian populations. Proportions are described in Supplementary Table 22 and the map was plotted using the ‘Google Map Layer’ from ArcGIS Online Basemaps (map data ©2020 Google). CHB, Han Chinese in Beijing; CHS, Han Chinese South; Upper_YR_LN, Upper Yellow River Late Neolithic. b, Mongolian and Xinjiang populations. As sources we explored all possible subsets of Mongolia_East_N, Afanasievo, west Siberian hunter-gatherers (WSHG), Sintashta_MLBA, Turkmenistan_Gonur_BA_1 and Han Chinese individuals, adding all groups to the reference set when not used as sources, and identifying parsimonious models (smallest numbers of sources) that fit at P > 0.05 based on the Hotelling T2 test implemented in qpAdm (Supplementary Table 25). These P values do not incorporate any correction for multiple-hypothesis testing. *Parsimonious models pass at only P > 0.01. **Multiple equally parsimonious models pass at P > 0.05, so we cannot determine whether the West-Eurasian-related source was Afanasievo, west Siberian hunter-gatherers or Sintashta_MLBA (we plot the model with the largest P value). Bars show ancestry proportions, and time spans are unions of all samples. We do not visualize results from singleton outliers. N, Neolithic; BA, Bronze Age; IA, Iron Age; E, Early; M, Middle; L, Late.
a, 현대 동아시아 인구에서 황하 농민(파란색)과 량다오(주황색)와 관련된 조상의 qpAdm 모델링. 비율은 보충 표 22에 설명되어 있으며, 지도는 ArcGIS Online Basemaps의 ‘Google Map Layer’를 사용하여 작성되었다(지도 데이터 ©2020 Google). CHB, 북경 한족; CHS, 남부 한족; Upper_YR_LN, 황하 상류 후기 신석기 농민.
b, 몽골 및 신장 인구. 소스로 몽골_East_N, 아파나시에보, 서시베리아 수렵채집민(WSHG), 신타슈타_MLBA, 투르크메니스탄_Gonur_BA_1, 한족 개체의 모든 가능한 하위 집합을 탐색했으며, 소스로 사용되지 않은 모든 그룹을 참조 집합에 추가하고 Hotelling T² 테스트를 qpAdm에 적용하여 P > 0.05에서 적합한 간결한 모델(가장 적은 수의 소스)을 식별했다(보충 표 25). 이 P 값은 다중 가설 테스트에 대한 보정을 포함하지 않는다. * 간결한 모델은 P > 0.01에서만 통과. ** 여러 개의 동등하게 간결한 모델이 P > 0.05에서 통과하므로, 서유라시아 관련 소스가 아파나시에보, 서시베리아 수렵채집민 또는 신타슈타_MLBA 중 무엇인지 단정할 수 없다(가장 높은 P 값을 가진 모델을 플롯). 막대는 조상 비율을 나타내며, 시간 범위는 모든 샘플의 통합 범위이다. 단일 예외값에 대한 결과는 시각화하지 않았다. cal.ad, 교정된 서기 연도; cal.bc, 교정된 기원전 연도; N, 신석기 시대; BA, 청동기 시대; IA, 철기 시대; E, 초기; M, 중기; L, 후기.

By contrast, the ancestry of West Liao River farmers did plausibly have an influence further east. For example, we can model present-day Japanese populations as two-way mixtures of around 92% West Liao River farmer-related ancestry from the Bronze Age and about 8% Jomon-related ancestry, with a negligible contribution from sources related to Yellow River farmers. We confirmed this by including the Yellow River farming groups in the outgroup set of the qpAdm analysis of Japanese populations and finding that the models continued to fit (Supplementary Tables 13, 14).
반면, 서요하 농민의 계통이 더 동쪽에 영향을 미쳤을 가능성은 있다. 예를 들어, 현대 일본인은 청동기 시대 서요하 농민 계통이 약 92%, 조몬 계통이 약 8%로 혼합된 집단으로 모델링할 수 있으며, 황하 농민과 관련된 계통은 무시할 정도로 적다. 우리는 qpAdm 분석에서 일본인을 대상으로 황하 농업 집단을 아웃그룹으로 포함한 결과 모델이 여전히 적합함을 확인했다(보충 표 13, 14).
The West Liao River ancestry is consistent with having been transmitted through Korea, as Japanese populations can be modelled as deriving from Korean (91%) and Jomon (9%) groups (Supplementary Tables 13, 14).
서요하 계통은 한국을 통해 전해졌을 가능성이 있으며, 일본인은 한국인(91%)과 조몬인(9%) 계통으로 모델링할 수 있다(보충 표 13, 14).
None of the six Jomon individuals reported here carried the derived allele in the gene encoding the EDAR(V370A) variant of the human ectodysplasin A receptor, which affects hair, sweat and mammary glands (Supplementary Table 15). This variant has been estimated to have arisen in mainland East Asia around 30,000 years ago[22] and that then reached a high frequency in nearly all Holocene individuals from mainland East Asia and the Americas. The fact that it is nearly absent from the Jomon people highlights the genetic distinctiveness of this population compared with mainland groups.
또한, 이번 연구에서 보고된 6명의 조몬 개체 중 누구도 EDAR(V370A) 유전자의 유도형 대립유전자를 가지고 있지 않았다. 이 변이는 머리카락, 땀샘, 유선에 영향을 미치는 인간 외배엽 형성 A 수용체를 암호화하며, 약 3만 년 전 동아시아 본토에서 발생해 홀로세 시기 동아시아 본토와 아메리카 대부분의 개체에서 높은 빈도로 나타났다[22]. 조몬인에게서 이 변이가 거의 발견되지 않는다는 점은 조몬 집단이 본토 집단과 유전적으로 뚜렷하게 구별된다는 사실을 강조한다.
Northern origin of Sino-Tibetan languages
한-티베트어족의 북방 기원
The Tibetan Plateau has been occupied by modern humans since 40,000–30,000 years ago[23] , but it is only since around 1600 BC, with the advent of agriculture, that there is evidence for permanent occupation[24] .
Indigenous Tibetan peoples speak Sino-Tibetan languages linked to languages in the coastal plain of China. The northern origins hypothesis for the origin of these closely related languages suggests that farmers who cultivated foxtail millet in the Upper and Middle Yellow River Basin expanded southwest to the Tibetan Plateau and spread present-day Tibeto-Burman languages, and east and south to the Central Plains and eastern coast, spreading Sinitic languages including the linguistic ancestor of Han Chinese [25]. The southern origins hypothesis suggests that the proto-language arose in the Tibetan–Yi Corridor connecting the highlands to the lowlands, and then expanded in the early Holocene[26] .
티베트 고원은 약 4만~3만 년 전부터 현대 인류가 거주했지만[23], 약 기원전 1600년 농업이 등장한 이후에야 지속적인 거주의 증거가 나타난다[24]. 티베트 원주민들은 중국 해안 평원의 언어와 연관된 한-티베트어를 사용한다.
이들 언어의 기원에 대한 북방 기원 가설은 황하 상류 및 중류 유역에서 기장 농업을 하던 농민들이 남서쪽으로 티베트 고원으로 확장해 현재의 티베트버마어를 확산시켰으며, 동쪽과 남쪽으로는 중원과 동부 해안으로 확장해 한족어를 포함한 중국어 계통의 언어를 퍼뜨렸다고 제안한다[25].
반면, 남방 기원 가설은 조어(祖語)가 티베트-이 회랑(Tibetan–Yi Corridor)에서 형성되었으며, 고지대와 저지대를 연결하며 초기 홀로세에 확장되었다고 제안한다[26].
To shed light on Tibetan ancestry, we grouped 17 present-day populations into three genetic clusters (Extended Data Fig. 7): ‘Core Tibetan individuals’; ‘northern Tibetan individuals’ who are admixed between lineages related to Core Tibetan and West Eurasian individuals; and ‘Tibeto–Yi Corridor’ populations who we estimate using qpAdm[3,16] have 30–70% ancestry related to Southeast Asian populations (Supplementary Table 16) and include not only speakers of Tibetan languages but also speakers of Qiang and Lolo-Burmese languages. Ancient farmers from the Yellow River and present-day Han and Qiang individuals share the most drift with Core Tibetan individuals (Supplementary Table 17), consistent with the hypothesis that Tibetan, Han and Qiang peoples all harbour ancestry from a population related to Neolithic farmers from the Yellow River. We confirm large-scale admixture related to Yellow River farmers (minimum 22% but plausibly a much higher percentage, which is consistent with the 84% estimate in Fig. 2) in Core Tibetan individuals through the decay of admixture linkage disequilibrium[11] . This provides independent evidence that Core Tibetan populations and their genetically almost indistinguishable relatives in ancient Nepal are unlikely to represent continuous descendants of Tibetan hunter-gatherers[75] . We estimate that mixture occurred between, on average, around 290 BC and AD 270 using models of a single pulse of admixture (Supplementary Table 18).
티베트 조상의 기원을 밝히기 위해 현대 17개 집단을 세 가지 유전적 군집으로 나누었다(확장 데이터 그림 7). 첫째, ‘핵심 티베트 집단’(Core Tibetan individuals), 둘째, 핵심 티베트 계통과 서유라시아 계통이 혼합된 ‘북부 티베트 집단’(northern Tibetan individuals), 셋째, qpAdm[3,16] 분석 결과 동남아시아 집단과 30~70%의 조상을 공유하는 것으로 추정되는 ‘티베트-리 회랑(Tibeto–Yi Corridor) 집단’이다(보충 표 16). 이 세 번째 집단에는 티베트어뿐만 아니라 창어(Qiang)와 롤로-버마어(Lolo-Burmese) 사용자도 포함된다. 황하 유역의 고대 농민들과 현대 한족 및 창족(Qiang)은 핵심 티베트 집단과 가장 많은 유전적 유사성을 공유하며(보충 표 17), 이는 티베트인, 한족, 창족 모두가 황하 신석기 농민과 관련된 조상을 공유한다는 가설과 일치한다. 핵심 티베트 집단에서는 황하 농민과 관련된 대규모 혼합(최소 22%, 그러나 그림 2의 84% 추정치와도 일치하는 훨씬 높은 비율 가능성)을 확인했으며, 이는 혼합 연계 불균형(Admixture Linkage Disequilibrium)의 소멸을 통해 독립적으로 검증되었다[11]. 이는 핵심 티베트 집단과 고대 네팔에서 이들과 유전적으로 거의 구별되지 않는 친연 집단이 티베트 수렵채집민의 연속적 후손이 아닐 가능성을 제시한다[75]. 혼합은 평균적으로 기원전 290년에서 서기 270년 사이에 단일 혼합 사건으로 발생했을 가능성이 높으며, 이를 모델링하여 추정했다(보충 표 18).
The start of admixture could plausibly be as long ago as around 1600 BC, the inferred date for the spread of agriculture onto the Tibetan plateau. Han Chinese populations are characterized by a north–south genetic Cline[27,28] . Farmers from the Upper and Middle Yellow River and Tibetan individuals share more alleles with Han Chinese populations compared with the Southeast Asian cluster, whereas the Southeast Asian cluster groups share more alleles with most Han Chinese groups when compared with Yellow River farmers (Supplementary Tables 19, 20).
혼합이 시작된 시점은 기원전 약 1600년, 즉 농업이 티베트 고원으로 확산된 시점까지 거슬러 올라갈 가능성이 있다. 한족 집단은 북쪽에서 남쪽으로 이어지는 유전적 경사(cline)를 특징으로 한다[27,28]. 황하 상류 및 중류 농민과 티베트인들은 동남아시아 군집과 비교했을 때 한족 집단과 더 많은 대립유전자를 공유한다. 반면, 동남아시아 군집은 황하 농민과 비교했을 때 대부분의 한족 집단과 더 많은 대립유전자를 공유한다(보충 표 19, 20 참조).
Using qpWave[3,29] , we determined that two sources are consistent with contributing all of the ancestry of most Han Chinese individuals (Supplementary Table 21), with the exception of the northern Han populations for whom we infer West-Eurasian-related admixture of 2–4% (Supplementary Tables 7, 8). We estimate this mixture occurred, on average, 32–45 generations ago, which overlaps the Tang (ad 618–907) and Song (ad 960–1279) dynasties for which historical records of integration of Han Chinese and western ethnic groups are available. For all other Han Chinese groups, we estimate that 59–84% of ancestry is related to farmers from the Upper and Middle Yellow River, and the remainder from a population related to the ancient Liangdao hunter-gatherers. This latter group possibly corresponds to rice farmers of the Yangtze River Basin, an inference that gains strength from the fact that it comprises the primary ancestry of many Austronesian speakers, Tai–Kadai speakers on Hainan Island (Li, around 66%), Southeast Asian individuals from the Bronze Age and around two-thirds of the ancestry of some Austroasiatic Speakers[30,31] (Fig. 3 and Supplementary Table 22).
qpWave[3,29] 분석을 통해 대부분의 한족 개체 조상의 전부를 설명하는 두 가지 기원 집단이 일관된 결과를 보임을 확인했다(보충 표 21 참조). 단, 북부 한족 집단의 경우 서유라시아 관련 혼합이 약 245세대 전에 발생한 것으로 추정되며, 이는 당(唐, 서기 618–907)과 송(宋, 서기 960–1279) 왕조 시기와 겹친다. 해당 시기의 역사 기록에는 한족과 서쪽 민족들의 통합 사례가 나타난다. 다른 한족 집단에 대해서는, 약 59~84%의 조상이 황하 상류 및 중류 농민과 관련되어 있으며, 나머지는 고대 량다오 수렵채집민과 관련된 집단에서 유래했다고 추정한다. 이 후자의 집단은 양자강 유역의 벼 농민들과 일치할 가능성이 있으며, 이는 오스트로네시아어 사용자, 하이난섬의 타이-까다이어 사용자(리족, 약 66%), 청동기 시대 동남아시아인, 일부 오스트로아시아어 사용자 조상의 약 2/3를 차지한다는 점에서 그 가능성이 강화된다[30,31](그림 3 및 보충 표 22 참조).
Our results support the northern origins hypothesis for Sino-Tibetan languages, as we detect a specific link between present-day individuals who speak Sino-Tibetan languages and farmers from the Upper and Middle Yellow River. A timing that coincides with the archaeologically attested expansions of farming from this region is also supported by the Y-chromosome evidence of a shared haplogroup (Oα-F5) between Han Chinese and Tibetan peoples that derives from a single male ancestor around 3800 BC[32] . The cline of increasing Liangdao-related ancestry in present-day southern Han Chinese people is plausibly due to expanded mixing of Han Chinese individuals with southern groups as they spread into southern China as recorded in the historical literature[33] . However, this was not the first southward migration, as southern Chinese populations are genetically closer to Late Neolithic farmers from the Yellow River than to earlier Middle Neolithic ones[34] and because we also observe about 25% northern ancestry in ancient farmers from Taiwan (Fig. 2).
우리의 결과는 한-티베트어의 북방 기원 가설을 지지하며, 현대 중국티베트어 사용자들과 황하 상류 및 중류 농민들 사이에 특정한 유전적 연결이 있음을 확인했다. 이는 고고학적으로 확인된 이 지역 농업 확장 시기와 일치하며, 한족과 티베트인 사이에서 공유되는 Y 염색체 하플로그룹 Oα-F5가 약 기원전 3800년에 단일 남성 조상에서 유래했다는 증거로도 뒷받침된다[32]. 현대 남부 한족에서 량다오 관련 조상이 증가하는 경사는, 남부로 확산된 한족이 남부 집단들과 혼합된 결과로 보이며, 이는 역사 문헌에도 기록되어 있다[33]. 그러나 이것이 최초의 남하 이주가 아니었음을 시사하는 여러 증거가 있다. 남중국 집단은 중신석기 시대 농민보다 후기 신석기 시대 황하 농민과 유전적으로 더 가깝고[34], 대만의 고대 농민들에서도 약 25%의 북방 조상이 관찰되기 때문이다(그림 2).
Rice farming expansions linked by shared ancestry
공통 조상으로 연결된 벼농사 확산
Previous ancient DNA analysis in Southeast Asia has shown that the earliest farmers of Southeast Asia had about two-thirds ancestry from East Asian populations that were plausibly related to southern Chinese agriculturalists, and about one-third ancestry from a deeply diverged hunter-gatherer lineage, a pattern that is most-strongly evident in Austroasiatic speakers, which suggests that there is an association with the spread of these languages[30,31] . By capitalizing on our time series, which spans about 2,000 years from ancient Taiwan, we confirm that this was part of a broader pattern. The ancient individuals from Taiwan show strong genetic links to modern Austronesian speakers, a connection that is further supported by the fact that the dominant haplogroups in these ancient individuals are the Y-chromosome lineage O3a2c2-N6 and maternal mitochondrial DNA lineages E1a, B4a1a, F3b1 and F4b[35,36] . These Y-chromosome and mitochondrial lineages are shared by modern Indigenous Taiwanese peoples, and mitochondrial lineages are also present in individuals of the Lapita culture from Vanuatu who were plausibly part of the first spread of Austronesian languages into the southwest Pacific region[37] (Supplementary Table 12).
이전의 동남아시아 고대 DNA 분석에 따르면, 동남아시아 초기 농민들은 약 2/3의 조상을 남중국 농업민과 연관된 동아시아 집단에서, 나머지 1/3의 조상을 깊게 분기된 수렵채집 계통에서 물려받았다. 이러한 유전적 패턴은 오스트로아시아어 사용자들 사이에서 가장 뚜렷하게 나타나며, 이 언어의 확산과 연관이 있음을 시사한다[30,31]. 이번 연구에서 약 2,000년에 걸친 대만의 시간 단면 데이터를 활용한 결과, 이러한 현상이 더 광범위한 패턴의 일부였음을 확인했다. 대만의 고대 개체들은 현대 오스트로네시아어 사용자들과 강한 유전적 연관을 보였으며, 이는 이들 고대 개체에서 우세했던 Y 염색체 계통 O3a2c2-N6과 모계 미토콘드리아 DNA 계통 E1a, B4a1a, F3b1, F4b에 의해 더욱 뒷받침된다[35,36]. 이들 Y 염색체와 미토콘드리아 계통은 현대 대만 원주민들과 공유되며, 미토콘드리아 계통은 라피타 문화(Vanuatu)의 개체들에서도 발견된다. 라피타 문화는 오스트로네시아어가 남서 태평양 지역으로 처음 확산될 때 관련된 집단으로 추정된다[37](보충 표 12 참조).
Ancient Taiwan groups and modern Indigenous Taiwanese peoples who speak Austronesian languages share significantly more alleles with speakers of Tai–Kadai languages in southern Chinese Mainland and in Hainan Island[38] than with other East Asian populations (Supplementary Table 12), which is consistent with the hypothesis that ancient populations that were related to present-day speakers of Tai–Kadai languages and descended more anciently from farmers of the Yangtze River (for whom ancient DNA samples have not yet been analysed) spread agriculture to Taiwan around 3000 BC[39] .
고대 대만 집단과 현대 오스트로네시아어를 사용하는 대만 원주민들은 중국 본토 남부와 하이난섬에서 타이-까다이어를 사용하는 집단과 다른 동아시아 집단보다 훨씬 더 많은 대립유전자를 공유한다(보충 표 12 참조). 이는 타이-까다이어 사용자와 연관된 고대 인구가 양자강 농민들의 후손이며, 약 기원전 3000년경 대만으로 농업을 확산시켰다는 가설과 일치한다[38,39]. 양자강 농민의 고대 DNA는 아직 분석되지 않았지만, 이러한 가설을 뒷받침하는 중요한 유전적 증거로 해석된다.
A surprising finding is our observation that ancient North Chinese individuals are more closely related to ancient individuals of our Taiwan time transect than to early Holocene hunter-gatherers on the mainland side of the Straits of Taiwan (Supplementary Table 23).
놀라운 발견은 고대 중국 북부 개체들이 대만 시간 단면의 고대 개체들과 더 가깝게 연관되어 있다는 사실이다. 이는 대만 해협 본토 측의 초기 홀로세 수렵채집민들과의 관계보다 강한 유전적 연관성을 보여준다(보충 표 23 참조).
This suggests gene flow from Neolithic northern Chinese Mainland into Taiwan, which we estimate to be around 25% if we model it as derived from one of the two source lineages of Yellow River farmers (Fig. 2). This ancestry does not fit as coming from Yellow River farmers themselves, suggesting a north-to-south migration that is not associated with expansions of these farmers. A speculative possibility is that this ancestry was carried by cultivators of foxtail millet—which was domesticated in the north by around 8000 BC[40] and which, in the south, appears relatively early in the Neolithic Tapenkeng culture (around 3000–2500 BC) of Taiwan.
이는 신석기 시대 북중국 본토에서 대만으로의 유전자 흐름을 시사하며, 이를 황하 농민 두 계통 중 하나에서 유래한 것으로 모델링할 경우 약 25%로 추정된다(그림 2 참조). 그러나 이 조상이 황하 농민 자체에서 기원한 것으로는 설명되지 않으며, 이는 이러한 농민의 확장과는 무관한 북방에서 남방으로의 이주를 시사한다. 하나의 추정 가능한 가설은 이 조상이 북쪽에서 약 기원전 8000년에 경작화된 기장을 재배하던 농업민들에 의해 전달되었을 가능성이다[40]. 기장은 신석기 시대 대만의 대분갱문화(大坌坑文化; 기원전 3000~2500년경)에서 비교적 이른 시기에 나타난다.
Admixture of West and East Eurasian populations
서유라시아와 동유라시아 집단의 혼합
Mongolia falls near the eastern extreme of the Eurasian Steppe, and archaeological evidence shows that throughout the Holocene this region was a conduit for cultural exchanges between East and West Eurasia. For example, the Afanasievo culture—an eastward extension of the Yamnaya steppe pastoralist culture—brought the first dairying to the region[41] and had a cultural influence on subsequent phenomena such as Chemurchek. Our Mongolian time transect overwhelmingly derives ancestry from four sources from 6000 to 600 BC. The earliest-established source—and the only source that is primarily East-Asian-associated—is represented at essentially 100% frequency in the two East Mongolian hunter-gatherer individuals from the Neolithic (6000–5000 BC) who are some of the earliest individuals in our dataset (Fig. 3 and Supplementary Tables 24, 25). The second source appears the earliest in seven Neolithic hunter-gatherers from northern Mongolia from 5700 to 5400 BC who can be modelled as having around 5% of ancestry related to previously reported west Siberian hunter-gatherers[6] (Supplementary Table 25). The third source appears the earliest in individuals from the Afanasievo culture (around 3100 BC), who are genetically extremely similar to Yamnaya steppe pastoralists which is consistent with the pattern in individuals of the Afanasievo culture from Russia[4,6] . The fourth source appears by around 1400 BC and is well-modelled as deriving from people with ancestry similar to the pastoralists of the Sintashta culture who derive from a mixture of the Yamnaya culture (around two-thirds) and European farmers (approximately one-third).
몽골은 유라시아 초원의 동쪽 끝에 위치하며, 고고학적 증거에 따르면 홀로세 동안 이 지역은 동서 유라시아 간 문화 교류의 통로 역할을 했다. 예를 들어, 얌나야 초원 목축 문화의 동쪽 확장인 아파나시에보 문화는 이 지역에 최초로 낙농 문화를 도입했으며[41], 이후 체무르체크와 같은 현상에 문화적 영향을 미쳤다. 우리의 몽골 시간 단면 분석은 기원전 6000년부터 600년까지 네 가지 주요 계통에서 조상을 물려받았음을 보여준다. 가장 먼저 형성된 계통—그리고 주로 동아시아와 연관된 유일한 계통—은 신석기 시대(기원전 6000–5000년) 동몽골 수렵채집민 두 명에게서 본질적으로 100% 빈도로 나타나며, 이들은 우리의 데이터셋에서 가장 초기 개체들이다(그림 3 및 보충 표 24, 25). 두 번째 계통은 기원전 5700~5400년 북몽골의 신석기 수렵채집민 7명에게서 처음 나타나며, 약 5%의 조상이 이전에 보고된 서시베리아 수렵채집민과 관련된 것으로 모델링할 수 있다[6](보충 표 25). 세 번째 계통은 기원전 약 3100년 아파나시에보 문화 개체들에서 처음 나타나며, 이들은 유전적으로 얌나야 초원 목축민과 매우 유사하다. 이는 러시아 아파나시에보 문화 개체들에서 관찰된 패턴과 일치한다[4,6]. 네 번째 계통은 기원전 약 1400년에 나타나며, 얌나야 문화(약 2/3)와 유럽 농민(약 1/3)의 혼합에서 유래한 신타슈타 문화 목축민과 유사한 조상을 가진 집단에서 비롯된 것으로 모델링된다.
To quantify the admixture history in Mongolia, we used qpAdm[3,16] (Supplementary Table 25). Many eastern Mongolian individuals can be modelled as simple two-way admixtures of Neolithic eastern Mongolian populations as one source (65–100%) and the remainder of the ancestry deriving from west Siberian hunter-gatherers (Fig. 3). The individuals who fit this model were not only from Neolithic groups (0–5% west Siberian hunter-gatherers), but also a child from the Early Bronze Age from the Afanasievo Kurgak govi site (15%), the Ulgii group (21%), the main grouping from the Middle Bronze Age Munkhkhairkhan culture (31–36%) and, in the Late Bronze Age, a combined group from the Centre–West region (24–31%), as well as individuals of the Mongun Taiga type (35%). The fact that the child from Kurgak govi has no evidence of Yamnaya-related ancestry despite his clear Afanasievo cultural association and chronology makes him the first case of an individual buried with Afanasievo traditions who has no evidence of Yamnaya ancestry. The legacy of the spread during the Yamnaya era into Mongolia continued in two individuals from the Chemurchek culture whose ancestry can only be modelled using Yamnaya–Afanasievo ancestry as a source (around 33–51%) (Supplementary Table 25). This fits even when ancient European farmers are included in the outgroups, providing no evidence for the theory that long-distance movement of people spread West European megalithic cultural traditions to people of the Chemurchek culture[42] .
몽골에서 혼합의 역사를 정량화하기 위해 qpAdm[3,16]을 사용했다(보충 표 25). 많은 동몽골 개체들은 한 소스로 신석기 동몽골 인구(65–100%)와 나머지 조상으로 서시베리아 수렵채집민을 포함하는 단순한 2원 혼합으로 모델링할 수 있다(그림 3). 이 모델에 부합하는 개체들은 신석기 집단(서시베리아 수렵채집민 0–5%)뿐만 아니라, 초기 청동기 시대 아파나시에보 쿠르가크 고비 유적의 한 어린이(15%), 울기이 집단(21%), 중기 청동기 시대 문크하이르칸 문화의 주요 집단(31–36%), 후기 청동기 시대 중부-서부 지역의 결합 집단(24–31%) 및 몽군 타이가 유형의 개체들(35%)을 포함한다. 쿠르가크 고비의 어린이가 명확한 아파나시에보 문화적 연관성과 연대를 지니고 있음에도 얌나야 관련 조상의 증거가 전혀 없다는 점은, 아파나시에보 전통에 따라 매장되었으나 얌나야 조상의 증거가 없는 최초의 사례로 기록된다. 얌나야 시대 동안 몽골로의 확산의 유산은 체무르체크 문화의 두 개체에서도 나타나며, 이들의 조상은 얌나야-아파나시에보 계통을 소스로 사용하는 모델로만 설명할 수 있다(약 33–51%, 보충 표 25). 이 결과는 고대 유럽 농민을 아웃그룹에 포함했을 때도 유효하며, 체무르체크 문화의 사람들에게 서유럽 거석 문화 전통이 장거리 이동을 통해 전파되었다는 이론을 뒷받침하는 증거는 없다[42].
The one instance before 600 BC for which our four source model does not fit occurs in a Chemurchek individual (P = 3.7 × 10−4 from qpAdm), but we can successfully model the ancestry of this individual by adding 15% additional ancestry from populations related to the Turan region far to the south (Fig. 3). A parallel study[43] models a Chemurchek-associated individual as a mixture of Turan and early Kazakhstan pastoralists from the site of Botai, without any of the other three ancestries that we detect in all Chemurchek individuals in our study. As our best-fit model passes when Botai is in the reference set (P > 0.63) (Supplementary Table 25), the two findings would indicate an extremely complex origin for Chemurchek if both were correct, with one migration stream carrying Botai-related ancestry and the other not carrying it. From the Middle Bronze Age, there is no compelling evidence in the Mongolian time transect data for the persistence of the Yamnaya-derived lineages that spread with the Afanasievo culture. Instead, the Yamnaya-related ancestry can only be modelled as deriving from a later spread related to people of the Sintashta and Andronovo horizons of the Middle to Late Bronze Age who were themselves a mixture of around two-thirds Yamnaya-related and one-third European farmer-related ancestry[4–6] . The Sintashta-related ancestry is detected in proportions of 0–57% in groups from this time onward, with substantial proportions of Sintashta-related ancestry only in western Mongolia (Fig. 3 and Supplementary Table 25). For all of these groups, qpAdm ancestry models pass with Afanasievo groups in the outgroups whereas models with the Afanasievo-associated peoples as the source and Sintashta-related groups in the outgroups are all rejected (Fig. 3 and Supplementary Table 25).
기원전 600년 이전에 우리의 4원 소스 모델이 맞지 않는 유일한 사례는 체무르체크 문화의 한 개체에서 나타났으며, qpAdm 분석에서 P = 3.7 × 10⁻⁴로 나타났다. 그러나 이 개체의 조상을 남쪽으로 멀리 떨어진 투란 지역과 관련된 집단에서 15% 추가하여 모델링하면 성공적으로 설명할 수 있다(그림 3). 병행 연구[43]에서는 체무르체크 문화와 관련된 개체를 투란 지역과 보타이 유적지의 초기 카자흐스탄 목축민들의 혼합으로 모델링했으며, 우리의 연구에서 모든 체무르체크 개체에서 발견된 다른 세 가지 조상의 증거는 나타나지 않았다. 우리의 최적 모델이 보타이를 참조 집단으로 포함할 때 적합성 테스트를 통과(P > 0.63)한다는 점(보충 표 25 참조)을 고려하면, 두 연구 결과가 모두 맞다면 체무르체크 문화의 기원은 매우 복잡하며, 보타이 관련 조상을 포함한 이주 흐름과 이를 포함하지 않은 이주 흐름이 공존했음을 시사한다. 중기 청동기 시대 이후 몽골 시간 단면 데이터에서는 아파나시에보 문화와 함께 확산된 얌나야 계통의 지속성을 뒷받침하는 강력한 증거는 없다. 대신, 얌나야 관련 계통은 중기~후기 청동기 시대 신타슈타 및 안드로노보 문화와 관련된 사람들에서 유래한 후대의 확산으로 모델링할 수 있다. 이들은 약 2/3 얌나야 관련 조상과 1/3 유럽 농민 관련 조상의 혼합이었다[4–6]. 신타슈타 관련 조상은 이 시기 이후 집단들에서 0~57%의 비율로 감지되며, 신타슈타 관련 조상이 상당한 비율로 포함된 집단은 주로 서몽골 지역에서만 나타난다(그림 3 및 보충 표 25 참조). 이들 모든 집단에서 qpAdm 조상 모델은 아파나시에보 집단을 아웃그룹으로 설정했을 때 적합성 테스트를 통과했지만, 아파나시에보 관련 집단을 소스로 하고 신타슈타 관련 집단을 아웃그룹으로 설정한 모델은 모두 거부되었다(그림 3 및 보충 표 25 참조).
New ancestry began reaching Mongolia in large proportions starting in the Late Bronze Age, with qpAdm models failing when using Neolithic eastern Mongolian populations as a single East Asian source in some individuals from the Late Bronze Age of Khovsgol, Ulaanzukh and the Centre–West region, two individuals from the Early Iron Age associated with Slab Grave culture, and for Xiongnu, Xianbei and Mongol peoples.
However, when we include Han Chinese populations as a source, we estimate Han-related ancestry proportions of 9–80% in the aforementioned individuals (Supplementary Table 25).
새로운 계통이 후기 청동기 시대부터 몽골에 대규모로 도달하기 시작했다. qpAdm 모델은 일부 후기 청동기 시대 홉스골, 울란주흐 및 중서부 지역의 개체들, 초기 철기 시대 판석묘 문화와 관련된 두 개체, 그리고 흉노, 선비, 몽골 집단을 대상으로 할 때 신석기 동몽골 집단을 단일 동아시아 소스로 사용할 경우 적합하지 않았다.
그러나 한족 집단을 소스로 포함했을 때, 앞서 언급된 개체들에서 한족 관련 계통 비율이 9~80%로 추정되었다(보충 표 25 참조).
Turan-derived ancestry spread into the region again by the sixth to fourth century BC as we detect it in multiple individuals from the Iron Age Sagly culture. We find that alleles with two polymorphisms (rs1426654 and rs16891982) that are associated with light skin pigmentation and one (rs12913832) associated with blue eyes in European individuals occur frequently in the Sagly samples, but that the rs4988235 allele associated with lactose tolerance is nearly absent in all East Asian individuals that we analysed (Supplementary Table 15).
기원전 6~4세기 동안 투란 유래 계통이 이 지역으로 다시 확산되었으며, 이는 철기 시대 삭글리 문화의 여러 개체들에서 감지되었다. 삭글리 샘플에서 밝은 피부 색소와 관련된 두 가지 다형성(rs1426654 및 rs16891982) 및 파란 눈과 관련된 다형성(rs12913832)을 가진 대립유전자가 빈번하게 발견되었지만, 우리가 분석한 모든 동아시아 개체에서는 유당 내성과 관련된 대립유전자(rs4988235)가 거의 나타나지 않았다(보충 표 15 참조).
Although the Yamnaya–Afanasievo-associated lineages are consistent with having largely disappeared in Mongolia by the Middle to Late Bronze Age, we confirm and strengthen previous ancient DNA analysis that suggested that the legacy of this expansion persisted in western China into the time of the Iron Age Shirenzigou culture (410–190 BC)[44] . Considering many of the Shirenzigou individuals separately as well as three of the five genetically homogeneous suBClusters, the only parsimonious models derive all of their West-Eurasian-related ancestry from groups related to the Afanasievo culture, confirming that Afanasievo ancestry without the characteristic European farmer-related mixture, which appeared later in Central Asia and Mongolia, persisted in Xinjiang. For example, for the two individuals with the most West-Eurasian-related ancestry (Xinjiang_EIA_Shirenzigou_1C), all three-way models that fit include Russian Afanasievo ancestry (71–77%) (Fig. 3 and Supplementary Table 25). Moreover, the total ancestry from the two other West-Eurasian-related groups that can fit in small proportions in such models is always less than 9% (Supplementary Table 25). In pre-state societies, languages are thought to spread primarily through the movements of people[45] , and these results therefore add weight to the theory that the Tocharian languages of the Tarim Basin spread through the migration of Yamnaya descendants to the Altai Mountains and Mongolia (in the guise of the Afanasievo culture), from whence they spread further to Xinjiang[4–6,44,46,47] . These results are important for theories of the diversification of Indo-European languages, as they increase the evidence in favour of the hypothesis that the split of the second-oldest branch in the Indo-European language tree occurred at the end of the fourth millennium BC[44,46,47] .
얌나야-아파나시에보 관련 계통은 중기~후기 청동기 시대까지 몽골에서 거의 사라진 것으로 보이지만, 서부 중국에서는 철기 시대 시런즈거우 문화(기원전 410–190년)까지 이 확장의 유산이 지속되었다는 이전의 고대 DNA 분석 결과를 확인하고 이를 강화했다[44]. 시런즈거우 개체들 중 많은 경우와 유전적으로 동질적인 다섯 개 소군집 중 세 개를 별도로 고려한 결과, 서유라시아 관련 조상이 아파나시에보 문화와 관련된 집단에서 기원했다는 점을 확인할 수 있었다. 이는 유럽 농민 관련 혼합이 나타나지 않은 아파나시에보 계통이 신장 지역에 지속적으로 존재했음을 보여준다. 예를 들어, 서유라시아 관련 조상이 가장 많은 두 개체(Xinjiang_EIA_Shirenzigou_1C)의 경우, 적합한 세 가지 혼합 모델 모두 러시아 아파나시에보 계통을 71–77% 포함하고 있다(그림 3 및 보충 표 25 참조). 또한, 이러한 모델에서 적합한 다른 서유라시아 관련 집단의 총 기여도는 항상 9% 미만으로 나타난다(보충 표 25 참조). 국가 형성 이전 사회에서는 언어가 주로 사람들의 이동을 통해 확산된다고 여겨지며[45], 이러한 결과는 얌나야 후손들이 아파나시에보 문화 형태로 알타이 산맥과 몽골로 이동한 뒤 신장으로 확산되면서 타림 분지의 토카리아어가 전파되었다는 이론에 힘을 실어준다[4–6,44,46,47]. 이 결과는 인도유럽어족의 분화 이론에서도 중요한데, 이는 인도유럽어족 계통수에서 두 번째로 오래된 가지의 분리가 기원전 4천년 말에 발생했다는 가설을 지지하는 증거를 강화한다[44,46,47].
Conclusion
결론
While this study marks considerable progress in understanding the population history of East Asia, the findings raise as many questions as answers, motivating the collection of additional ancient DNA data. A particular priority should be to generate an ancient DNA time transect through southern China, including early farmers of the Yangtze River region—the putative source for the ancestry prevalent in the Southeast Asian Cluster of present-day groups—which would make it possible to test and extend the model presented in this study, and to better understand how dispersals of languages in Southeast Asia do or do not correlate to ancient movements of people. Another priority should be to generate data on many additional pre-Ice Age individuals from East Asia, which will make it possible to test the model of deep population relationships presented in Fig. 2 and to better understand the origins, migrations, and mixtures of the diverse modern human populations that have lived in East Asia for more than 40,000 years.
이번 연구는 동아시아 인구 역사에 대한 이해를 크게 진전시켰지만, 발견된 결과들은 답만큼이나 많은 질문을 제기하며 추가적인 고대 DNA 데이터 수집의 필요성을 강조한다.
특히 우선순위는 양자강 지역 초기 농업민을 포함한 남중국 지역의 고대 DNA 시간 단면 데이터를 생성하는 것이다. 이 지역은 현대 동남아시아 군집의 조상의 주요 원천으로 추정되며, 이를 통해 본 연구에서 제시된 모델을 검증하고 확장하며, 동남아시아 언어의 확산이 고대 인류 이동과 어떻게 연관되었는지 또는 연관되지 않았는지를 더 잘 이해할 수 있을 것이다.
또 다른 우선순위는 동아시아에서 빙하기 이전 개체들의 추가 데이터를 대량으로 확보하는 것이다. 이를 통해 그림 2에서 제시된 깊은 인구 관계 모델을 검증하고, 4만 년 이상 동아시아에 거주해 온 다양한 현대 인류 집단의 기원, 이동, 혼합 과정을 더 잘 이해할 수 있을 것이다.
- Cavalli-Sforza, L. L. The Chinese human genome diversity project. Proc. Natl Acad. Sci. USA 95, 11501–11503 (1998).
- HUGO Pan-Asian SNP Consortium. Mapping human genetic diversity in Asia. Science 326, 1541–1545 (2009).
- Haak, W. et al. Massive migration from the steppe was a source for Indo-European languages in Europe. Nature 522, 207–211 (2015).
- Allentoft, M. E. et al. Population genomics of Bronze Age Eurasia. Nature 522, 167–172 (2015).
- Damgaard, P. B. et al. 137 ancient human genomes from across the Eurasian steppes. Nature 557, 369–374 (2018).
- Narasimhan, V. M. et al. The formation of human populations in South and Central Asia. Science 365, eaat7487 (2019).
- Fu, Q. et al. An early modern human from Romania with a recent Neanderthal ancestor. Nature 524, 216–219 (2015).
- Fu, Q. et al. DNA analysis of an early modern human from Tianyuan Cave, China. Proc. Natl Acad. Sci. USA 110, 2223–2227 (2013).
- Korneliussen, T. S., Albrechtsen, A. & Nielsen, R. ANGSD: analysis of next generation sequencing data. BMC Bioinformatics 15, 356 (2014).
- Patterson, N., Price, A. L. & Reich, D. Population structure and eigenanalysis. PLoS Genet. 2, e190 (2006).
- Loh, P. R. et al. Inferring admixture histories of human populations using linkage disequilibrium. Genetics 193, 1233–1254 (2013).
- Alexander, D. H., Novembre, J. & Lange, K. Fast model-based estimation of ancestry in unrelated individuals. Genome Res. 19, 1655–1664 (2009).
- Yang, M. A. et al. 40,000-year-old individual from Asia provides insight into early population structure in Eurasia. Curr. Biol. 27, 3202–3208 (2017).
- Massilani, D. et al. Denisovan ancestry and population history of early East Asians. Science 370, 579–583 (2020).
- Wang, C. C. & Li, H. Inferring human history in East Asia from Y chromosomes. Investig. Genet. 4, 11 (2013).
- Patterson, N. et al. Ancient admixture in human history. Genetics 192, 1065–1093 (2012).
- Yang, M. A. et al. Ancient DNA indicates human population shifts and admixture in northern and southern China. Science 369, 282–288 (2020).
- Nakashima, A., Ishida, H., Shigematsu, M., Goto, M. & Hanihara, T. Nonmetric cranial variation of Jomon Japan: implications for the evolution of eastern Asian diversity. Am. J. Hum. Biol. 22, 782–790 (2010).
- Bellwood, P. & Renfrew, C. Examining the Farming/Language Dispersal Hypothesis (McDonald Institute for Archaeological Research, 2002).
- Robbeets, M. & Savelyev, A. The Oxford Guide to the Transeurasian Languages (Oxford Univ. Press, 2020).
- Siska, V. et al. Genome-wide data from two early Neolithic East Asian individuals dating to 7700 years ago. Sci. Adv. 3, e1601877 (2017).
- Kamberov, Y. G. et al. Modeling recent human evolution in mice by expression of a selected EDAR variant. Cell 152, 691–702 (2013).
- Zhang, X. L. et al. The earliest human occupation of the high-altitude Tibetan Plateau 40 thousand to 30 thousand years ago. Science 362, 1049–1051 (2018).
- Chen, F. H. et al. Agriculture facilitated permanent human occupation of the Tibetan Plateau after 3600 B.P. Science 347, 248–250 (2015).
- Zhang, M., Yan, S., Pan, W. & Jin, L. Phylogenetic evidence for Sino-Tibetan origin in northern China in the Late Neolithic. Nature 569, 112–115 (2019).
- van Driem, G. in The Peopling of East Asia: Putting Together Archaeology, Linguistics and Genetics (eds Sagart, L. et al.) 81–106 (Routledge, 2005).
- Liu, S. et al. Genomic analyses from non-invasive prenatal testing reveal genetic associations, patterns of viral infections, and Chinese population history. Cell 175, 347–359 (2018).
- Chiang, C. W. K., Mangul, S., Robles, C. & Sankararaman, S. A comprehensive map of genetic variation in the world’s largest ethnic group—Han Chinese. Mol. Biol. Evol. 35, 2736–2750 (2018).
- Reich, D. et al. Reconstructing Native American population history. Nature 488, 370–374 (2012).
- Lipson, M. et al. Ancient genomes document multiple waves of migration in Southeast Asian prehistory. Science 361, 92–95 (2018).
- McColl, H. et al. The prehistoric peopling of Southeast Asia. Science 361, 88–92 (2018). Wang, L. X. et al. Reconstruction of Y-chromosome phylogeny reveals two neolithic expansions of Tibeto-Burman populations. Mol. Genet. Genomics 293, 1293–1300 (2018).
- Ge, J. X., Wu, S. D. & Chao, S. J. Zhongguo yimin shi (The Migration History of China) (Fujian People’s Publishing House, 1997).
- Ning, C. et al. Ancient genomes from northern China suggest links between subsistence changes and human migration. Nat. Commun. 11, 2700 (2020).
- Wei, L. H. et al. Phylogeography of Y-chromosome haplogroup O3a2b2-N6 reveals patrilineal traces of Austronesian populations on the eastern coastal regions of Asia. PLoS ONE 12, e0175080 (2017).
- Ko, A. M. et al. Early Austronesians: into and out of Taiwan. Am. J. Hum. Genet. 94, 426–436 (2014).
- Skoglund, P. et al. Genomic insights into the peopling of the Southwest Pacific. Nature 538, 510–513 (2016).
- Lipson, M. et al. Reconstructing Austronesian population history in island Southeast Asia. Nat. Commun. 5, 4689 (2014).
- Bellwood, P. The checkered prehistory of rice movement southwards as a domesticated cereal—from the Yangzi to the equator. Rice 4, 93–103 (2011).
- Yang, X. et al. Early millet use in northern China. Proc. Natl Acad. Sci. USA 109, 3726–3730 (2012).
- Wilkin, S. et al. Dairy pastoralism sustained eastern Eurasian steppe populations for 5,000 years. Nat. Ecol. Evol. 4, 346–355 (2020).
- Kovalev, A. The great migration of the Chemurchek people from France to the Altai in the early 3rd millennium BCe. Int. J. Eurasian Stud. 1, 1–58 (2011).
- Jeong, C. et al. A dynamic 6,000-year genetic history of Eurasia’s Eastern Steppe. Cell 183, 890–904 (2020).
- Ning, C. et al. Ancient genomes reveal Yamnaya-related ancestry and a potential source of Indo-European speakers in Iron Age Tianshan. Curr. Biol. 29, 2526–2532 (2019).
- Bellwood, P. in The Encyclopedia of Global Human Migration (Wiley-Blackwell, 2013).
- Mallory, J. P. in Search of the Indo-Europeans: Language, Archaeology and Myth (Thames & Hudson, 1991).
- Anthony, D. The Horse, the Wheel, and Language: How Bronze-Age Riders from the Eurasian Steppes Shaped the Modern World (Princeton Univ. Press, 2007).
- Schiffels, S. & Durbin, R. Inferring human population size and separation history from multiple genome sequences. Nat. Genet. 46, 919–925 (2014).
- Wang, K., Mathieson, I., O’Connell, J. & Schiffels, S. Tracking human population structure through time from whole genome sequences. PLoS Genet. 16, e1008552 (2020).
- Jeong, C. et al. Long-term genetic stability and a high-altitude East Asian origin for the peoples of the high valleys of the Himalayan arc. Proc. Natl Acad. Sci. USA. 113, 7485–7490 (2016).