[바이오토픽] 인간유전체(human genome) 염기서열, 초안 발표 후 20년 만에 완성!
연구자들은 인간유전체 염기서열 초안에 2억 bp의 DNA와 115개의 단백질 코딩 유전자(protein-coding gene)를 추가했다. 그러나 Y 염색체를 완전히 시퀀싱하지는 못했다.
지금으로부터 20년 전 인간유전체프로젝트(HGP: Human Genome Project)와 셀레라 지노믹스(Celera Genomics)가 인간유전체 시퀀싱 결과를 발표했을 때, 인간유전체의 염기서열은 진정으로 완전하지 않았다. 약 15%가 누락되었는데, 연구자들은 기술적 한계 때문에 특정 DNA 신장부(stretch)들─특히 반복되는 염기쌍이 많은 곳─의 아귀가 어떻게 들어맞는지 알아낼 재간이 없었다. 시간이 경과함에 따라 일부 수수께끼는 해결되었지만(참고 1), 유전학자들이 2013년 이후 참조유전체(reference genome)로 사용해 온 최신 인간유전체는 완전한 시퀀스의 8%가 여전히 부족했다.
☞ 인간의 유전자는 모두 몇 개일까? (참고 2)
이제 약 30개 기관으로 구성된 다국적 협동연구팀인 T2T 컨소시엄(Telomere-to-Telomere Consortium)의 연구자들은 그 갭을 메웠다. 5월 27일 발표된 "인간유전체의 완전한 염기서열(The complete sequence of a human genome)"이라는 이름의 출판전 논문에서(참고 3), UC 산타크루즈의 유전체학 연구자 캐런 미가와 동료들은 나머지 부분을 시퀀싱했다고 보고했다. 이번에 115개의 단백질 코딩 유전자가 새로 추가되어, 단백질 코딩 유전자의 총수는 19,969개로 늘어났다.
☞ 인간유전체 완성
연구자들은 지난 20년 동안, 인간 참조유전체의 불완전한 부분을 채워 왔다. 그리하여 마침내 3억 5천만 bp에 달하는 DNA를 거의 완성했다.
오류율은 0.3%로 추정된다. X 염색체는 포함되었지만 Y 염색체는 포함되지 않았다. 단, 미토콘드리아 DNA는 제외한다.
"문제가 되는 부분 중 일부가 해결되었다니 반갑기 그지없다"라고 미국국립생물정보센터(US National Center for Biotechnology Information)의 킴 프루이트(생물정보학)는 말했다. "이번 결과는 유의미한 이정표다."
새로운 시퀀싱 기술
새로 시퀀싱된 유전체—T2T-CHM13라는 별명으로 불린다—는 인간유전체 염기서열 2013년 버전에 거의 2억 개의 염기쌍을 추가했다.
연구팀은 이번에 살아있는 사람에게서 DNA를 채취하는 대신, 완전포상기태(CHM: complete hydatidiform mole)라는 세포주를 사용했다. CHM이란 인체에 형성되는 조직의 일종으로, 정자가 무핵난자(egg with no nucleus)를 수정시킬 때 생겨난다. 그 결과 탄생한 세포에는 아버지의 염색체만 포함되므로, 연구팀은 상이한 사람에게서 유래한 두 세트의 염색체를 구별하는 수고를 덜 수 있다.
미가에 의하면, 이번 성과가 가능했던 것은 퍼시픽 바이오사이언시즈(Pacific Biosciences, 캘리포니아주 멘로파크 소재)의 시퀀싱 기술 덕분이었다고 한다. 그 기술은 레이저를 이용하여, 세포에서 분리된 기다란 DNA 신장부를 한번에 2만 bp까지 스캔할 수 있다. 그에 반해 전통적인 시퀀싱 기법은 DNA 조각을 한번에 겨우 몇 백 bp밖에 읽을 수 없어, 연구자들은 신장부들을 마치 퍼즐조각처럼 다시 조립해야 한다. 게다가 기다란 조각은 조립하기가 훨씬 더 쉬운데, 그 이유는 중복되는 시퀀스가 포함되어 있을 가능성이 높기 때문이다.
그러나 T2T-CHM13은 인간유전체와 관련된 마지막 단어가 아니다. T2T 연구팀은 몇 개의 염색체 영역을 해결하느라 애를 먹었는데, 그 결과 유전체의 약 0.3%가 오류를 포함한 것으로 추정된다고 한다. 거기에 갭은 전혀 없지만, 미가에 의하면 그 영역에 대한 품질관리 체크가 까다로웠다고 한다. 그리고 포상기태를 형성한 정자세포가 하나의 X 염색체를 운반했기 때문에 핵형(Karyotype)이 '46,XX'(참고 4)가 되는 바람에, 연구팀은 (전형적으로 남성의 생물학적 발생을 촉발하는) Y 염색체를 아직 시퀀싱하지 못했다.
수백 명의 유전체 시퀀싱 (참고 5)
T2T-CHM13은 한 사람의 유전체만을 대변한다. 그러나 T2T 컨소시엄은 인간범유전체참조컨소시엄(Human Pangenome Reference Consortium)이라는 단체와 손을 잡고, 향후 3년 동안 전 세계에서 300여 명의 유전체를 시퀀싱할 계획이다. 미가에 의하면, 합동 연구팀은 T2T-CHM13을 참조유전체로 사용하여, 유전체에서 어떤 부분이 개인별로 다른지를 분석할 수 있을 거라고 한다. 또한 그들은 양친의 염색체를 모두 포함한 전장유전체를 시퀀싱할 계획이다. 참고로, 미가가 이끄는 연구팀은 이번에 사용한 방법과 동일한 방법을 이용하여 Y 염색체를 시퀀싱해 왔다.
미가는, 연구자들이 「새로 시퀀싱된 '부분' 및 '유전자」'와 「질병」 간의 관련성을 신속히 밝혀내기를 기대하고 있다. "인간유전체가 처음 발표되었을 때, 우리는 마땅한 도구를 갖추지 않고 있었다"라고 그녀는 말했다. "그러나 새로 시퀀싱된 유전자의 기능에 대한 정보는 그때보다 훨씬 더 빠르게 입수될 것이다. 왜냐하면 그 동안 엄청난 자원이 축적되었기 때문이다."
미가의 소망은, 미래의 인간유전체 염기서열이 (읽기 어려운 부분까지 포함하여, 새로 시퀀싱된 부분을 총망라하는) 모든 것을 다루는 것이다. 이제 참조유전체가 완성되었고 기술적 난제(難題)중 일부가 해소된 만큼, 그녀의 소망은 쉽게 이루어질 것으로 보인다. "우리는 유전체학의 새로운 표준을 마련해야 하며, 그것은 특별한 것이 아니라 일상적인 것이 되어야 한다"라고 그녀는 말했다.
※ 참고문헌
1. https://www.nature.com/articles/462843a
2. https://www.ibric.org/myboard/read.php?Board=news&id=295163&SOURCE=6
3. https://doi.org/10.1101/2021.05.26.445798
4. https://sites.google.com/ucsc.edu/t2tworkinggroup/chm13-cell-line
5. https://www.nature.com/articles/d41586-021-01506-w
※ 출처: C&EN - American Chemical Society https://cen.acs.org/biological-chemistry/genomics/Full-human-genome-sequenced-20/99/i21
바이오토픽 양병찬 (약사, 번역가)
서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리...
생명과학 양병찬 (2021-06-08)