[바이오토픽] 세상을 바꾼 알파폴드: 방대한 단백질 구조 데이터베이스 제공
알파폴드의 신경망은 35만 가지 이상의 '인간 및 20개 모델생물의 단백질구조 예측'이 수록된 혁명적 데이터베이스를 선사했다.
인간의 유전체에는 2만 가지 이상의 단백질에 대한 지시사항이 담겨 있다. 그러나 지금껏 실험을 통해 3D 구조가 결정된 것은 그중 1/3정도밖에 안 된다. 그리고 많은 경우, 그 구조들은 부분적으로 알려져 있을 뿐이다.
이제 런던에 본사를 둔 구글의 자매회사인 딥마인드가 개발한 알파폴드라는 혁명적 인공지능이, 거의 모든 인간 단백질체(proteosome: 하나의 생물체가 발현하는 단백질의 총합)의 구조를 예측해 버렸다. 그에 더하여, 알파폴드는 다른 생물들—생쥐와 옥수수에서부터 말라리아 병원체에 이르기까지—의 거의 완전한 단백질체도 예측했다.
현재 공공 데이터베이스를 통해 검색할 수 있는 35만 가지 이상의 단백질 구조는 정확성이 제각각이다. 그러나 연구자들에 따르면, 그 자원—올해 말까지 1억 3,000만 개로 급증할 예정이다—은 생명과학에 혁명을 일으킬 잠재력을 지니고 있다고 한다.
"내 관점에서 볼 때, 이건 완전히 혁명이다. 이 모든 단백질의 형태를 알면 그 메커니즘에 대한 통찰을 얻을 수 있기 때문이다"라고 유니버시티칼리지런던(UCL)의 크리스틴 오렌고(계산생물학)는 말했다.
"지금껏 AI 시스템이 과학적 지식에 이만큼 기여한 적은 없었다. 내 입으로 이렇게 말하는 게 쑥스럽지만 전혀 과장이 아니라고 생각한다"라고 딥마인드의 공동 창업자이자 CEO인 데미스 하사비스는 말했다.
그러나 연구자들은 이토록 방대한 무료 데이터베이스가 '끝'이 아니라 이제 겨우 '시작'임을 강조한다. 그들은 그것의 예측력을 검증하고 싶어하며, 더욱 중요한 것은 '지금껏 불가능했던 실험'에 활용하고 싶어 한다. "우리가 이만한 규모의 데이터를 보유하게 된 것은 경이로운 첫걸음이다"라고 알파폴드의 초기버전에 대한 자문을 제공했던 UCL의 데이비드 존스(계산생물학)는 말했다.
경진대회를 휩쓴 예측
딥마인드는 지난해에 생명과학계를 까무러치게 했다. 알파폴드의 업데이트 버전 중 하나가 2년에 한 번씩 열리는 CASP(Critical Assessment of Protein Structure Prediction)라는 단백질 구조예측 경진대회를 휩쓴 것이다(참고 1). 전통적으로 학자들의 영역이었던 이 대회에서, 연구자들은 '실험적으로 해명되었지만 아직 공표되지 않은 단백질'의 구조를 예측한다.
알파폴드가 예측한 것 중 몇 개는 매우 훌륭한 실험모델과 일치했고, 일부 과학자들은 알파폴드가 조만간 세상을 바꿀 거라고 예견했다. 그리고 지난주, 딥마인드는 알파폴드 최신버전의 소스코드를 공개함과 동시에 자세한 개발 과정을 논문으로 발표했다(참고 2; 학술팀들은 이미 그 자원을 이용하여 유용한 예측을 하기 시작했다). 알파폴드의 오픈소스 발표를 준비하는 과정에서, 딥마인드는 코드의 효율성을 더욱 향상시켰다. 그 결과, 작년에 CASP에서 예측한 구조의 일부는 며칠이 소요됐지만, 업데이트된 버전은 그것을 수 분 ~ 수 시간에 해결할 수 있게 되었다(참고 3).
이처럼 향상된 효율성을 무기로, 딥마인드 팀은 인간 유전체(그리고 덤으로, 20가지 모델생물의 유전체)에 코딩된 모든 알려진 단백질들을 예측하는 작업에 착수했다. 지금까지의 결과는 영국 힝크턴 소재 EMBL-EBI(European Molecular Biology Laboratory European Bioinformatics Institute)이 운영하는 데이터베이스(https://alphafold.ebi.ac.uk/)에서 열람할 수 있다.
단백질 구조 예측(이중에는 98.5%에 달하는 인간의 단백질이 포함되어 있으며, 다른 생물들에 대한 실적도 이와 비슷하다)에 더하여, 딥마인드는 알파폴드 예측의 신뢰성을 수치화했다. "우리는 실험자와 생물학자들을 위해, 예측의 어떤 부분을 신뢰할 수 있는지에 대해 명확한 시그널을 제공하고 싶다"라고 딥마인드의 과학 엔지니어로서 인간 프로테옴 예측에 관한 논문(참고 4)의 제일저자인 캐스린 툰야수부나쿨은 말했다. "인간 프로테옴의 경우, 개별 아미노산의 위치에 대한 예측의 58%는 단백질 접힘의 형태를 확신할 수 있을 만큼 훌륭하다. 그 예측 중 일부—전체의 36%—는 신약설계에 유용한 원자적 특징(예: 효소의 활성부위)을 상술할 수 있을 만큼 정확하다."
심지어 덜 정확한 예측도 통찰을 제공할 수 있다. 생물학자들에 의하면, 인간과 진핵세포 단백질의 많은 부분은 본질적으로 무질서한(inherently disordered) 부분을 포함하고 있는데, 이 부분은 다른 분자들과의 관계하에서만 확정된 구조를 갖게 된다고 한다. "많은 단백질들은 수용액 속에서 꿈틀거릴 뿐, 고정된 구조를 갖지 않는다"알파폴드의 선임연구자인 존 점퍼는 말했다. "알파폴드가 예측한 영역 중 신뢰성이 낮은 부분 중 일부는, 과학자들이 무질서하다고 생각하는 부분과 일치한다"라고 딥마인드 「과학용 AI팀」의 푸시밋 콜리 팀장은 말했다.
연구자들에 따르면, 알파폴드 예측의 가장 까다로운 과제 중 하나는 개별 단백질과 다른 세포요소들 간의 상호작용 메커니즘을 규명하는 것이라고 한다. CASP 경진대회의 경우, 대부분의 예측은 도메인(domain)이라고 불리는 단백질의 '독립적인 접힘 단위(independently folding unit)'에 관한 것이었다. 그러나 인간과 다른 생물의 프로테옴에는 '반(半)독립적으로 접히는 도메인(semi-independently folding domain)'을 여럿 보유한 단백질들이 포함되어 있다. 또한 인간의 세포에는 상호작용하는 단백질들의 사슬 여러 개로 구성된 분자(예: 세포막상의 수용체)도 포함되어 있다.
넘쳐나는 데이터
"지난주에 약 36만 5천 개의 구조가 수록됐던 데이터베이스의 규모는 올해 말에 약 1억 3천 만 개—모든 알려진 단백질의 약 절반—로 팽창할 것이다"라고 EMBL-EBI의 사미르 벤란카르(구조생물정보학)는 말했다. 그 데이터베이스는 새로운 단백질이 동정되고 예측이 향상됨에 따라 업데이트될 것이다. "그것은 지금껏 접근할 수 있었던 자원과 양적·질적으로 다르다"라고 툰야수부나쿨은 말했다. 그녀는 과학자들이 만나게 될 데이터베이스의 성격을 규정하느라 애쓰고 있다.
연구자들은 이미 알파폴드와 관련 도구를 이용하여 (엑스선결정술과 저온전자현미경을 이용해 산출된) 실험 데이터를 이해하고 있다. 콜로라도 대학교 볼더 캠퍼스의 마르셀로 소사(생화학)는 알파폴드를 이용하여, 콜리스틴(colisten)—세균이 항생제를 회피하는 데 사용하는 단백질—의 엑스선 데이터 모델을 분석했다. "그 결과 실험모델과 알파폴드 예측 사이에 몇 군데 차이점이 발견되었는데, 그 공통점은 알파폴드가 신뢰성이 낮다고 판정한 부분이라는 것이다"라고 소사는 말했다. 이는 알파폴드가 자신의 한계를 정확히 예측했음을 시사한다.
"그럼에도 불구하고, 생물학자들은 알파폴드의 신뢰성을 더 잘 파악하기 위해, '실험 데이터 대비 벤치마킹'을 계속할 것이다"라고 영국 케임브리지 소재 MRC 분자생물학연구소의 벤키 라마크리시난(구조생물학)은 말했다. "우리는 알파폴드의 데이터를 신뢰할 수 있어야 한다"라고 오렌고는 덧붙였다.
존스는 알파폴드의 성취에 큰 인상을 받았다고 한다. 그러나 그에 의하면, 알파폴드가 예측한 모델 중 상당수는 학자들이 초기에 개발한 소프트웨어로도 만들 수 있는 것이라고 한다. "대부분의 단백질의 경우, 기존의 방법으로도 웬만한 일을 처리할 수 있다"라고 그는 말했다. 특정한 단백질의 구조를 얻고자 전력투구하는 과학자들은 실험적 접근방법을 이용하여 소기의 목적을 거둘 수 있을 것이다.
"그러나 그렇게 많은 단백질 구조를 수시로 이용할 수 있게 됨에 따라, 생물학의 패러다임이 바뀔 것이다"라고 컬럼비아 대학교 뉴욕시티 캠퍼스에서 단백질 구조예측을 연구하는 모하메드 알쿠라이시(계산생물학)는 말했다. 그의 분야에서는 정확한 단백질 구조를 그 정도 규모로 예측하느라 많은 시간과 에너지를 소비해 왔기 때문에, 정작 그 자원을 어떻게 활용할 것인지에 대해 생각할 엄두를 내지 못했다고 한다. "오늘날 우리가 하는 일들은 모두 단백질 시퀀스에 의존하는데, 이제 그 구조를 손에 넣었으므로 원하는 일에 매진할 수 있다."
오렌고의 바람은, 방대한 단백질구조 데이터베이스를 이용하여 단백질의 구조적 제한(structural constraint)을 더 잘 이해하는 것이다. 그녀는 약 5천 개의 알려진 단백질로 구성된 '구조적 패밀리'를 데이터베이스를 만들었는데, 그중 절반의 데이터는 구조 항목(field)이 공란으로 되어 있다고 한다. "알파폴드의 예측은 새로운 형태를 알아내는 데 도움이 될 것이다. 우리는 접힌 공간(folding space)이 어떻게 생겼는지 정말 궁금하다"라고 그녀는 말했다.
존스는 알파폴드가 생물학자들에게 '그렇게 많은 구조를 어디에 쓸 것이고, 그로 인해 얼마나 많은 수고를 덜 수 있을 것인지'에 대해 많은 성찰의 기회를 제공할 거라고 예상한다. "조만간 많은 컨퍼런스가 열려, '이제 1억 3천만 개의 모델을 손에 넣었으니, 생물학에 대한 우리의 견해가 어떻게 달라질 것인지'를 놓고 열띤 토론이 벌어질 것이다"라고 그는 말했다. "지금 당장은 가시적인 게 없을지 모르지만, 앞으로 생물학의 판도가 크게 달라질 것이다."
※ 참고문헌
1. https://www.ibric.org/myboard/read.php?Board=news&id=324897&SOURCE=6
2. https://doi.org/10.1038/s41586-021-03828-1
3. https://www.ibric.org/myboard/read.php?Board=news&id=332919&SOURCE=6
4. https://doi.org/10.1038%2Fs41586-021-03819-2
※ 출처:
1. MIT Technology Review https://www.technologyreview.com/2021/07/22/1029973/deepmind-alphafold-protein-folding-biology-disease-drugs-proteome/
2. Nature News https://www.nature.com/articles/d41586-021-02025-4
바이오토픽 양병찬 (약사, 번역가)
서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리...
생명과학 양병찬 (2021-07-26)