카테고리 없음

[바이오토픽] 단백질 구조 예측용 인공지능 「알파폴드 2」와 「로제타폴드」, 대중의 품에 안기다

산포로 2021. 7. 19. 13:47

[바이오토픽] 단백질 구조 예측용 인공지능 「알파폴드 2」와 「로제타폴드」, 대중의 품에 안기다

 

딥마인드와 한 라이벌 학술그룹이 개발한 머신러닝 시스템의 소스가 공개됨으로써 누구나 자유로이 접근할 수 있게 되었다.

 

The RoseTTAFold software predicted hundreds of new protein structures, including this model of human interleukin-12 bound to its receptor. Credit: Ian Haydon/Institute for Protein Design

전 세계 과학자들은 단백질의 3D 구조를 정확히 예측하는 소프트웨어에 자유로이 접근할 수 있게 되었다. 이로써 그것은 '대중을 위한 단백질 구조예측 시스템(protein-structure prediction for the people)'이 되었다.

7월 15일, 런던에 본사를 둔 딥마인드(DeepMind)는 자사(自社)의 딥러닝 신경망(deep-learning neural network)인 「알파폴드 2(AlphaFold 2)」의 오픈소스 버전을 공개함과 동시에, 《Nature》에 발표한 논문에서 그 접근방법을 기술했다(참고 1). 「알파폴드 2」는 작년에 거행된 단백질 구조예측 경진대회(protein-structure prediction competition)를 지배했다(참고 2; 한글자료)

한편 한 학술그룹은 「알파폴드 2」에서 영감을 얻어 자신들만의 단백질 예측도구를 개발하여, 이미 과학자들 사이에서 인기를 얻고 있다. 「로제타폴드(RoseTTaFold)」라고 불리는 그 시스템은 「알파폴드 2」와 거의 비슷한 성능을 발휘하며, 7월 15일 《Science》에 출판된 논문에서 기술되었다(참고 3).

"두 가지 도구의 오픈소스적 성격이 의미하는 것은, 과학계가 그 진보에 기반하여 더욱 강력하고 유용한 소프트웨어를 창조해야 한다는 것이다"라고 시카고 대학교 일리노이 캠퍼스의 쉬진보(계산생물학)는 논평했다.

「알파폴드 2」의 등장

단백질은 아미노산 사슬들로 구성되어 있는데, 그 사슬들이 3D 형태로 접힐(folded) 때 세포 안에서 단백질의 기능을 결정하게 된다. 지난 수십 년 동안, 연구자들은 실험적 기법들(예: 엑스선 결정술, 저온전자현미경법)을 이용하여 단백질의 구조를 결정해 왔다. 그러나 그런 방법들은 시간과 비용이 많이 들며, 어떤 단백질들은 그런 분석에 곁을 내 주지 않는다.

지난해에, 딥마인드는 자사의 소프트웨어인 「알파폴드 2」가 단백질의 시퀀스만 갖고서 수많은 단백질의 구조를 정확하게 예측할 수 있다는 사실을 증명함으로써 전 세계 과학계를 뒤흔들었다. DNA에 의해 결정되는 단백질의 구조를 단백질의 시퀀스만 갖고서 예측하다니! 연구자들은 수십 년 동안 이 난제(難題)에 매달려 왔는데, 「알파폴드 2」가 2년에 한 번씩 열리는 CASP라는 경진대회에서 탁월한 성적을 거두자, CASP의 공동 창설자는 "어떤 의미에서 그 문제는 해결되었다"라고 선포했다.

딥마인드—이 회사는 영업상 비밀을 지키는 것으로 명성이 자자하다—는 12월 1일 CASP에서 열린 간단한 프레젠테이션에서 「알파폴드 2」를 기술했다. 그러면서, "네트워크의 개요를 더욱 자세히 기술한 논문을 발표하고, 모든 연구자들로 하여금 이 소프트웨어를 사용하도록 하겠다"라고 약속했지만 더 이상의 언급을 회피했다.

"학자들이 멘붕에 빠진 것은 어찌 보면 당연하다"라고 「로제타폴드」를 개발한 워싱턴 대학교 시애틀 캠퍼스의 데이비드 베이커(생화학)는 말했다. "생각해 보라. 만약 당신이 끙끙대던 문제를 누군가가 풀고서도 그 방법을 공개하지 않는다면, 어떻게 연구를 계속할 수 있겠는가?"

"그 당시 나는 연구실에서 잘릴지 모른다고 생각했어요"라고 베이커 랩(Baker Lab)의 일원인 백 민경 박사(계산화학; 참고 4)는 술회했다. 그러나 딥마인드의 프레젠테이션은 백 박사에게, 무턱대고 기다리고만 있을 수 없는 새로운 아이디어를 자극했다. 그래서 그녀는 베이커를 비롯한 동료들과 함께 브레인스토밍 방식으로 「알파폴드 2」의 성공을 재연하기 시작했다.

그들은 여러 가지 핵심적인 진보를 이루었는데, 그중에는 「신경망이 (예측하고자 하는 표적과 혁명적으로 관련된) 단백질에 관한 정보를 어떻게 이용하는지」와 「'단백질의 한 부분에 대해 예측된 구조'가 '단백질의 다른 부분에 해당하는 시퀀스들을 다루는 방법'에 어떻게 영향을 미치는지」가 포함되어 있었다.

「로제타폴드」는 「알파폴드 2」와 거의 비슷한 성능을 발휘할 뿐만 아니라, 다른 CASP 참가자들(이중에는 베이커랩의 다른 참가자들도 포함되어 있다)보다 훨씬 뛰어난 성능을 발휘한다. 그게 왜 「알파폴드 2」와 동등하지 않은지는 아직 불분명하지만, 백 박사에 의하면 한 가지 가능성은 딥마인드의 전문지식이라고 한다. "우리 연구실에는 딥러닝 엔지니어들이 한 명도 없어요"라고 그녀는 말했다(참고 5). 쉬진보는 백 박사와 동료들의 노력에 큰 인상을 받았으며, 딥마인드의 성공 비결이 '엔지니어링 전문지식'과 '우월한 컴퓨팅 파워'에 접근할 수 있었기 때문이라고 생각하고 있다.

더욱 빨라진 구조예측

딥마인드는 「알파폴드 2」의 소스를 공개했을 뿐만 아니라, 알고리즘을 간소화했다. "기존의 신경망으로는 CASP에서 출제된 일부 단백질의 구조를 예측하는 데 며칠이 걸리지만, 오픈소스 버전은 그보다 약 16배 빠르다"라고 알파폴드의 수석연구원인 존 점퍼는 말했다. 이번에 공개된 「알파폴드 2」는 단백질의 크기에 따라 수 분 ~ 수 시간 만에 구조를 예측할 수 있으며, 「로제타폴드」와 우열을 가릴 수 없는 수준이다.

「알파폴드 2」의 소스코드를 누구나—영리업체 포함—자유로이 이용할 수 있게 되었지만, 기술적인 전문지식이 없는 연구자들에게는 아직 그다지 유용하지 않을 수 있다. "딥마인드는 특정한 표적을 예측하기 위해 지금껏 엄선된 연구자 및 단체들—이를테면 스위스 제네바에 본사를 둔 비영리단체인 「소외질환 치료제 이니셔티브(Drugs for Neglected Diseases initiative)」—과 협력해 왔지만, 향후 접근권이 더욱 확대되기를 바라고 있다"라고 딥마인드의 「과학용 AI(AI for science)」 팀을 이끄는 푸시밋 콜리는 말했다. "이 분야에는 우리가 할 일이 매우 많다."

「로제타폴드」의 코드를 자유로이 이용하게 하는 것은 물론, 베이커 랩에서는 (연구자들이 단백질 시퀀스를 로딩하고 예측된 구조를 얻을 수 있는) 서버를 구축했다. "그 서버는 지난달에 출범한 이래, 지금까지 약 500명이 제출한 5,000여 개의 단백질 구조를 예측했다"라고 베이커는 말했다.

"이제 「로제타폴드」와 「알파폴드 2」의 코드가 모두 공개되었으므로, 연구자들은 두 가지 진보의 혜택을 모두 누릴 수 있다"라고 쉬진보는 말했다. "나아가 그것들을 바탕으로, 지금껏 「알파폴드 2」가 버거워 했던 단백질의 구조를 예측하는 데도 기여할 수 있을 것이다." 현재 이 분야에서 초미의 관심사는 두 가지인데, 하나는 「상호작용하는 다중 단백질 복합체(complex of multiple interacting proteins)를 예측」하는 것이고, 다른 하나는 이러한 소프트웨어를 「새로운 단백질 설계(design of new protein)에 응용」하는 것이다.

 

※ 참고문헌
1. https://doi.org/10.1038%2Fs41586-021-03819-2
2. https://www.nature.com/articles/d41586-020-03348-4 (한글자료 https://www.ibric.org/myboard/read.php?Board=news&id=324897&SOURCE=6)
3. https://doi.org/10.1126%2Fscience.abj8754
4. https://www.bakerlab.org/index.php/members/minkyung-baek/
5. https://www.nature.com/articles/d41586-021-01968-y

※ 출처: C&EN - American Chemical Society
https://cen.acs.org/analytical-chemistry/structural-biology/Accurate-protein-structure-prediction-AI/99/i26

 

바이오토픽 양병찬 (약사, 번역가)

 

서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리...

 

생명과학 양병찬 (2021-07-19)

https://www.ibric.org/myboard/read.php?Board=news&id=332919