인공지능(AI)은 DNA를 해석하고 새로운 염기서열을 만드는 과정에도 활용되고 있다. 이번 주 국제학술지 '사이언스' 표지에는 DNA를 이루는 단일 염기부터 유전체 수준까지 염기서열을 해석하고 생성까지 할 수 있는 AI 모델 'Evo'가 소개됐다.
브라이언 히에 미국 아크연구소 교수팀은 대규모 언어 모델(LLM)을 활용한 고해상도 염기서열 해석·생성 AI 모델인 Evo를 개발하고 연구결과를 15일(현지시간) 사이언스에 공개했다.
생명체의 특성을 결정하는 유전정보는 DNA 염기서열에 모두 암호화됐다. 아메바처럼 단순한 생물의 유전체도 수백만 개의 염기쌍으로 이뤄져 있어 매우 복잡하다. AI가 등장한 이후 방대한 데이터를 학습하고 추론·생성할 수 있는 LLM을 생물학에 활용하려는 노력이 이어졌지만 대규모 유전체에 적용하면 계산 부담이 커 한계가 있었다.
연구팀은 딥러닝 기술을 활용해 긴 염기서열도 효율적으로 처리할 수 있는 AI 모델 Evo를 개발했다. Evo는 단순한 생물인 원핵생물과 파지 바이러스에서 유래한 270만개 유전체 정보를 활용해 훈련됐다.
연구팀은 Evo를 활용해 유전자 가위로 알려진 크리스퍼(CRISPR-Cas) 분자복합체의 염기서열을 만들고 실제로 기능하는 것을 확인했다. 1메가베이스(Mb, 염기쌍 100만 개) 이상의 염기서열을 가진 DNA도 생성할 수 있었다.
Evo를 활용하면 작은 DNA 변화가 생명체에 미치는 영향을 예측하고 새로운 생물학적 시스템을 설계할 수 있을 것으로 기대된다.
연구팀은 "DNA 합성, 유전체 공학 발전과 더불어 Evo 같은 대규모 염기서열 모델이 더욱 발전하면 생명체 설계 능력이 가속화될 것"이라고 밝혔다.
<참고 자료>
- doi.org/10.1126/science.ado9336