카테고리 없음

인공지능 기술을 이용한 유전자 전사인자 예측 시스템 개발

산포로 2020. 12. 29. 14:40

인공지능 기술을 이용한 유전자 전사인자 예측 시스템 개발

- KAIST 생명화학공학과 이상엽 특훈교수와 美 UCSD 버나드 팔슨(Bernhard Palsson) 공동
  연구팀, 유전자 전사인자 예측을 위한 인공지능 개발
- 모든 생물군의 유전자 전사 조절 네트워크 분석 등 응용 기대

 

<KAIST 이상엽 특훈교수>

KAIST는 생명화학공학과 이상엽 특훈교수와 미국 캘리포니아대학교 샌디에이고캠퍼스(UCSD) 생명공학과 버나드 팔슨(Bernhard Palsson) 교수 공동연구팀이 인공지능을 이용해 단백질 서열로부터 *전사인자를 예측하는 시스템인 `딥티팩터(DeepTFactor)'를 개발했다고 29일 밝혔다. 이번 연구는 국제학술지인 `미국국립과학원회보(PNAS)'에 12월 28일 字 게재됐다. (논문명: DeepTFactor: A deep learning-based tool for the prediction of transcription factors, www.pnas.org/content/118/2/e2021171118)
 ※ 전사인자 (transcription factor) : 유전자의 전사(유전 정보를 복사하는 과정)를 조절하는 단백질. 특정 DNA 서열에 특이적으로 결합해 유전자의 전사를 조절한다.
 ※ 저자 정보 : 김기배(한국과학기술원, 제1 저자), 예 가오(Ye Gao) (UCSD, 제2 저자), 버나드 팔슨(Bernhard Palsson) (UCSD, 제3 저자), 이상엽(교신저자) 포함 총 4명

전사인자는 특정한 DNA 서열에 특이적으로 결합해 유전자의 전사(유전 정보를 복사하는 과정)를 조절하는 단백질이다. 전사인자로 인한 유전자 전사를 분석함으로써 유기체가 유전적 또는 환경적 변화에 어떻게 반응해 유전자의 발현을 제어하는지 이해할 수 있다. 이러한 점에서 유기체의 전사인자를 찾는 것은 유기체의 전사 조절 시스템 분석을 위한 첫 단계라고 할 수 있다.

지금까지 새로운 전사인자를 찾기 위해서는 이미 알려진 전사인자와의 상동성(유사한 성질)을 분석하거나, 기계학습(머신러닝)과 같은 데이터 기반의 접근 방식을 이용했다. 기존의 기계학습 모델을 이용하기 위해서는 분자의 물리 화학적 특성을 계산하거나, 생물학적 서열의 상동성을 분석하는 등, 해결하고자 하는 문제에 대한 전문 지식에 의존해 모델의 입력값으로 사용할 특징을 찾아내는 과정이 필요하다.

한편, 심층 학습(딥러닝)은 문제 해결을 위한 잠재적인 특징을 내재적으로 학습할 수 있기에 최근 다양한 생물학 분야에서 활용되고 있다. 하지만, 심층 학습을 이용한 예측 시스템의 경우 시스템 내부의 복잡한 연산 때문에 추론 과정을 직접 확인할 수 없는 `블랙박스(black box)'라는 특징을 가지고 있다.

공동연구팀은 심층 학습 기법을 이용해 주어진 단백질 서열이 전사인자인지 예측할 수 있는 시스템인 딥티팩터(DeepTFactor)를 개발했다. 딥티팩터는 단백질 서열로부터 전사인자를 예측하기 위해 세 개의 병렬적인 합성곱 신경망(convolutional neural network)을 이용한다. 공동연구팀은 딥티팩터를 이용해 대장균(Escherichia coli K-12 MG1655)의 전사인자 332개를 예측했으며, 그중 3개의 전사인자의 게놈 전체 결합 위치(genome-wide binding site)를 실험으로 확인함으로써 딥티팩터의 성능을 검증했다.

공동연구팀은 나아가 딥티팩터의 추론 과정을 이해하기 위해 특징 지도 (saliency map) 기반의 심층 학습 모델 해석 방법론을 사용했다. 이를 통해 딥티팩터의 학습 과정에서 전사인자의 DNA의 결합 영역에 대한 정보가 명시적으로 주어지지 않았지만, 내재적으로 이를 학습해 예측에 활용한다는 사실을 확인했다.

연구팀 관계자에 따르면, 특정 생물군의 단백질 서열만을 위해 개발됐던 이전 예측 방법론들과 달리, 딥티팩터는 모든 생물군의 단백질 서열에서 우수한 성능을 보여 다양한 유기체의 전사 시스템 분석에 활용 가능할 것으로 기대된다.

이상엽 특훈교수는 “이번 연구에서 개발한 딥티팩터를 이용해서 새롭게 발견되는 단백질 서열과 아직 특성화되지 않은 수많은 단백질 서열을 높은 처리 능력으로 분석할 수 있게 됐다”며 “이는 유기체의 전자 조절 네트워크 분석을 위한 기초 기술로써 활용 가능할 것”이라고 밝혔다.

한편, 이번 연구는 과기정통부가 지원하는 기후변화대응기술개발사업의 바이오리파이너리를 위한 시스템대사공학 원천기술개발 과제 지원을 받아 수행됐다.

■ 연구개요

1. 연구 배경
전사인자는 DNA에 특이적으로 결합하여 유전자의 전사를 조절하는 단백질이다. 지금까지 새로운 전사인사는 기존에 알려진 전사인자와의 상동성 분석이나 종래의 기계 학습을 이용한 예측 방법을 통해 발견하였다. 기존의 기계 학습을 이용한 예측 방법은 예측 모델의 입력값으로 사용하기 위한 최선의 특징을 분야 전문 지식에 의존해서 찾는 과정이 필요하다. 심층 학습 (deep learning)은 기존의 기계 학습 모델과 달리, 보다 원시적인 데이터 형태로부터 직접 문제 해결을 위한 내재적인 특징을 학습한다. 하지만, 심층 학습은 시스템 내부의 연산 과정을 직접 확인할 수 없는 블랙박스 (black box) 특징을 갖고 있기에 바이오 분야에서의 활용성이 제한되었다. 본 공동연구팀은 심층 학습을 이용하여 전사인자를 정확하게 예측하고, 최근의 다양한 심층 학습 해석 방법을 통해 심층 학습 모델의 내부 추론 과정 또한 이해하는 것이 가능하다고 판단하였다.

2. 연구 내용
전사인자 예측을 위한 심층 학습 모델을 학습시키기 위해 단백질 서열 데이터베이스에서 기존에 알려진 전사인자의 단백질 서열과 비전사인자 단백질 서열 정보를 추출하였다. 추출한 단백질 서열을 입력값으로 사용하여 주어진 단백질 서열이 전사인자의 서열인지 아닌지 분류하는 심층 학습 모델을 구축하였다. 심층 학습 모델 내 합성곱 신경망 (convolutional neural network)의 필터 크기 및 개수를 조절하며 최고의 성능을 보이는 네트워크 구조를 탐색하였다. 이를 통해 3개의 병렬적인 합성곱 신경망을 이용하는 전사인자 예측 모델 DeepTFactor를 구축하였고, 이전의 전사인자 예측 모델과 성능 비교를 통해 DeepTFactor의 우수성을 확인하였다. DeepTFactor의 내부 추론 과정을 이해하기 위해 특징 지도 (saliency map) 방법론 중 하나인 integrated gradient를 이용해 단백질 서열의 어느 부분이 전사인자 예측에 중요한 역할을 하는지 조사하였다. DeepTFactor의 학습 과정에서 전사인자의 어느 영역이 DNA 결합에 참여하는지 정보를 주지 않았음에도, DeepTFactor가 추론 과정에서 DNA 결합 영역에 집중하여 예측한다는 것을 확인하였다. DeepTFactor를 이용해 대장균 (Escherichia coli K-12 MG1655)의 전사인자 332개를 예측하였으며, 그 중 3개의 전사인자의 게놈 전체 결합 위치를 실험을 통해 특성화하여 DeepTFactor 성능을 검증하였다.

3. 기대 효과
단백질 서열만을 이용하여 빠르고 정확하게 전사인자를 예측함으로써 새롭게 시퀀싱되는 유기체의 서열 또는 기존에 특성화되지 않은 많은 서열을 분석할 수 있다. 이를 위해 48,346개의 게놈에서 예측한 4,674,808 개의 전사인자는 추후 유기체의 전사 조절 네트워크를 연구하는데 응용될 수 있을 것이라 기대한다. 또한, 예측에 중요하게 작용하는 서열 영역을 조사함으로써 예측된 전사인자의 구조적 특징 또한 밝혀낼 수 있을 것이라 기대한다.

 

(그림) 전사인자 예측을 위한 심층 학습 모델의 네트워크 구조 주어진 단백질 서열이 전사인자인지 예측하는 모델의 네트워크 구조를 모식화하였다. 3개의 병렬적인 합성곱 신경망을 이용하여 예측한다. 출처 : KAIST 이상엽 특훈교수

생명과학 KAIST (2020-12-29)
https://www.ibric.org/myboard/read.php?Board=news&id=325997 )