AI를 도입한 미생물 바이오센서로 환경 유해물질 탐지한다
국내연구진이 AI와 인공미생물을 결합하여 유해물질을 식별하는 신기술을 개발하였다. 향후 생물공학, 합성생물학, 환경모니터링 분야에서 인공지능 기술의 활용성을 높여가는 계기가 될 것으로 기대된다.
한국생명공학연구원(이하 생명연) 합성생물학전문연구단 김하성 박사팀(교신저자: 이승구, 제1저자: 김하성 박사)이 수행한 이번 연구는 과학기술정보통신부와 한국연구재단, 농진청의 지원으로 수행되었고, 생물공학 분야의 저널인 바이오센서스엔바이오일렉트로닉스 (Biosensors and Bioelectronics, IF 10.257) 9월 30일자 온라인 판에 게재되었다.
(논문명 : Machine learning linked evolutionary biosensor array for highly sensitive and specific molecular identification, www.sciencedirect.com/science/article/pii/S095656632030659X)
유해 화합물질(방향족 물질)은 산업폐기물, 잔류농약 등에서 다양하게 발생하며 인체 및 동물 내에서 환경호르몬 등 여러 부작용의 원인이 된다. 미생물에는 유해 물질을 감지하는 다양한 유전자들이 분포하며, 이를 조합한 유전자회로를 구성하여 새로운 바이오센서를 개발하는 연구가 합성생물학의 한 분야로 활발히 연구되고 있다.
그러나 바이오센서의 부품 단백질의 오작동이 바이오센서 연구의 정확성과 실용성을 저하시키는 요인 중 하나이다. 전자공학 분야에서 이러한 문제는 다양한 종류의 센서를 동시에 사용하고 기계학습 기술을 활용하면 극복할 수 있으나 바이오센서의 경우 활용할 수 있는 센서의 수가 한정적인 문제로 인공지능 기술의 접목이 어려웠다.
연구팀은 이러한 한계를 인공적인 단백질 변이를 유발하여 극복하였다. 즉, 변이 단백질들을 여러 개로 만들고 여기에서 얻어지는 다양한 신호들을 모아들인 빅데이터를 생성하여 인공지능 모형을 적용한 것이다.
연구팀의 인공지능 모형은 11개의 유해물을 최대 약 95.3%의 정확도(true positive rate)로 식별할 수 있었으며, 이는 기존 단일 바이오센서만을 사용하는 경우에서 40% 이하의 정확도를 보인것에 비하면 현저한 향상이다. 또한 유해물 검출한계도 약 75배 이상 향상(작은양으로도 검출이 가능해짐) 되었다.
※ 유해물 식별능력: 유해물의 종류를 구분하는 능력
※ 검출한계: 센서의 신호를 식별할 수 있는 타깃의 최소 물질량
제1저자인 김하성 박사는 “동 연구성과는 미생물 바이오센서에 인공지능 기술을 접목하여 센서 성능을 향상시킨 최초의 연구이며, 그동안 축적된 바이오센서 기술이 인공지능 기술과 결합하여 한 단계 더 정밀한 진단/감지 기술로 발전되는 계기가 될 것이다” 라며, “향후 환경 시료(토양, 물, 농산물)의 유해물 감시 및 식별이나 생체내 유해물질의 모니터링에도 활용이 가능할 것으로 기대된다”고 밝혔다.
연구책임자인 이승구 박사는 “인공 유전자회로 연구는 다른 공학분야에서처럼 논리적 구동이 가능한 생물학, 즉 합성생물학으로 발전하는 통로가 될 것이다. 본 연구는 머신러닝을 통하여 이를 가속시킬 수 있음을 보여준다” 고 밝혔다.
※ 머신러닝: 인간의 학습능력과 같이 기계(컴퓨터)가 학습하도록 구현한 알고리즘
연 구 결 과 개 요
□ 연구배경
○ 박테리아는 대사 활동에 필요한 신호전달을 위해 수백 개의 전사인자를 사용해 왔고 이러한 전사인자는 지난 20년간 특정 화학물질을 감지하는 미생물 바이오센서로 광범위하게 연구되고 있다.
○ 미생물 바이오센서는 연구실 환경에서 특정 물질을 감지하는 전사인자의 발굴에 집중되어 있었다. 그러나 전사인자 단백질의 특성상 타깃 물질과 유사한 다른 물질에도 반응하는 비특이성과 일반 환경 샘플에 포함된 미지의 물질로 인한 높은 잡음 등의 단점들로 인해서 오랜 기간의 연구에도 불구하고 실용화가 어려웠다.
○ 예를 들어 페놀뿐만 아니라 페놀 유도체 여러 종류에 대해서 형광 반응을 나타내는 바이오센서가 있다고 가정하자. 이 센서를 이용해서 공장 주변 지하수를 검사한 후 형광을 관측했다면 해당 지하수에 페놀 유도체가 있다고 판단할 수 있지만 어떤 물질인지 어느 정도 있는지는 알 수 없다는 단점이 있다.
○ 센서의 타깃 특이적 식별 능력을 강화하기 위해서 화학이나 전자 분야에서는 여러개의 센서를 동시에 사용하고 데이터 수집량이 많은 경우 인공지능을 통한 성능 향상을 기대할 수도 있다. 그러나 바이오분야에서는 특정 표적 물질에 반응하는 전사인자가 희소한 문제로 다중 센서의 개발이 불가능하고 바이오의 특성상 많은 조건의 빅데이터를 수집하는 것이 어려우므로 인공지능을 활용한 바이오센서 연구는 시도조차 못 하는 상황이다.
□ 연구내용
○ 연구팀은 페놀류 감지 전사인자인 DmpR의 활성을 정량화하고 타깃 변이를 빠르게 회수할 수 있는 고속 탐색 시스템(GESS)과 NGS 기술을 융합한 기술을 활용하여 단백질 개량의 속도와 효율을 크게 증가시킨 탐색기술을 개발했고 이를 기반으로 야생형 DmpR에 비해서 Limit of detection (LOD)는 최대 약 75배 이상 향상된 고활성 전사인자 6종을 개량하였다.
○ 연구팀은 고성능 변이 한 종을 이용해 센서를 만드는 기존 방법에서 벗어나 선별된 변이 모두를 사용한 바이오센서 집합체(어레이)를 만들어서 부족한 전사인자의 한계를 극복하고 이들이 만들어내는 패턴을 학습하여 기존 바이오센서에서는 불가능 했던 감지물 식별 기능을 구현하였다.
○ 인공지능 기술의 활용을 위해서는 빅데이터가 필수이다. 그러나 바이오센서 데이터의 경우 특정 시료의 화학물질을 정량하기 위해서는 고가 크로마토그래피 장비의 활용이 필요하고 그 분석 방법 및 속도 또한 복잡하고 오래 걸린다. 이에 연구진은 미리 선정된 유해 화학물질의 농도를 일정하게 고정한 시료를 만든 후 센서의 반응 데이터를 수집하는 전략을 사용했다. 즉, 화학물질의 종류와 농도를 미리 알고 센서에 반응시키는 것이다. 이들 데이터의 학습은 Random forest 기술을 사용했으며 총 6912개의 다른 조건에서의 데이터를 훈련셋과 테스트셋으로 나누어 모형을 적합하였다.
○ 그 결과 센서에 반응한 물질을 찾아내는 식별의 단일 센서를 사용할 경우 45% 미만의 식별 성능(true positive rate, hit rate)을 보이나 센서 집합체를 사용할 경우 평균 약 85%, 최대 95%의 성능 향상을 보였다. 즉, 실험에 수행한 11종의 유해물 중 어떤 유해물에 의해서 센서가 작동했는지를 판별할 수 있는 결과이다. 또한 해당 물질의 농도가 얼마인지도 예측하였으며 그 결과 센서 집합체의 검출한계나 (Limit of detection) 기저잡음 (Background noise), 신호범위 (Dynamic range) 등의 지표가 단일 센서에 비해서 5~10배 향상되는 결과를 얻을 수 있었다.
□ 연구성과의 의미
▶ 실용적 바이오기술을 활용한 유해물 감지 한계 극복
○ 높은 성능과 효율 그리고 저비용으로 주목을 받은 미생물 기반 바이오센서 기술은 낮은 특이성과 환경 의존적인 변동성의 한계 때문에 20년 이상의 오랜 연구 역사에도 불구하고 실용화가 어려운 단점이 있었다. 본 기술은 고활성 변이 전사인자들을 통합하여 센서 집합체를 구성하고 인공지능 모형을 도입하여 특이성을 강화하고 환경 의존성을 줄여서 차세대 바이오센서 기술의 가능성을 보여주었다. 미생물 바이오센서 분야에서는 인공지능 기술을 접목한 최초의 시도로 볼 수 있다.
○ 본 바이오센서 기술은 미생물 세포 크기의 센서로서 자연환경에서의 유해물뿐만 아니라 인체 내 염증이나 바이러스 등의 유해물을 감지하는데도 적용 가능한 기술로서 치료를 위한 가장 중요한 단계인 유해물의 식별과 그 농도를 예측할 수 있다. 나아가 유해물의 종류와 농도에 맞는 맞춤형 치료제 생산 기술까지 활용될 수 있을 것으로 예상한다.
▶ 인공지능과 합성생물학 기술의 결합 본격화
○ 생물학에서 인공지능은 대규모 질병데이터가 확보된 의약분야에서 가장 활발히 사용되고 있다. 고도로 발달된 차세대 염기서열 분석(NGS; Next Generation Sequencing) 기술로 생명체의 유전자형에 대한 빅데이터는 확보할 수 있게 되었지만, 표현형 데이터의 수집은 여전히 많은 연구비와 오랜 시간이 소모되며 인공지능 적용의 가장 큰 걸림돌이 되고 있다. 천문학적인 연구비를 투입하는 한국인 10k, 10만명 게놈 프로젝트나 미국의 100만명 게놈 프로젝트가 그 예이다. 이런 측면에서 합성생물학 기반 바이오센서를 이용한 표현형 데이터 정량화 기술은 저비용 범용 기술로서 인공지능 기술을 생물학과 융합하기 위한 핵심 플랫폼으로 볼 수 있다. 특히 바이오파운드리와 연계하여 다양한 전사인자를 확보하고 다양한 조건의 빅데이터를 빠르게 생산할 경우 인공지능의 예측 성능은 크게 향상될 수 있을 것으로 기대할 수 있다.
연 구 결 과 문 답
이번 성과 뭐가 다른가
1. 기존 미생물 바이오센서의 한계인 낮은 식별성능을 극복한 기술
2. 유전자회로 기반의 미생물 바이오센서 기술에 최초로 인공지능 기술을 적용한 연구
어디에 쓸 수 있나
1. 환경 시료의 (토양, 물, 농산물) 유해물 감시 및 식별
2. 생체내 유해 물질의 모니터링
실용화까지 필요한 시간은
유기인계 잔류농약의 경우 현재 구축된 바이오센서 집합체를 사용할 수 있으며 타깃 환경에 최적화된 빅데이터를 수집하는 과정을 거쳐 약 3년 이내 실용화 가능할 것으로 기대함.
실용화를 위한 과제는
다양한 바이오센서로 구성된 집합체를 구축해야 하며 자동화 플랫폼을 통해 다양한 조건의 시료에 대한 빅데이터를 확보하는 것이 가장 중요한 과제로 볼 수 있음.
연구를 시작한 계기는
인공유전체 합성과 유전자회로 설계 등 합성생물학 원천기술을 연구하고 있으며 유해물 진단/감지는 중요한 사회문제이면서 동시에 비교적 단기간에 합성생물학 기술을 적용할 수 있는 분야로 판단되어 연구를 진행함.
에피소드가 있다면
변이 전사인자 하나를 이용해서 센서를 만들경우 유해물에 대한 반응값 외에 다른 값들은 잡음으로서 가능한 제거할 대상으로 인식됨. 특히 미생물 바이오센서의 경우 세포의 기능이 모두 살아있으므로 많은 잡음을 포함할 수밖에 없음. 그러나 여러 개의 바이오센서를 집합체로 활용한 경우 각 센서의 잡음이 유해물 특이적인 패턴을 만들어주는 신호로써 역할을 함. 즉, 생각의 전환으로 단점이 장점으로 바뀌었음.
꼭 이루고 싶은 목표는
유해물 모니터링 기술에서 나아가 환경 정화나 질병 치료에 기여하고 우주 시대를 대비할 수 있는 실용적인 합성생물학 기술의 개발이 목표임.
신진연구자를 위한 한마디
합성생물학은 전자/기계 부품으로 만들 수 있는 발명품과는 다른, 미지의 생물학 재료를 이용한 발명품으로 볼 수 있음. 이러한 연구는 생물학적 지식뿐만 아니라 컴퓨터공학 및 수학/통계 이론의 도움이 필수임. 생물학 외 다른 분야를 멀리하지 않고 평생 공부하는 마음을 잃지 않으려고 노력함.
생명과학 한국생명공학연구원 (2020-12-16)
https://www.ibric.org/myboard/read.php?Board=news&id=325428 )