암 진단, 비용과 시간을 줄이고, 정확성은 높인 인공지능 모델 개발
DGIST 로봇및기계전자공학과 박상현 교수(인공지능전공 겸직) 연구팀은 암이 존재한다는 데이터만으로 병리영상에서 암의 존재와 부위까지 정확하게 보여줄 수 있는 약지도학습(Weakly supervision) 딥러닝 모델을 개발했다. 기존 딥러닝 모델에서는 암 부위를 특정하기 위해서는 암의 위치가 정확하게 그려진 데이터셋 구축을 필요로 했으나, 이번 연구로 개발된 딥러닝 모델로 효율성이 향상되어 해당 연구 분야에 획기적으로 기여할 것으로 보여진다.
일반적으로 암의 위치정보를 나타내는 영역화 문제를 해결하기 위해서는 암 부위가 위치한 곳을 정확하게 표시해주는 작업을 진행해야하기에 오랜 시간이 소요되고, 그에 따라 비용이 증가하게 된다.
이러한 문제를 해결하기 위해 ‘영상 속 암의 존재 유무’와 같은 대략적인 정답만으로도 암 부위를 영역화 하는 약지도학습(Weakly supervision)모델이 활발하게 연구되고 있으나, 영상 하나의 크기가 기가바이트에 이르는 거대한 병리영상 데이터셋에 기존의 약지도학습 모델을 적용하면 성능이 크게 저하되는 문제가 발생한다. 이러한 문제를 해결하기 위해 병리영상을 패치들로 분할해서 활용하는 방안으로 성능을 높이려고 하지만, 분할된 패치들은 위치정보와 각 분할자료 간의 상관관계를 잃어버리게 되어 모든 정보를 활용할 수 없다는 한계를 갖게 된다.
이에 박상현 교수 연구팀은 슬라이드 단위의 암 유무 표시를 가진 학습데이터만으로 암 위치까지 정확히 분할해낼 수 있는 기법을 발견했다. 먼저 비지도 대조 학습(Unsupervised contrastive learning)을 통해 패치들로부터 유의미한 특징들을 효과적으로 추출하도록 네트워크를 학습시키고, 이를 이용하여 각 위치정보를 유지하면서 주요 특징들을 검출하게 하여 패치들 간 상관관계를 유지한 채 영상의 크기를 줄이는 병리영상 압축 기술을 개발했다. 이후 압축된 병리영상으로부터 클래스 활성 지도(Class activation map)를 활용하여 암일 확률이 높은 부위를 찾아내고, 픽셀 상관관계 모듈(Pixel correlation module, PCM)을 이용해 전체 병리영상 내에서 암일 확률이 높은 부분들을 모두 영역화 해낼 수 있는 모델을 개발했다.
새롭게 개발한 딥러닝 모델은 암 영역화 문제에서 슬라이드 단위의 암 유무 레이블을 가진 학습데이터만으로 최대 81 ~ 84의 Dice similarity coefficient (DSC) 점수를 보였으며, 기존에 제안된 패치단위 기법들이나 다른 약지도학습 기법들의 성능(DSC 점수: 20 ~ 70)을 크게 웃돌았다.
박상현 교수는 “이번 연구를 통해 개발한 모델은 병리영상의 약지도학습 영역화 성능을 크게 개선시켰으며 이를 통해 병리영상 분석이 필요한 다양한 연구들의 효율성 향상에 기여할 수 있을 것으로 기대된다.”며, “향후 관련 기술을 좀 더 개선한다면 다양한 의료영상 영역화 문제에도 범용적으로 활용될 수 있을 것”이라 말했다.
한편, 이번 연구 결과는 그 우수성을 인정받아 의료영상 분석 관련 분야 최상위 국제학술저널인 MedIA (Medical Image Analysis Journal)’에 게재되었다.
연 구 결 과 개 요
Weakly supervised segmentation on neural compressed histopathology with self-equivariant regularization(ScienceDirect)
Philip Chikontwe, Hyun Jung Sung, Jaehoon Jeong, Meejeong Kim, Heounjeong Go, Soo Jeong Nam, Sang Hyun Park
(MedIA, accepted on May 20th, 2022)
병리영상 내에서 암 부위를 영역화하는 작업은 병의 진단과 치료를 위한 가장 기초가 되는 작업이다. 일반적으로 활용되는 지도학습 모델을 이용해 영역화를 수행하려면 영역화 부위가 정확하게 그려진 정답이 구축되어야하기 때문에 시간과 비용 문제가 있다. 또한 병리영상의 기가바이트에 이르는 큰 크기 때문에 기존의 딥러닝 모델에 사용하기에는 메모리 문제가 발생한다. 이 문제를 해결하기 위해 병리영상을 패치단위로 나누어 사용하는 기법들이 제안되고 있으나, 이러한 기법들은 패치의 위치정보 및 패치 간 상관관계를 잃는 문제들로 인해 만족할만한 성능을 보이지 못하고 있다.
본 연구에서는 암 부위의 존재 유무만을 가진 데이터로 병리영상에 암 부위를 정확히 탐지하여 영역화 하는 약지도학습(Weakly supervision) 딥러닝 모델을 제안한다. 비지도 대조 학습(Unsupervised contrastive learning)을 통해 압축된 병리영상을 생성하고 클래스 활성 지도(Class activation map)을 이용해 암 부위일 확률이 높은 부위를 찾아낸 뒤 픽셀 상관관계 모듈(Pixel corelation module)을 활용하여 전체 병리영상 내에서 암일 확률이 높은 부분들을 모두 영역화 해내는 기법을 제안하였다. 제안하는 기법을 통해 약한 정답 데이터만으로 81~84의 Dice 점수를 얻었다. 이는 기존의 약지도학습 모델의 성능을 상회하고 지도학습 모델과 비슷한 성능이다.
연 구 결 과 문 답
이번 성과 무엇이 다른가
기존의 병리영상 약지도학습 모델은 대부분 병리영상을 패치단위로 나누어 사용한 MIL 모델이며 패치의 위치 정보와 패치간 상관관계를 고려하지 못하여 성능이 제한적이었다. 본 연구에서는 패치의 위치 정보와 상관관계를 유지하면서 병리영상을 압축할 수 있는 기법을 개발하여 약지도학습을 수행하였다. 클래스 활성 지도와 픽셀 상관관계 모듈을 활용하여 암 부위를 영역화하고 영역화된 결과를 개선하였다. 위 기법을 통해 성능이 크게 향상되었고 최종적으로 약한 정보만으로 81~84의 Dice 점수를 얻었으며 이는 기존의 약지도학습 기법을 상회하고 지도학습 기법과 비슷한 성능을 보인다.
어디에 쓸 수 있나
제안한 기술은 병리 영상은 있으나 영역화 레이블을 만들기 힘든 대부분의 경우에 활용할 수 있으며 시간과 노력이 지도학습 기법에 비해 현저히 적게 필요하기 때문에 모든 병리영상 영역화 문제에 활용 가능하다.
실용화까지 필요한 시간과 과제는
개발한 모델은 다양한 장기와 다양한 데이터셋에서 향상된 성능을 보여주었다. 하지만 병리영상 스캐너와 염색이 다른 타기관 데이터셋에 적용한 결과가 부족하기 때문에 추가적인 실험이 필요하다. 추후 타기관 데이터셋에 적용하여 만족할만한 결과를 보인다면 실용화 가능성이 높다고 기대된다.
연구를 시작한 계기는
병리영상을 분석할 때 가장 문제가 되는 점이 레이블의 유무와 정확성이다. 레이블을 생성하는 데에 많은 시간과 비용이 소요되며, 정확하게 할수록 더 많은 시간과 비용이 소요된다. 이런 점을 해결하기 위하여 약한 정보만으로도 작동할 수 있는 인공지능 모델이 필요했다.
어떤 의미가 있는가
약지도학습 모델임에도 불구하고 지도학습과 비슷한 수준의 성능을 보여 데이터 구축에 소요되는 시간과 비용을 상당히 절약할 수 있다. 추후 성능이 더 향상되어 의료 현장에서 상용화가 가능하다면 이는 곧 치료비용 절감과 환자 부담 감소로 이어질 것으로 기대되며 레이블링 작업에서 의사의 시간을 절감할 수 있어서 많은 사람들이 윤택한 의료 지원을 받을 수 있게 될 것으로 기대된다.
꼭 이루고 싶은 목표는
인공지능을 의료 현장에서 보조 역할로 활용할 수 있도록 성능이 개선되어야 하며, 여러 병원과 환자, 장기, 스캐너, 염색 등의 환경에서도 잘 작동할 수 있는 진단 모델이 개발되어야 한다. 이런 딥러닝 모델을 개발하여 많은 사람들이 의료 혜택을 누릴 수 있었으면 좋겠다.
[그림 1] DGIST 박상현 교수 연구팀이 고안한 모델 구조
(그림설명) 본 연구에서 제안한 인공지능 모델의 구조
[그림 2] 픽셀 상관관계 모듈(PCM) 구조
(그림설명) 픽셀 상관관계 모듈(PCM)의 구조
[그림 3] 여러 비교기법과의 암 영역화 결과 비교
(그림설명) 여러 비교기법과 제안된 모델의 암 영역화 결과. 초록색은 정답 암 부위를 나타내고 노란색들은 각 모델에서 예측한 암 부위를 나타낸다. 기존의 약지도학습 기법들(DeepMIL, DSMIL, SEAM) 보다 제안된 모델(Ours)가 더 좋은 성능을 보이며, 정확한 정답을 활용해 학습한 지도학습 기법(UNet)과 비슷한 성능을 보이는 것을 확인할 수 있다.
의학약학 DGIST (2022-07-13)