연합학습 기반 새로운 의료 AI 모델 개발! 대규모 의료인공지능 시대 첫걸음 기대
DGIST(총장 이건우) 로봇및기계전자공학과 박상현 교수팀이 연합학습 기법을 활용해 여러 의료기관에 분산된 의료영상 데이터를 효과적으로 학습해 신체 장기들을 정확하게 영역화할 수 있는 기술을 개발했다. 스탠퍼드 대학 Kilian Pohl, Ehsan Adeli 교수팀과 공동연구를 통해 여러 병원에서 각기 다른 목적으로 사용되는 의료영상 데이터를 효과적으로 학습해 다양한 신체 장기를 정확하게 영역화할 수 있는 기술을 개발한 연구팀은, 향후 대규모 의료인공지능 모델 개발에 크게 기여할 것으로 기대하고 있다.
병원 등 각 의료기관에서는 다양한 목적으로 신체 각 부위의 장기 영상 데이터를 가지고 있다. 하지만, 원활하고 정확한 의료행위를 위해 개별 기관에서 가지고 있지 못한 각 의료 데이터를 활용해 다중 장기 영역화를 위한 인공지능 모델 개발이 필요한데, 기존의 경우 각 의료기관의 영상 데이터를 중앙서버에 모아 학습하는 방식으로 진행해 데이터 유출에 민감한 의료 분야에서 실제로 적용하기 어려웠다. 또한, 각 기관마다 영상 활용을 위한 관심 영역이 달라 이를 분석해서 다양한 영역을 동시에 영역화 하는 모델을 학습하는데 한계가 존재했다.
이에 박상현 교수팀은 서로 다른 장기의 레이블을 가지는 분산 데이터들을 유출 없이 효과적으로 활용하기 위해 연합학습을 기반으로 한 다중 장기 영역화 모델을 제안했다. 연합학습을 활용할 경우 분산된 데이터를 직접 공유없이 상호 간 협력으로 AI 모델을 학습할 수 있다. 하지만, 각 분산 데이터를 통해 획득한 정보를 취합하는 과정에서 정보의 손실로 ‘망각(Catastrophic Forgetting)화 현상’ 문제가 발생하며, 서로 다른 관심 영역에 대한 레이블을 가진 데이터들로 인해 학습이 불안정해지면서 모델이 구축되지 않거나, 학습속도가 느려지는 단점이 존재한다.
연구팀은 이를 해결하기 위해 지식 증류(Knowledge Distillation) 기법을 제안했다. 먼저, 다중 헤드 U-Net 모델을 활용해 각 기관의 서로 다른 각 신체 장기 영상 데이터를 영역화하고, 공유 임베딩 학습으로 영역화된 영상을 공유하면서, 각 기관에서 AI 모델 학습 시 글로벌 모델과 사전 훈련된 특정 장기 영역화 모델의 지식을 함께 활용해 연합학습을 수행하도록 했다. 그 결과 기존에 제안된 모델보다 적은 파라미터 및 연산량을 활용하면서 성능은 더 우수한 새로운 기술을 개발했다.
연구팀은 개발된 기술을 검증하기 위해 7개의 서로 다른 영역화 레이블을 가지는 복부 CT 데이터셋에 적용했다. 검증 결과 기존의 다중 장기 영역화 기법 모델이 연합학습에서 평균 66.82% 이하의 성능을 기록한 것에 비해, 새로 개발한 기법은 평균 71.00%의 높은 성능을 기록했고, 공유 임베딩 학습으로 추론 시간도 단축했다.
박상현 교수는 “이번 연구를 통해 여러 의료기관의 의료영상 데이터를 공유하지 않더라도 효과적으로 의료 AI를 학습하고 활용할 수 있도록, 각 관심 장기들의 영역화를 수행하기 위한 기술을 개발할 수 있었다” 며, “새롭게 개발한 기술이 의료영상 분석에 큰 도움이 될 것으로 생각하며, 향후 대규모 의료인공지능 모델 개발에도 기여할 것으로 기대하고 있다”고 밝혔다.
한편, 이번 연구는 대구경북과학기술원 일반사업과 대구디지털혁신진흥원의 지원을 통해 수행했으며, 연구 결과는 그 우수성을 인정받아 의료 인공지능 분야 최상위 학술지인 ‘Medical Image Analysis (MedIA)’에 게재됐다.
연 구 결 과 개 요
Soopil Kim, Heejung Park, Myeongkyun Kang, Kyong Hwan Jin, Ehsan Adeli, Kilian M. Pohl, Sang Hyun Park
(Medical Image Analysis, published on April, 2024)
최신 다중 장기 CT 영상 영역화 기법은 딥러닝 모델을 주로 활용합니다. 대부분의 딥러닝 모델은 다량의 데이터로 훈련되어야만 적절한 성능을 발휘한다. 그러나 대부분의 대형 데이터셋은 부분적으로만 레이블이 지정되어 있거나 여러 기관에서 획득된 것으로, 이를 활용하여 모든 장기를 영역화하는 모델을 훈련하는 것은 어려운 문제이다. 이를 해결하기 위한 하나의 방안은 연합 학습이다. 연합 학습은 데이터가 기관 간에 공유되지 않아 다중 기관 데이터셋을 훈련하는 데 주로 활용된다. 그러나 연합 학습 중, 각 기관에서 학습된 로컬 모델들이 결합되는 과정에서 발생하는 망각(catastrophic forgetting)으로 인해 성능의 하락이 야기된다. 우리는 이 문제를 해결하기 위해 글로벌 모델과 사전 훈련된 장기별 영역화 모델의 지식을 로컬 모델에 전달하는 지식 증류(KD)를 활용한다. 또한, 이를 효과적으로 적용하기 위해, 우리는 다양한 장기 영역화를 위한 공유 임베딩 스페이스를 학습하는 다중-헤드 U-Net 구조 모델를 제안한다. 다중-헤드 Unet 구조는 반복 없이 다중 장기 영역화를 얻을 수 있다. 우리는 7가지 서로 다른 영역화 레이블을 가지는 7개의 복부 CT 공개 데이터셋을 사용하여 제안된 방법을 평가했다. 또한, 추가적으로 모델의 범용성 확인을 위해 학습에 활용하지 않은 1개의 복부 CT 공개 데이터셋에 제안된 기법을 평가하였다. 제안한 기법은 정확도, 추론 시간 및 매개 변수의 수 측면에서 다른 최신 방법보다 우수함을 보였다.
연 구 결 과 문 답
이번 성과 무엇이 다른가
기존의 다중 장기 영역화 기법들은 주로 모든 데이터셋을 함께 활용하여 성능의 향상을 이루었다. 하지만, 프라이버시 유출에 민감한 의료 데이터의 경우, 실제 이러한 기법들을 적용하기 어렵다. 이에, 본 연구에서는 실제 상황과 유사하도록 서로 다른 RoI(Region of Interest)를 가지는 분산된 데이터를 유출 없이 활용하는 연합 학습 기반의 영역화 연구를 진행하였다. 본 연구에서는 연합 학습에서 발생하는 정보의 손실로 인한 망각(catastrophic forgetting) 문제를 해결하기 위해, 각 장기 영역별 모델 및 글로벌 모델을 함께 활용하여 로컬 학습에 활용하였다.
어디에 쓸 수 있나
분산 데이터를 활용하여 다중 레이블 영역화를 진행할 수 있다.
실용화까지 필요한 시간과 과제는
제안한 기법이 모든 영상을 한 곳에 모아두고 학습한 경우와 근접한 성능을 얻은 것을 미루어볼 때, 분산 데이터에 바로 적용되어도 높은 정확도 달성이 가능하다. 하지만 아직 실험실 레벨에서의 검증으로, 여러 병원에 연합학습 플랫폼을 구축해 검증을 해보는 과정이 필요하다.
연구를 시작한 계기는
최근 서로 다른 RoI를 가지는 데이터를 함께 활용한 연구들이 제안되고 있으나, 의료 데이터를 함께 활용하는 기존 기법은 실제 의료 분야에서 적용하기 어렵다. 본 연구팀은 이에 서로 다른 RoI를 가지는 분산형 데이터를 공유 없이 활용한 연합학습 기반의 영역화 모델을 제안하였다.
어떤 의미가 있는가
데이터 유출 없이 서로 다른 RoI를 가지는 분산형 데이터를 활용하여 높은 수준의 다중 장기 영역화를 할 수 있다. 이는 실제 의료 분야에 적합한 세팅이다.
꼭 이루고 싶은 목표는
본 연구팀은 환자의 개인 정보를 보호하면서도 정확하게 환자를 진단하거나 이를 보조하는 인공지능 모델을 연구하고 있다. 현재 개발된 기술들은 아직 복잡한 상황에서 범용적으로 작동하지 않아 이를 해결하여 의료시스템 개선에 이바지하고자 한다.

[그림 1] DGIST 박상현 교수 연구팀이 고안한 모델 구조 [사진=DGIST]
본 연구에서 제안한 지식증류 기반 연합학습 모델 구조를 나타낸다.

[그림 2] 제안한 모델의 영역화 결과 [사진=DGIST]
순서대로 (A) 정답, (B) 제안한 기법, (C)~(G) 비교 기법의 영역화 결과를 나타낸다. (B)에서 정확한 영역화 결과를 얻은 반면 왼쪽의 비교기법들은 정확한 영역화에 실패하였다.
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
BRIC(ibric.org) Bio통신원(DGIST) 등록일2024.05.03