본문 바로가기

컴퓨터 이야기

V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation

2016년 Fourth International Conference on 3D Vision에 발표된 논문이다.


자기공명영상에서 전립선 검출을 위해 V 모양의 네트워크를 설계했다는 내용이다. 전립선은 그 크기를 정확히 검출하고 추적하는것이 진단이나 치료등에 도움이 되는 것으로 알려져있고, 많이 연구하는 분야 중 하나이다. 그러나 자기공명영상은 그 자체가 매 촬영시마다 조금씩 영상이 달라지기도 하고 기기의 자기장이 아주 균일하지 않으면 아티팩트가 쉽게 발생하는 문제가 있어 정확한 검출에 어려움이 있다. 의료영상에 대한 내용은 나중에 또 심도있게 다룰 기회가 있을 것이다.


아래의 세 가지가 이 논문에서 저자들이 주장하는 기여내용이다.


1. 3차원 볼륨을 그대로 입출력으로 사용하는 네트워크 아키텍쳐를 구성하였다.

2. Dice coefficient를 사용한 loss function을 구성하였다.

3. 최근 많이 사용하고 있는 residual 기반의 학습을 적용하였다.


대부분의 연구가 볼륨을 대상으로 하기보다는 슬라이스 단위로 2D 검출 후 결합하는 형태를 나타내는데, 이 연구는 3D 볼륨을 바로 입출력으로 사용해 많은 저자들이 인용하고 있다.


의료영상은 검출해야 하는 영역보다 훨씬 큰 부분을 촬영하는 것이 일반적이므로 영상이나 볼륨에서 검출 대상인 전경은 배경에 비해 아주 작은 비율로 존재하는데, 이때문에 데이터가 편중되는 문제가 있다. 여러 해결 방법이 제안되고 있으니 관련 내용을 찾아보면 또 흥미로운 주제가 될 것 같다.


제안된 네트워크 구조는 아래와 같다.



기본적인 구조는 U-Net과 거의 동일하다. 한가지 특이한 점은 보통 max pooling 등을 이용해 feature channel을 작은 해상도의 더 많은 채널로 변경하고 또 unpooling을 사용해 원래 해상도로 되돌리는데 stride를 설정한 convolutional layer를 이용해 'Down/Up' convolution을 사용한다는 것이다.



데이터의 증강은 많이들 사용하는 비선형 변환과 히스토그램 매칭 등을 사용했다고 하고, 손실 함수를 구성할 때 사용한 dice coefficient는 위키(https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient)에 잘 설명되어있다. 최종 검출 결과가 마스크로 구성되기 때문에 비교를 위해 일반적으로 많이 사용하는 방법이다.


전립선 검출 챌린지 데이터셋 중 하나인 Promise 2012 데이터셋(https://promise12.grand-challenge.org/)을 사용했다고 하는데, 나중에 찾아서 쭉 훑어봐야겠다.