Advanced
Image Restoration using GAN
Image Restoration using GAN
Journal of Broadcast Engineering. 2018. Jul, 23(4): 503-510
Copyright © 2018, The Korean Institute of Broadcast and Media Engineers
This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.
  • Received : May 10, 2018
  • Accepted : July 11, 2018
  • Published : July 30, 2018
Download
PDF
e-PUB
PubReader
PPT
Export by style
Article
Author
Metrics
Cited by
About the Authors
찬규, 문
영정, 어
혜란, 변
hrbyun@yonsei.ac.kr

Abstract
손상된 영상의 복원은 디지털 영상 처리기술이 등장하기 이전부터 시도되었던 근원적 문제이다. 컴퓨터의 연산 능력과 다양한 기술의 발전에 따라 손상된 영상을 복원하는 다양한 연구가 소개되었으나 그 결과는 사람에 의한 수동적 결과물과 비교하여 낮은 복원 결과를 보여 왔다. 최근 심층 신경망 (DNN, Deep Neural Network)의 발전으로 이미지 복원에 이를 적용한 다양한 연구가 소개 되고 있지만, 광범위한 영역이 손상된 경우 근접한 화소를 활용하는 방법으로 해결이 어렵다. 이와 같은 경우는 주변의 영상의 문맥적 정보를 통해 손상된 영역을 추론을 통한 복원이 필요하다. 본 논문에서는 심층 신경망 기술 중 하나인 적대적 생성신경망(GAN, Generative Adversarial Network)을 이용한 이미지 복원 네트워크를 제안한다. 제안하는 시스템은 이미지 생성 네트워크, 생성 결과 판별 네트워크로 구성 된다. 본 논문에서는 제안하는 방안을 통해 다양한 종류의 이미지를 복원함에 있어서 훼손된 영역의 추론을 통하여 자연스러운 영상 복원뿐 아니라 원본 영상의 질감까지 복원이 가능함을 실험을 통해 확인 하였다.
Keywords
Ⅰ. 서 론
영상은 다양한 원인에 의한 손상이 발생된다. 일반 사진의 경우 인화지의 변질과 보관 과정에서 훼손이 발생하였으나 디지털 영상의 경우 촬영 조건에 따른 잡음에 의해 주로 발생한다. 이러한 손상된 이미지의 복원에 있어 좁은 영역의 문제는 초-해상도나 잡음제거 방법과 같이 주변의 근접한 정보를 활용하여 보간 하는 형태로 보정이 가능하다. 그러나 넓은 영역에서 대규모의 손상이 발생한 경우 소실된 영역에 대한 추론이 필요하므로 이를 해결하는 것은 매우 어려운 문제이다.
최근 소개된 심층 신경망 (DNN, Deep Neural Network)의 등장으로 영상 인식과 화질 개선 등 다양한 분야에서 괄목할만한 기술의 발전이 이루어지고 있다. 이와 함께 최근에는 손실된 영상을 복원하는데 있어서 부호화-복호화(autoencoder)와 관련된 연구가 소개 되었다 [2] . 이후 이러한 부호화-복호화 구조는 심층 신경망에 적용 되었으며, 최근 적대적 생성신경망 [1] 을 통해 영상의 전역적/지역적 인 문맥을 고려하여 영상을 복원하는 연구가 소개 되었다 [3] . 적대적 생성 신경망을 통해 생성된 이미지는 생성하고자 하는 영상의 특징을 따라 유사하세게 생성됨으로 구조적으로 자연스러운 형태로 생성이 된다.
하지만 이들 방법은 복호화를 통한 복원 과정 중에 결과 영상이 흐려지게 되는 현상이 발생하고, 결과 영상에서 세밀한 질감은 재현하지 못하였다. 이와 함께, 네트워크 입력으로 전체 영상을 사용하여 높은 연산 량으로 인하여 학습 및 복원에 많은 시간이 소요되는 단점이 있다. 또한 이러한 방법들은 대부분 이미지의 손실을 채우는 문제를 해결하고자 하였고, 왜곡에 대해 효율적으로 복원을 시도하는 경우는 없었다.
본 논문에서는 가장 대표적인 Digital 왜곡인 Mosaic 처리를 통해 손상된 이미지를 복원하는 방법을 소개한다. 제안하는 방법은 손상된 영역 주변의 문맥적 정보를 이용하여 원본 이미지를 추론 하고, 손상된 이미지를 사람이 보기에 자연스러운 방향으로 복원하는 네트워크를 제안한다. 또한 복원과정에서 복원하고자 하는 영상의 질감까지 재현함으로써, 흐린 이미지가 아닌 보다 선명하고 사실적인 이미지를 복원하는 방안을 제안한다.
이러한 과정을 통하여 기존 논문에서는 시도 되지 않은 왜곡된 영상복월을 최초로 시도하고, 기존 논문에서 제안된 결과와 다르게, 복원된 영상이 보다 사실적인이고, 선명한 결과를 얻는 방안을 제안한다.
본 논문은 2장에서 제안하는 영상 복원 방법을 소개하고, 3장에서는 네트워크를 훈련하는 방법에 대해, 그리고 4장에서는 다양한 범주의 실험을 통해 이미지 복원 결과와 실험의 의미를 설명 하고 마지막으로 5장에서 결론을 짓는다.
Ⅱ. 영상 복원 네트워크
심층 신경망 기반의 영상을 복원하는데 있어서 다양한 형태의 부호화-복호화 네트워크가 소개 되었다. 이들 네트워크 중 U-Net [5] 은 영상을 영역별로 분할 할 수 있도록 제안된 대표적인 네트워크 구조이다. U-Net 의 경우 그림 1 과 같이 복호화(Decode) 과정에서 부호화된 특징지도(Feature Map)를 Skip-Connection 을 통하여 다시 활용하는 구조로써, 이 네트워크를 이용하여 영상을 복원하게 될 경우 원본 영상의 세부적인 사항까지 잃지 않고 복원하는 네트워크 구조이다. 이러한 특징으로 인해, 손상된 영상을 복원하는 네트워크 구조에 사용되기에는 U-Net 이 ResNet [8] 이나 DenseNet [9] 에 비해 영상의 상세부분을 복원하는데 있어서 가장 우수한 성능을 보였다.
PPT Slide
Lager Image
이미지 복원을 위한 전체 네트워크 구성 Fig 1. Architecture for Image restoration
따라서 본 논문에서는 U-Net의 네트워크 구조를 이용하여 영상에서 손상된 영역에 대한 이미지 패치를 생성하고 이를 최종적으로 손상된 영역에 합성하여 영상을 복원 한다.
적대적 생성신경망을 활용하기 위해서는 생성네트워크와 함께 판별 네트워크가 필요하다. 일반적인 적대적 생성신경망에서 판별 네트워크는 생성된 이미지만으로 참인지 거짓인지를 판별하는 단일 네트워크이다. 그러나 생성된 이미지의 단순한 판별만으로는 문맥적 고려가 없으므로 자연스러운 이미지 생성에 어려움이 있다. 따라서 본 논문에서는 판별 네트워크를 지역/전역적 문맥을 판별하는 네트워크로 분할 [4] 하여 자연스러운 이미지 생성을 도모하였다. 먼저 지역적(Local) 문맥 판별 네트워크에서는 생성된 이미지 패치가 얼마나 자연스러운 패치로 생성 되었는지를 판별하고, 전역적(Global) 문맥 판별 네트워크는 생성된 이미지 패치와 주변 이미지와 함께, 전체 이미지로 보았을 때 얼마나 자연스럽게 연결되는지를 판별한다. 이 두 네트워크의 결과는 최종 네트워크에서 자연스러운 이미지 생성 여부를 참/거짓 분류를 통해 판별하게 된다.
본 논문에서 제안하는 생성/판별 네트워크의 전체 구조는 그림 1 과 같으며 네트워크의 상세 구성은 표 1 에 기술하였다.
네트워크 구성Table 1. Detail of Networks
PPT Slide
Lager Image
네트워크 구성 Table 1. Detail of Networks
Ⅲ. 네트워크 훈련
제안하는 네트워크의 학습은 크게 생성 네트워크와 판별 네트워크의 학습으로 이루어지며 두 네트워크는 경쟁적인 대립을 통해 동시에 학습된다. 학습 과정에서는 이들 네트워크가 유기적인 작용을 통해 학습이 가능하므로, 네트워크의 학습을 위해서는 1) 원본 이미지, 2) Mosaic 변환으로 손상된 이미지, 3) 손상된 영역 마스크를 입력하여 학습한다. 제안하는 네트워크의 입력 크기는 128x128이며 영상의 중앙부에 64x64 크기의 Mosaic 변환을 통해 의도적으로 손상된 이미지를 입력으로 사용하였다. 이들 이미지와 함께 네트워크에는 손상된 위치를 의미하는 이진 마스크를 입력하여 손상된 위치와 복원해야 할 영역을 학습할 수 있도록 하였다.
제안하는 네트워크는 세 개의 목적 함수를 최소화 하는 학습을 수행한다. 각 네트워크의 학습은 독립적으로 수행되지만 전체 네트워크는 최종 목적 함수가 최소화 되는 방향으로 유도되고 최적화 된다. 다음 식(1)은 제안하는 네트워크의 최종 목적 함수를 나타낸다.
PPT Slide
Lager Image
여기서 LGAN 은 생성된 이미지가 주변부의 이미지와 자연스럽게 연결 될 수 있도록 유도하는 목적 함수이며 Lcontents 는 생성된 영상이 얼마나 원본 영상과 유사하게 생성될 수 있도록 유도하는 함수이다. 또한 Lperc 는 이미지의 구성이 얼마나 사실적인지는 유도하는 함수로써 이 함수를 통해 복원되는 이미지의 질감과 세부적인 사항이 실제 영상과 유사하게 유도 된다.
다음 식 (2)을 생성 네트워크를 통해 생성된 영상이 주변 이미지와 자연스러운지를 판별하는 판별 네트워크의 목적 함수로 사용 하였다.
PPT Slide
Lager Image
여기서 D ( x )는 판별 네트워크를 의미하고 C (
PPT Slide
Lager Image
, Mc )는 생성 네트워크를 통해 생성된 영상을 의미한다.
다음 식(3)는 생성 네트워크의 목적 함수를 나타낸다.
PPT Slide
Lager Image
여기서 x 는 원본 이미지를 의미하고
PPT Slide
Lager Image
는 Mosaic 변환을 통해 손실된 이미지를 의미한다. Mc 는 손실된 영역에 대한 이진 마스크이며 C(
PPT Slide
Lager Image
, Mc )는 이진 마스크와 함께 입력된 생성 함수를 의미한다. 또한 (3)식에서 나오는 * 은 요소별 곱하기 연산 (element-wise multiplication) 으로써 이진 마스크와 함께 연산함으로써, 마스크로 지정된 픽셀만 추출하는 과정이다.
그리고 다음 식(4)를 통해 생성된 이미지는 보다 사실적인 영상을 가지게 된다.
PPT Slide
Lager Image
이것은 J. Johnson [10] 에 의해 소개된 방법으로 미리 훈련된 VGG [11] 네트워크롤 통해 이미지의 질감이 유사하도록 유도하는 함수로 동작하게 된다. 미리 학습된 VGG 네트워크에, 이미지를 통과시키게 되면, 각 레이어별로 특징이 추출하게 되는데, 주로 하위 레이어에서는 이미지 질감과 같은 정보가, 상위 레이어에서는 구조적인 정보가 특징으로 추출되게 된다. 본 논문에서 사용된 ϕ 는 미리 학습된 VGG 네트워크의 1번 Layer에서 추출되는 특징으로, 생성된 영상의 1번 Layer에서 추출된 특징과, 원본 영상의 1번 Layer에서 추출된 특징을 비교 하여 유사하게 유도 된다. 이 과정을 통하여, 생성되는 영상은 원본 영상의 질감적인 부분이 유사하게 재현된다. 이러한 방법은 J. Johnson [10] 에서 Perception Loss 라고 제안되었다.
전체 네트워크는 학습을 통해 최종 목적 함수가 최소화되는 방향으로 유도되고 최적화 된다. 본 네트워크는 Generator 와 Discriminator 가 서로 경쟁을 하면서 발전하는 GAN 구조로써 일반적으로 GAN [1] 의 경우 학습이 안정화 되지 않고, 학습이 불안하게 진행 되는 부분이 있는 것으로 알려 져 있다. 하지만 본 논문에서는 GAN Loss 뿐 아니라 다른 L1 Loss 와 같은 목적 함수가 같이 학습에 사용되면서 학습의 방향들을 지시하며, 이러한 목적 함수를 통하여 학습의 안정화를 유지 할 수 있게 된다.
Ⅳ. 실험 결과 및 분석
본 장에서는 제안하는 방법의 실험결과에 대하여 소개한다. 본 논문의 성능을 비교 평가하기 위하여 우리는 Paris Street View [6] 데이터셋을 이용한 학습 및 복원 실험을 진행 하였다. 비교 실험을 위해 DNN을 활용하여 이미지를 복원하는 대표적인 방법인 Context-Encoder [3] 를 같은 데이터셋에 대하여 같은 방법으로 훈련하여 정량적 평가를 실시하였다.
본 논문에서 제안 하는 모델간의 성능 비교를 위하여, 모델은 3가지 모델로 분리하여 따로 따로 훈련과 평가를 진행하였다. Our (l1+perc) 는 손실함수를 L1 과 Perception Loss를 함께 쓴 모델이며, Our (perc) 는 Perception Loss만 사용한 모델, Our (l1) 는 L1 Loss 만 사용한 모델로 3가지 다른 모델로 Baseline 모델인 Context Encoder 와 비교평가를 진행 하였다.
평가방법은 해당 데이터셋의 이미지를 Random Crop 한 이미지를 Training 데이터로, 1회 훈련에 800매의 영상을 사용 하고, 총 1500회 훈련을 반복하였다. 별도로 분리된 25장의 테스트 영상으로 결과를 확인 하였고, 영상과의 유사도를 파악하기 위하여 우리는 평균 L 1 loss L 2 loss 그리고 신호대비 잡음정도 (PSNR, Peak signal-to-noise ratio) 을 측정하여 비교 하였다. 그 결과는 표 2 와 같으며 비교 대상인 Context-Encoder 에 대비하여 모든 수치가 우위에 있음을 확인 하였다.
정량적 비교 측정Table 2. Quantitative evaluation
PPT Slide
Lager Image
정량적 비교 측정 Table 2. Quantitative evaluation
정량적인 평가 결과를 확인 하면 L1 Loss 만을 사용한 경우가 가장 좋은 결과를 보여 주었지만, 이것은 원본 이미지와의 수학적인 유사도로써, 흐린 이미지가 나올 때 PSNR 수치가 더 좋게 나오게 된다. 이것은 C. Ledig [12] 에서 제시된 문제로써, PSNR 수치가 사실적은 영상을 재현하고 그것을 평가하는 수치로는 적합하지 않다는 논의가 있다. 실제 이미지가 자연스럽게 보이는 것은 그림 3 을 통해 확인 할 수 있듯이, L1 loss 와 Perction Loss를 함께 쓴 영상이 보다 문맥적으로 자연스럽게 보인다.
손상된 영상의 복원 평가는 정량적인 평가보다는 얼마나 자연스럽게 복원되었나 라는 관점에서 실제 이미지를 보고 판단하는 정성적인 평가도 매우 중요하다. 그림 3 은 건물의 정면으로 구성된 Paris Street View [6] 데이터 셋에서의 복원 결과의 예를 나타낸다. 그림에서 제안하는 방법은 손상된 영역인 창과 벽이 자연스럽게 재생되어 주변과 손실이 없는 영역과 자연스럽게 이어지는 것을 확인할 수 있다. Context-Encoder 와 달리 난간과 같은 이미지에 대해서는 필요한 패턴을 복원하여, 보다 사실적인 결과 영상을 만들어 냄을 확인 할 수 있었다. 또한 비교 실험을 통하여 복원함에 있어서 Lperc Lcontests 조합으로 어떻게 다른 결과가 나오느냐을 확인 할 수 있다. Lperc 가 포함되지 않는 경우에는 결과물에서 질감과 패턴이 사라지로 흐린 이미지가 생성됨을 그림 2 를 통해 확인 할 수 있다.
PPT Slide
Lager Image
Context-Encoder[3] 와의 결과 비교 Fig. 2. Qualitative evaluation with Context-Encoder [3]
PPT Slide
Lager Image
일상 이미지에 대하여 복원을 테스트 한 결과 Fig. 3. Restoration for MS-COCO [7] dataset
제안하는 방법의 두 번째 실험은 MS-COCO [7] 데이터셋을 이용한 학습 및 복원 실험을 진행 하였다. MS-COCO데이터셋은 Paris Street View와 달리 건물과 같은 정형화되지 않고 실생활에서 획득 가능한 다양한 조건의 영상들로 구성되어 있다. 그림 3 는 MS-COCO 데이터셋에서의 복원 결과의 예를 나타낸다. 그림에서 복잡한 텍스쳐로 인해 예측이 어려운 이미지에서는 정확한 복원이 어려움을 확인할 수 있다. 그러나 선의 연결과 패턴의 재생과 같은 방식을 통하여 Mosaic 와 같은 손실이 큰 왜곡의 영상을 자연스럽게 복원 하고 있음을 확인 할 수 있다.
Ⅴ. 결 론
본 논문은 심층 신경망과 적대적 생성네트워크를 활용하여 Mosaic 과 같이 이미지의 조형적 정보가 완전히 손실된 영상을 주변의 이미지의 문맥적 정보를 활용 하여 영상을 복원하는 방법을 제안하였다. 또한 이미지를 복원함에 있어서, 목적함수의 설계를 통하여 자연스러운 복원과 동시에 세부적인 영상과 질감도 복원함으로써 보다 사실적인 영상으로 복원 할 수 있는 방안을 제안하였다. 본 논문에서는 성능 측정을 위해 정성적인 평가와 함께 대표적인 영상 평가 지표를 통해 정량적 평가를 진행하여 제시하는 방법의 우수성을 확인하였다.
현재 제안된 방법의 경우 손상된 영역을 사전에 네트워크에 알려주어야 복원이 가능하지만, 차후 연구 과제로써는 크기와 위치에 관계없는 손상된 영상에 대해서도 자동으로 위치를 파악하여 복원 할 수 있도록 발전시킬 예정이다.
이 논문의 결과 중 일부는 “IPIU 2018”에서 발표한 바 있음.
이 논문은 2017년도 정부(과학기술정보통신부)의 재원으로 정보통신기술진흥센터의 지원을 받아 수행된 연구임 (No.2017-0-01778,설명 가능한 인간 수준의 딥 기계학습 추론 프레임워크 개발)
※This work was supported by Institute for Information & communications Technology Promotion(IITP) grant funded by the Korea government (MSIT) (No.2017-0-01778,Development of Explainable Human-level Deep Machine Learning Inference Framework)
BIO
문 찬 규
- 2007년 : 홍익대학교 컴퓨터공학과 졸업
- 2007년 : 삼성 테크윈 입사
- 2010년 ~ 현재 : 삼성전자 입사 및 재직
- 2017년 ~ 현재 : 연세대학교 컴퓨터과학과 석사과정
- 주관심분야 : 패턴인식, 영상처리, 영상인식, 머신러닝, GAN
어 영 정
- 2010년 : 연세학교 컴퓨터학과 졸업 (학사)
- 2010년 ~ 현재 : 연세대학교 컴퓨터과학과 석박사통합과정
- 주관심분야 : Generative Adversarial Networks, 3D Reconstruction
변 혜 란
- 1980년 : 연세대학교 수학과 졸업(이학사)
- 1983년 : 연세대학교 대학원 수학과 졸업(이학석사)
- 1987년 : University of Illinois, Computer Science(M.S.)
- 1993년 : Purdue University, Computer Science(Ph.D.)
- 1994년 ~ 1995년 : 한림대학교 정보공학과 조교수
- 1995년 ~ 1998년 : 연세대학교 컴퓨터과학과 조교수
- 1998년 ~ 2003년 : 연세대학교 컴퓨터과학과 부교수
- 2003년 ~ 현재 : 연세대학교 컴퓨터과학과 교수
- 주관심분야 : 패턴인식, 영상처리, 영상인식
References
Goodfellow I. J. , Pouget-Abadie J. , Mirza M. , Xu B. , Warde-Farley D. , Ozair S. , Courville A. , Bengio Y. 2014 Generative Adversarial Nets International Conference on Neural Information Processing Systems 2672 - 2680
Hinton G. E. , Salakhutdinov R. R. 2006 Reducing the dimensionality of data with neural networks Science 313 504 - 507    DOI : 10.1126/science.1127647
Pathak D. , Krähenbühl P. , Donahue , J. , Darrell T. , Efro A.A. 2016 Context Encoders: Feature Learning by Inpainting IEEE International Conference on Computer Vision and Pattern Recognition 2536 - 2544
Iizuka S. , Simo-Serra E. , Ishikawa H. 2017 Globally and locally consistent image completion ACM Transactions on Graphics 36 (4)
Ronneberger O. , Fischer P. , Brox T. 2015 U-net: Convolutional networks for biomedical image segmentation International Conference on Medical Image Computing and Computer-Assisted Intervention 234 - 241
Doersch C. , Singh S. , Gupta A. , Sivic J. , Efros A. A. 2012 What makes paris look like paris? ACM Transactions on Graphics 31 (4)
Lin T. , Maire M. , Belongie S. , Hays J. , Perona P. , Ramanan D. , Dollar P. , Zitnick C. L. 2014 Microsoft COCO: common objects in context European Conference on Computer Vision 740 - 755
He K. , Zhang X. , Ren S. , Sun J. 2016 Deep residual learning for image recognition IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 770 - 778
Huang G. , Liu Z. , Weinberger K. Q. , van der Maaten L. 2016 Densely connected convolutional networks arXiv preprint arXiv:1608.06993
Johnson J. , Alahi A. , Fei-Fei L. 2016 Perceptual losses for real-time style transfer and super-resolution ECCV
Simonyan K. , Zisserman A. 2015 Very deep convolutional networks for large-scale image recognition International Conference on Learning Representations (ICLR)
Ledig C. , Theis L. , Huszar F. , Caballero J. , Aitken A. , Te- jani A. , Totz J. , Wang Z. , Shi W. 2017 Photo-realistic single image super-resolution using a generative adversarial network CVPR