Advanced
Analysis of Relationship between Objective Performance Measurement and 3D Visual Discomfort in Depth Map Upsampling
Analysis of Relationship between Objective Performance Measurement and 3D Visual Discomfort in Depth Map Upsampling
Journal of Broadcast Engineering. 2014. Jan, 19(1): 31-43
Copyright © 2014, The Korean Society of Broadcast Engineers
  • Received : August 06, 2013
  • Accepted : December 09, 2013
  • Published : January 30, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
종인 길
사이드 마흐모드포어
만배 김
manbae@kangwon.ac.kr

Abstract
깊이맵은 3D 입체영상의 생성을 위해 중요한 요소이다. 하지만 깊이 카메라를 이용하여 획득한 깊이맵들은 낮은 해상도를 갖는 단점이 있기 때문에 이를 고해상도로 변환하는 연구들이 활발하게 진행되고 있다. 이러한 연구들은 일반적으로 PSNR, Sharpness Degree, Blur Metric 등과 같은 객관적인 평가방법으로 성능을 검증해왔다. 이러한 평가방법 이외에 DIBR로 가상시점(virtual view)을 생성하여 주관적으로 평가하는 연구도 있으나, 입체영상을 생성하여 깊이맵 업샘플링의 성능을 분석하는 것은 많지 않다. 본 논문에서는 다양한 깊이맵 업샘플링 방법들을 이용하여 생성된 입체영상의 주관적 평가와 업샘플링 방법의 객관적 평가 결과의 상관관계 및 선형회귀법을 이용하여 관련성을 분석한다. 실험결과에서는 에지 PSNR이 시각적 피로도와의 상관관계가 가장 높고, Blur Metric은 가장 낮다는 것을 보여준다. 또한 선형회귀에서는 최적의 입체영상을 얻을 수 있는 객관적 평가의 가중치를 구하고, 기존 또는 새로운 업샘플링 알고리즘의 3D성능을 예측할 수 있는 공식을 보여준다.
Keywords
Ⅰ. 서 론
저해상도 깊이맵(depth map)의 해상도를 고해상도로 변환하는 깊이맵 업샘플링(upsampling)은 오래전부터 꾸준히 연구되어 왔다. 일반적인 방법으로 양선형 보간법(bilinear interpolation), 고등차수 보간법(bicubic interpolation) [1] , 양측 업샘플링(bilateral upsampling) [2] 을 이용한 방법이 있다. 깊이맵과 RGB 영상을 동시에 활용하는 결합 양측 업샘플링(joint bilateral upsampling) [3] , 분산(variance) 기반의 결합 양측 업샘플링(variance-based joint bilateral upsampling) [4] , 그리고 경계로부터의 거리정보를 활용하는 거리변환 기반의 양측 필터(Distance Transformbased bilateral upsampling) [5] 등이 있다.
깊이맵 업샘플링의 성능 평가 방법으로는 일반적으로 픽셀 값의 차이를 비교하는 PSNR(Peak Signal to Noise Ratio) [6] 을 사용하고 있다. 이외에도 영상의 날카로운 정도를 측정하는 Sharpness Degree [7] , 영상 블러(blur)의 양을 측정하는 Blur Metric [8] 등이 있다. 최종적으로 RGB 영상과 업샘플링된 고해상도 깊이맵으로부터 DIBR(Depth Image Based Rendering) [9 , 10 , 11] 을 이용하여 좌우 입체영상을 생성할 수 있다.
깊이맵 업샘플링의 성능은 PSNR 등의 객관적 평가 도구를 이용하여 측정한 수치로부터 우수성을 판단할 수 있다. 반면에 입체영상은 주관적 평가를 통해서 3D 입체감 및 시각적 피로도(visual fatigue)를 측정한다. 따라서 깊이맵의 객관적 평가 결과와 입체영상의 주관적 평가 결과가 어떠한 관련성을 가지는지 조사함으로써, 깊이맵 업샘플링 방법을 고안할 때, 어떤 객관적 평가 방법이 중요한지를 아는 것이 필요하다. 이 결과는 반대로 깊이맵 업샘플링에서 고려해야 할 요소가 무엇인지를 알려주는 중요한 연구이다.
다음 그림 1 은 제안 방법의 전체 흐름도를 보여준다. 먼저 저해상도 깊이맵을 고해상도로 업샘플링하고, 원본 RGB 영상과 이 깊이맵을 이용하여 입체영상을 생성한다. 입체영상은 3D 주관적 평가(3D subjective evaluation)로 평가를 하고, 깊이맵은 객관적 평가 도구(objective measurement tool)를 이용하여 업샘플링 방법의 객관적 평가 결과를 얻는다. 두 평가 방법의 상호 관련성을 분석하기 위해서, 상관관계(cross-correlation) 및 선형회귀(linear regression) 기법을 이용한다. 상관관계 분석으로부터 3D 성능에 중요한 객관적 측정 도구를 찾을 수 있다. 즉, 새로운 깊이맵 업샘플링을 고안할 때, 고려해야 할 객관적 요소를 알려준다. 또한 선형회귀 분석에서는 기존 또는 향후 제안되는 깊이맵 업샘플링 알고리즘의 3D성능을 예측할 수 있다.
PPT Slide
Lager Image
제안 평가방법의 전체 블록도 Fig. 1. Block diagram of the proposed evaluation method
본 논문의 구성은 다음과 같다. Ⅱ장에서는 실험에 사용하는 업샘플링 방법들을 설명하고, Ⅲ장에서는 객관적 및 주관적 성능 평가 방법들을 소개한다. Ⅳ장에서는 성능 평가 결과 사이의 관련성을 분석하는 방법에 대해 설명하고, 이를 토대로 한 실험 결과를 Ⅴ장에서 설명한다. 마지막으로 Ⅵ장에서 결론을 맺는다.
Ⅱ. 깊이맵 업샘플링 방법
객관적 평가 결과와 주관적 평가 결과와의 관련성을 찾기 위해서 다양한 업샘플링 방법을 이용한다. 업샘플링은 영상의 공간 해상도를 높이는 기술로, 불연속적인 영상 정보로부터 연속적인 보간 데이터를 예측하고, 보간할 픽셀의 값을 추정한다. 이와 같은 깊이맵 업샘플링 방법은 그동안 많은 연구가 진행되어 왔고 다양한 업샘플링 방법들이 존재하는데, 이 중 실험에서 테스트한 7가지 업샘플링 방법을 간단히 설명한다. 본 연구에서는 업샘플링 방법들의 상대적 우수성을 판단하는 것이 아니고, 관련성으로부터 깊이맵 업샘플링을 위해 고려해야 할 요인을 추정하는 것이 목적이다.
- 1. 양선형 보간법 (Bilinear Interpolation)[15]
양선형 보간법은 가장 일반적으로 사용되는 보간 기법으로 그림 2 와 같이 보간하려는 픽셀에 이웃한 네 개의 픽셀 D 1 , D 2 , D 3 , D 4 에 할당할 가중치를 선형적으로 측정하며 각 가중치는 보간 할 픽셀의 위치로부터 거리에 반비례한다. 그리고 가중치를 곱한 값들의 합으로써 보간 될 픽셀값을 추정한다.
PPT Slide
Lager Image
양선형 보간법의 픽셀값 측정 Fig. 2. Pixel value computation of bilinear interpolation
- 2. 고등차수 보간법 (Bicubic Interpolation)[16]
고등차수 보간법은 이웃한 4x4개의 픽셀을 이용한다. 먼저 3차 회선 함수를 이용하여 수평 방향으로 4번의 보간을 수행한다. 4개의 결과를 가지고 다시 수직 방향으로 1번의 보간을 수행하여 현재 픽셀의 값을 계산한다.
PPT Slide
Lager Image
고등차수 보간법의 픽셀값 측정 Fig. 3. Pixel value computation of bicubic interpolation.
- 3. 양측 업샘플링 (Bilateral Upsampling)[17]
양측 보간법은 에지의 정보 손실을 줄이는 데 사용되는 대표적인 영상 업샘플링 방법이다. 정방향 사상을 통해 변환된 고해상도 깊이맵에서 저해상도 깊이맵의 픽셀들은 보간하지 않고, 양선형 보간을 통해 보간된 픽셀의 양측에 서로 다른 가중치를 부여하는 함수를 이용하여 재보간을 수행한다. 양측 보간은 다음 식 (1)을 이용하여 수행된다.
PPT Slide
Lager Image
여기서 DpH 는 보간해야할 고해상도 깊이맵 DH 의 픽셀 p 의 깊이값이며, DqL 는 저해상도 깊이맵 DL 의 픽셀 q 의 깊이값이다. S는 저해상도에서 필터의 크기를 의미하며 필터 내부의 인접한 픽셀들을 보간에 사용한다. 가중치로 사용되는 wq 는 다음과 같이 정의된다.
PPT Slide
Lager Image
식 (2)와 같이 가중치 wq 는 공간 도메인 가중치 함수 f 와 범위 도메인 가중치 함수 g 의 곱으로 구성되며 식 (3), (4)와 같이 가우시안 함수로 정의된다. 공간 도메인 가중치 함수 f 는 픽셀간의 거리에 따라 가중치가 달라진다. 픽셀 간의 거리는 유클리디안 거리(Euclidean distance)를 이용하여 계산한다. 범위 도메인 가중치 함수 g 는 중심 픽셀과 인접하는 픽셀의 깊이값의 차이를 이용한다.
PPT Slide
Lager Image
PPT Slide
Lager Image
- 4. 결합 양측 업샘플링 (Joint Bilateral Upsampling)[18]
결합 양측 업샘플링은 양측 업샘플링을 응용한 것으로 범위 도메인 가중치 함수 대신 색상 도메인 가중치 함수를 사용하는 것으로 저해상도의 깊이맵이 아닌 원본 컬러 영상을 참조하는 방식이며 식 (5)와 같이 나타낼 수 있다. 결합 양측 업샘플링의 가중치 함수는 공간 도메인 가중치 함수 f 와 색상 도메인 가중치 함수 g 의 곱으로 구성된다. 이때 함수 g 는 중심 픽셀과 인접하는 픽셀의 색상 값의 차이를 이용한다.
PPT Slide
Lager Image
PPT Slide
Lager Image
식 (5)에서 Dq 는 저해상도 깊이맵,
PPT Slide
Lager Image
는 출력 고해상도 깊이맵, kp 는 필터의 크기이다. 또한 식 (6)에서
PPT Slide
Lager Image
PPT Slide
Lager Image
는 각각 고해상도 컬러영상에서 해당 위치의 컬러 값이다. 위 컬러 영상을 참조함으로써 기존 보간법보다 경계 영역이 더 잘 보존이 된다. 하지만 색상 차이가 뚜렷하지 않은 영역에서는 부정확한 깊이 영상을 얻을 수 있다.
- 5. 분산 기반 양측 업샘플링 (Variance based Bilateral Upsampling)[19]
분산 양측 업샘플링은 결합 양측 업샘플링에서 가우시안 분포는 σ에 따라 참조하는 가중치의 크기가 달라지는 점을 응용한 기법이다. 함수에 사용되는 σ는 가중치 함수의 크기를 조절하는 매개 변수로 가우시안 함수의 표준 편차이다. 범위 도메인 가중치 함수 g 의 경우 σ가 작은 값을 가지면 중심 픽셀과 인접 픽셀간의 색상 차이가 작아도 인접 픽셀을 참조하지 않는다. 반면 σ가 큰 경우 픽셀간의 색상 차이가 큰 경우에도 인접 픽셀을 참조하는 경우가 발생할 수 있다. 분산은 깊이 영상의 주변 픽셀들과 값의 차이가 큰 에지 영역에서 보다 높은 값이 검출되기 때문에 분산이 높을수록 σ를 작게 하여 부적절한 가중치를 방지한다. 획득한 분산을 이용하여 가우시안 분포로 가중치를 구할 때 필요한 σ의 설정에 활용한다. 분산이 작으면 σ를 증가시키고 아니면 감소시킨다. σ의 범위는 분산에 따라 다르게 설정한다. 깊이 영상으로부터 구한 σ D 는 식 (7)을 이용하여 획득한다. 여기서, var D 는 현재 블록의 분산값, var D max , var D min 는 전체 영상에서 최대 및 최소 분산값다. 또한 실험에서 σ max 는 9로 설정하였다. 이 값을 결합 양측 업샘플링에서 가우시안 분포로 색상 도메인 가중치 함수 g 를 구할 때 매개변수 σ로 사용한다. 이 σ D 를 사용함으로써 컬러 영상으로부터 발생할 수 있는 부적절한 가중치를 방지할 수 있다.
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
- 6. 적응적 양측 업샘플링 (Adaptive Bilateral Upsampling)[20]
적응적 양측 업샘플링이란 결합 양측 업샘플링을 적용할 때 컬러 영상의 영향으로 인해 비에지 영역(non-edge region)에서 부적절한 가중치 함수가 형성되는 경우를 방지하기 위해 비에지 영역에서는 컬러 영상을 참조하지 않고 깊이 영상만을 참조하는 기법이다.
위 식에서 f 는 공간 도메인 가중치 함수이고, g h 는 각각 색상 도메인 가중치 함수와 범위 도메인 가중치 함수이다. 그리고 α는 에지 영역과 비에지 영역을 구분짓기 위한 변수이며 [0, 1]의 값을 가진다. 에지 영역과 비에지 영역은 윈도우 영역 내의 픽셀값의 최대값과 최소값의 차를 임계값을 이용하여 구분한다.
- 7. 거리변환 기반 양측 업샘플링 (Distance Transform based Bilateral Upsampling)
거리변환(Distance Transform)은 영상에서 추출한 에지들과 그 영상에 존재하는 픽셀 사이의 최단 거리를 나타낸다 [12] . 즉, 현재 픽셀과 가장 가까운 에지와의 거리를 찾는 방법으로, 각 픽셀에서 에지까지의 거리를 쉽게 알 수 있게 한다. 깊이맵에서 에지 정보는 객체를 구별하는데 있어서 중요한 역할을 하여 선명도에 영향을 준다.
거리변환은 기본적으로 유클리디안 거리를 사용하여 측정하고 있으며, 시작 픽셀을 중심으로 8방향의 이웃 픽셀들을 탐색하면서 에지에 가장 가까운 픽셀로 이동하는 동작을 반복하여 최종적인 거리변환 값을 획득한다. 각 픽셀을 해당 픽셀과 가장 가까이 인접한 에지와의 거리 값으로 변환한 영상을 거리변환맵(DT map)이라고 한다.
이러한 거리변환 맵을 양측 업샘플링에 적용하기 위해 에지에 적응적인 공간 도메인 가중치 함수 f 를 다음 식 (10)과 같이 정의한다. 식 (10)에서 edt 는 거리변환 값에 따라 공간 도메인 가중치 함수를 조절하는 가중치 조절 함수로 식 (11)과 같이 거리변환 값 Τ의 지수 함수로 계산한다.
PPT Slide
Lager Image
PPT Slide
Lager Image
- 8. 실험 깊이맵 업샘플링 방법들의 분석
양선형 업샘플링(BLU) 및 고등차수 보간법(BCU)은 저해상도 깊이맵에서 이웃하는 픽셀들의 값으로 보간한다. 양측 보간법(BU)은 저해상도 깊이맵의 공간 거리 및 깊이 차이를 이용한다. 결합 양측 업샘플링은 공간 거리 및 컬러 데이터의 차이값을 이용하여 보간 픽셀을 채운다. 분산 기반 업샘플링(VBU)은 표준편차 σ을 상수값으로 사용하지 않고, 깊이맵에서 픽셀 주변의 편차값을 이용하여 적응적으로 사용한다. 적응 양측 업샘플링(ABU)은 컬러 차이 및 깊이 차이에 따라서 적응적으로 비율을 변경하면서 고해상도 깊이맵을 생성한다. 거리변환 기반 업샘플링(DTBU)는 에지로부터의 픽셀 거리에 따라 공간 거리를 제어함으로써, 거리변환 값이 크면, 즉 에지로부터 거리가 증가하면 공간 거리의 가중치를 줄이는 방법이다.
Ⅲ. 성능 측정 방법
업샘플링된 고해상도 깊이맵의 성능을 평가하기 위해 주로 객관적인 평가 방법을 이용한다. 반면 이로부터 얻어진 입체영상의 성능은 주관적 입체감 평가로부터 측정한다. 객관적인 평가는 원본 깊이맵과 업샘플링된 깊이맵을 객관적인 수치 분석을 통하여 비교하는 것이고, 주관적인 평가는 피실험자가 3D 입체영상을 시청하고, 3D 입체감 및 시각적 피로도(visual fatigue, visual discomfort)를 측정하여 평가 지표로 사용하는 방법이다.
객관적인 화질 평가로는 PSNR, Sharpness Degree, 및 Blur Metric이 있다. 3D 입체영상에서는 에지에서의 입체감 측정이 매우 중요하기 때문에, PSNR은 전체영상에서 구하는 Image PSNR, 에지 픽셀에서만 구하는 Edge PSNR, 및 비에지(non-edge) 픽셀에서의 Non-edge PSNR로 세분화한다.
- 1. PSNR
PSNR(peak signal to noise ratio)은 가장 일반적인 객관적 화질 평가의 방법 중 하나로 서로 다른 두 영상에 대한 차이를 계산한다 [6] .
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 MSE(mean squared error)는 원 깊이맵 DOH 와 업샘플링된 고해상도 깊이맵 DH 의 픽셀간의 차이의 합이며, N 은 픽셀의 수이다. 전체 영상의 PSNR 이외에도 에지 PSNR과 비에지 PSNR를 측정한다. 깊이맵으로부터 에지를 검출한 후, 에지 픽셀에 대해서 측정한 PSNR을 PSNREdge 이고, PSNRnonEdge 은 에지가 아닌 픽셀에 대해서 측정한 PSNR이다. 측정 방법은 PSNR 와 동일하다. 에지 추출을 위해 Sobel 연산자를 사용하였다 [21] .
- 2. Sharpness Degree
Sharpness Degree [7] 는 영상의 선명한 정도를 표현하는데 사용되는데, 다음 식 (14)를 이용하여 측정한다.
픽셀 D (x,y)에 대한 좌측 픽셀 D (x-1,y)과의 차이와 상단 픽셀 D (x,y-1)과의 차이를 더한 후 제곱 및 평균을 냄으로써 sharpness degree를 계산한다.
- 3. Blur Metric
블러(blur)의 양을 측정하는 객관적 화질평가인 blur metric은 에지의 시작과 끝 사이의 폭을 측정함으로써 블러의 정도를 추정하는 방법이다 [8] . 먼저 M × N 의 해상도를 갖는 깊이맵의 하나의 행(row)에 있는 픽셀의 깊이 값은 {x 1 ,x 2 ,⋯,x N }이다. 깊이맵으로부터 소벨(Sobel) 연산자를 이용하여 에지 {p 1 ,p 2 ,⋯,p K }를 검출한 후에, 각 에지 픽셀 pk 에서 국부 최대(local maximum)를 갖는 픽셀의 위치 ps , 국부 최소(local minimum)를 갖는 픽셀의 위치 pf 를 이용하여 다음 식 (15)로부터 에지의 폭 wk 를 계산한다.
PPT Slide
Lager Image
PPT Slide
Lager Image
일반적으로 에지는 1 픽셀 이상의 폭을 가진다. 모든 스캔라인에서 wk 를 계산한 후에, blur metric은 다음 식 (16)과 같이 wk 의 합으로 구한다. 여기서 Ki 는 영상에 존재하는 모든 에지 픽셀의 개수를 의미한다. blur metric은 오직 수직 에지만을 고려한다. 수직 및 수평 에지를 모두 고려하면 방향에 따른 에지의 블러를 측정할 수 있지만, 유사한 결과를 얻기 때문에 수평 에지만 고려해도 충분하다 [8] .
PPT Slide
Lager Image
- 4. 시각적 피로도 (Visual Fatigue)
DIBR로 생성된 입체 영상의 평가를 위해 주관적 화질 평가의 일반적인 방법인 DSCQS(Double Stimulus Continuous Quality Scale) [13] 방법이 있다. 주관적 3D 성능 평가는 크게 3D 입체감 평가 및 시각적 피로도 평가로 나누어진다. 그러나, 원 고해상도 깊이맵과 업샘플링으로 획득한 고해상도 깊이맵은 입체감에 큰 영향을 주지 못하지만 시각적 피로도에는 상대적으로 큰 영향을 미칠 수 있기 때문에 실험에서는 시각적 피로도를 측정한다. 표 1 은 주관적 평가에 사용되는 점수표를 보여준다. 피실험자는 [0, 5]의 스케일로 평가하고, 최종적으로 평가 점수의 평균값을 구한다.
시각적 피로도 평가
PPT Slide
Lager Image
Table 1. Visual fatigue evaluation
Ⅳ. 주관적 및 객관적 평가 결과의 관련성 분석
서론에서 소개한 것처럼, 3장의 객관적 및 주관적 평가 결과의 연관성을 분석하기 위해서 상관관계(cross correlation) 및 선형회귀법(linear regression)을 이용한다. 두 분석 기법은 독립적으로 수행되며 상호 연관성은 없다. 상관관계 분석에서는 각 객관적 평가와 시각적 피로도와의 연관성을 조사하여, 최소의 시각적 피로도를 주는 객관적 평가 방법을 찾는다. 또한 선형회귀 분석에서는 모든 객관적 평가와 시각적 피로도와의 관계를 구하고, 최종적으로 가장 만족하는 시각적 피로도를 얻을 수 있는 객관적 평가들의 최적 가중치를 알 수 있다. 추가적으로 기존 또는 새로운 업샘플링 알고리즘으로부터 획득한 입체영상의 입체 품질을 예측하는 것이 가능하다.
- 1. 상관관계
객관적 측정 결과와 피로도간의 연관성을 조사하기 위해 상관계수(correlation coefficient)를 측정한다. 상관계수 ρ는 2개의 변수간의 분산 상황의 선형 관계를 나타내는 지표이며, 식 (17)을 이용하여 계산한다.
PPT Slide
Lager Image
실험에서는 x는 객관적 평가로 측정한 결과이고, y는 시각적 피로도이다. 이때, │ ρ │가 1에 근접할수록 상관관계가 높다. N은 사용한 업샘플링 방법의 개수이다.
- 2. 선형회귀법
선형회귀법에서는 두 형질 x, y간에 선형 관계가 있으면 x의 변화에 대응하여 y가 어떻게 변화하는가를 1차식으로 나타내는 것이 가능하다. 객관적 평가 값과 주관적 평가 사이의 차이 є 를 구하는 식은 다음과 같다.
PPT Slide
Lager Image
여기서 x i = [x 1 ,x 2 ,⋯,x N ]는 각각 N 개의 업샘플링 방법들의 객관적 평가 결과이고, y i = [y 1 ,y 2 ,⋯,y N ]는 주관적 시각적 피로도 평가로부터 획득한 측정값이다. K 는 측정 평가 방법들의 개수이다. 위 식으로부터 x i 와 y i 의 관계를 다음 행렬식으로 표현한다.
PPT Slide
Lager Image
식 (19)를 다음 식으로 변환한다.
PPT Slide
Lager Image
따라서, A는 다음과 같이 얻어진다.
PPT Slide
Lager Image
위 식으로부터 최적의
PPT Slide
Lager Image
를 구하면, 이를 이용하여 깊이맵 업샘플링 방법의 시각적 피로도를 예측하는 것이 가능하다.
Ⅴ. 실험 결과 및 분석
실험에서는 16장의 다양한 해상도의 컬러 영상과 깊이맵을 실험 영상으로 사용하였다 ( 그림 4 ). 저해상도 깊이맵을 생성하기 위해 먼저 원 깊이맵을 다운샘플링(downsampling)하였다. 다음으로 2장에서 소개한 7개의 업샘플링 방법을 이용하여 업샘플링하여 고해상도 깊이맵을 생성하였다. BLU는 양선형 보간법, BCU는 고등차수 보간법, BU는 양측 업샘플링, JBU는 결합 양측 업샘플링, VBU는 분산 기반 양측 업샘플링, ABU는 적응적 양측 업샘플링, 그리고 DTBU는 거리변환 기반 양측 업샘플링이다. 업샘플링된 깊이맵 중 Middlebury bowling의 결과는 그림 5 에서 보여진다. 이 깊이맵과 원 RGB영상으부터 생성한 좌우 입체영상은 interlaced 포맷으로 그림 6 에서 보여진다.
PPT Slide
Lager Image
실험 RGB 영상과 깊이맵. 실험데이터는 MSR, Middlebury, GIST 및 HHI에서 제공 받았음. Fig. 4. RGB images and related depth maps. (Provided by MSR, Middlebury, GIST and HHI)
PPT Slide
Lager Image
Middlebury Bowling 깊이맵의 업샘플링된 깊이맵. (a)는 원깊이맵이고 (b)~(h)는 7개의 업샘플링방법으로 얻어진 깊이맵임 Fig. 5. Upsampled depth maps of Middlebury Bowling using seven upsampling methods. (a) is an original depth map and (b)~(h) are upsampled depth maps obtained by seven methods
PPT Slide
Lager Image
원 RGB 영상과 업샘플링된 깊이맵으로부터 생성된 좌우 입체영상 Fig. 6. Stereoscopic images in interlaced format generated by original RGB images and upsampled depth maps.
그림 6 에 있는 영상의 하단 부분을 확대한 영상이 그림 7 에서 보여지는데, 원 깊이맵과 달리 왜곡이 발생하는 것을 관찰할 수 있다. 이러한 왜곡은 입체영상의 화질 저하로 시각적 피로도를 유발하게 된다. 업샘플링된 고해상도 깊이맵에 대해, Image PSNR(I-PNSR), Edge PSNR(E-PSNR), Non-edge PSNR(NE-PSNR), Sharpness Degree (SD), Blur Metric (BM)의 객관적 평가 수치를 측정하였고, 16장의 평균값은 표 2 에서 보여진다.
PPT Slide
Lager Image
그림 5의 확대영상 Fig. 7. Close-ups of images in Fig 5
객관적 평가의 평균 결과. PSNR은 dB임. (BLU는 양선형 보간법, BCU는 고등차수 보간법, BU는 양측 업샘플링, JBU는 결합 양측 업샘플링, VBU는 분산 기반 양측 업샘플링, ABU는 적응적 양측 업샘플링, 그리고 DTBU는 거리변환 기반 양측 업샘플링임)
PPT Slide
Lager Image
Table 2. Average results of objective quality test. (BLU= bilinear upsampling, BCU=bicubic upsampling, BU= bilateral upsampling, JBU=joint bilateral upsampling, VBU=variance-based bilateral upsampling, ABU=adaptive bilateral upsampling, and DTBU=distance transform-based bilateral upsampling)
일반적으로 업샘플링은 최대한 원본과 유사한 영상을 획득하는 것이 목적이지만, 서론에서 설명하였듯이, 입체영상 분야에서는 원본과 유사한 깊이맵이 무조건 높은 품질의 입체영상의 생성을 보장할 수 없다. 그 이유는 깊이맵의 작은 차에도 입체영상 생성시에 부적절한 왜곡을 발생할 가능성이 있기 때문이다. 즉, 깊이맵 업샘플링의 궁극적인 목적은 그 활용에 있기 때문에, 입체영상의 품질을 평가하는 것이 더 타당하다 [14] .
이를 위해 입체영상의 주관적 평가를 다음과 같이 수행하였다. 3D 2-시점 입체 모니터로 입체영상들을 시청하여 인식되는 시각적 피로도를 조사하였다. 주관적 평가를 위해, DSCQS (Double Stimulus Continuous Quality Scale) 실험을 실행하였다 [13] . 10명의 피실험자에게 각각 10초 동안 원 입체영상과 출력 입체영상들을 보여주었다. 피실험자들은 원 깊이맵에 의해 생성된 입체영상과 실험 업샘플링 방법으로부터 얻어진 고해상도 깊이맵에 의해 생성된 입체영상을 번갈아 보면서 원 입체영상으로부터 느낀 피로도와 출력 입체영상으로부터 느낀 상대적인 피로도에 대해서 표 1 의 1(매우 피로함)부터 5(피로감 없음)까지의 점수를 주는 방식으로 평가를 진행하였다. 원 깊이맵의 입체영상을 5.0으로 정하고, 상대적으로 얻어진 고해상도 깊이맵으로부터 생성된 입체영상의 피로도를 [0, 5]로 평가하는 방식을 채택하였다. 피실험자들의 평가결과의 평균값으로 얻어진 시각적 피로의 평균 점수는 표 3 에서 보여진다.
PPT Slide
Lager Image
객관적 평가 값과 시각적 피로도의 그래프 Fig. 8. The graph of the relation between objective measurement values and visual fatigue grade
시각적 피로도의 평균 점수
PPT Slide
Lager Image
Table 3. Average grades of visual fatigue
표 2 의 객관적 평가와 표 3 의 주관적 평가의 결과를 2차원 그래프로 보면 그림 8 과 같다. Image PSNR, Edge PSNR, non-edge PSNR, Sharpness Degree 및 Blur Metric의 각각의 값과 시각적 피로도의 분포를 알 수 있다. 5가지 객관적 평가와 시각적 피로도는 각각 0~1의 값으로 정규화하였다.
Ⅲ장에서 객관적 평가 결과와 주관적 평가와의 연관성을 알기 위해서 상관관계를 소개하였다. 식 (17)의 상관계수 p 표 4 에서 보여진다. I-PSNR, E-PSNR, NE-PSNR, Sharpness Degree 및 Blur Metric의 각 값과 시각적 피로도의 상관관계는 0.5825, 0.6084, 0.5543, 0.5228, 0.2729이다. 따라서 가장 상관관계가 높은 것은 Edge PSNR이고, 가장 작은 상관관계를 갖는 방법은 Blur Metric이다. 따라서 시각적 피로도를 낮추기 위해서는 에지에서의 성능을 개선하는 것이 중요하다는 것을 알 수 있다. 이 결과는 깊이맵 업샘플링 알고리즘을 구현할 때에 에지에서의 PSNR을 증가시킬 수 있도록 해야 한다는 것을 알려준다. 반대로 블러는 시각적 피로도에 영향이 적다는 것을 알 수 있다.
객관적 화질평가와 시각적 피로도간의 상관계수ρ
PPT Slide
Lager Image
Table 4. Cross correlation ρ between objective quality test and visual fatigue
두 번째 분석으로 식 (18)의 선형회귀법을 이용하여 모든 객관적 평가 결과와 시각적 피로도와의 선형 관계를 이용하였다. 표 5 는 각 객관적 화질 평가 측정값과 시각적 피로도를 선형회귀법을 이용하여 획득한 최적의 α를 보여준다. 이 표의 값들을 수학식으로 표현하면 식 (22)와 같다. 이 식에서 Y 는 시각적 피로도이며 각 α는 객관적 평가 방법과 상응하며 두 값의 곱으로 관계가 성립한다.
PPT Slide
Lager Image
선형회귀법을 이용하여 획득한 최적의α
PPT Slide
Lager Image
Table 5. Optimal α obtained by linear regression
표 6 은 주관적 실험을 통해 획득한 시각적 피로도와 선형회귀 방법을 이용하여 획득한 시각적 피로도의 차이값을 보여준다.
입력 시각적 피로도와 예측된 시각적 피로도의 차이
PPT Slide
Lager Image
Table 6. The difference between input and predicted visual fatigue data
식 (18)을 이용하여 α를 획득하게 되면 추정된 시각적 피로도를 얻을 수 있는데 이는 본 논문에서 설명한 7가지의 업샘플링 방법은 이미 주관적 실험을 통해 시각적 피로도를 측정함으로써 입체영상의 성능을 평가할 수 있었지만, 이외에 다른 업샘플링이 제안되었을 경우 주관적 실험을 수행하지 않고도 시각적 피로도를 예측할 수 있음을 의미한다. 앞서 설명하였듯이 깊이맵은 스테레오 영상 혹은 3D 영상의 생성을 위한 활용에 그 목적이 있기 때문에, 입체영상 관점에서 성능을 검증하는 것이 타당하다. 그러므로 선형회귀법을 이용하여 새로운 업샘플링 방법의 예측된 시각적 피로도를 성능평가의 척도로 사용할 수 있다.
Ⅵ. 결론 및 향후 연구
본 논문에서는 깊이맵에 대한 객관적 평가방법들과 3D 영상에 대한 주관적 평가 결과 사이의 상관관계를 파악하여 최적의 업샘플링 방법을 선택하는 방법을 제안하였다. 본 논문에서는 객관적 평가방법으로부터 획득한 결과가 피실험자로부터 측정하는 주관적 평가 결과와 같은 결과를 도출하는지에 대한 분석을 수행하였다.
상관관계를 측정한 실험 결과로부터 PSNR이 0.5825, Edge-PSNR이 0.6084, NonEdge-PSNR이 0.5543, Sharpness Degree가 0.5228이 측정되었다. 이 결과로부터 Edge-PSNR이 깊이맵 업샘플링을 설계함에 있어서 가장 고려해야 할 사항임을 입증하였다. 그러나 Edge-PSNR의 상관계수가 다른 객관적 평가 방법과 크게 차이가 나지 않는 만큼 오로지 Edge-PSNR만을 고려해야함을 의미하는 것은 아니며, 상관계수의 차이만큼 적절히 고려해야함이 필요할 것이다. 반면 Blur Metric은 0.2729이 측정되었다, 이 결과는 Blur Metric이 다른 평가 방법에 비해 관련성의 큰 차이를 보여주었으므로, 깊이맵 업샘플링에서 크게 고려하지 않아도되는 요소임을 보여주었다. 또한 새로운 깊이맵 업샘플링 방법이 제안되었을 때, 선형회귀법을 이용하여 입체영상에 따른 깊이맵의 품질을 평가할 수 있음을 보여주었다. 객관적 측정 방법에 대해 각 α값은 PSNR이 21.93, Edge-PSNR이 –7.80, NonEdge-PSNR이 –13.29, Sharpness Degree가 0.20, BlurMetric이 –0.16이 측정되었다. 획득한 α를 이용하여 예측된 시각적 피로도를 측정하였을 때, 최소 0에서 최대 0.39의 오차를 보여주었다.
제안 방법은 주관적 평가 결과에 대한 중요성을 강조하고 입체영상 평가에 대한 새로운 방향을 제시함으로써 시각적 피로도가 낮은 입체영상 기술 발전에 기여할 것으로 기대한다.
BIO
길 종 인
- 2010년 8월 : 강원대학교 컴퓨터정보통신공학과 학사
- 2012년 8월 : 강원대학교 컴퓨터정보통신공학과 석사
- 2012년 9월 ~ 현재 : 강원대학교 컴퓨터정보통신공학과 박사과정
- 주관심분야 : 3D영상처리, 깊이맵처리, 컴퓨터비전
Saeed Mahmoudpour
- 2007년 9월 : B.S degree, Islamic Azad University, Iran
- 2011년 9월 : M.S degree, Islamic Azad University, Iran
- 2013년 3월 - 현재 : Ph.D student, Kangwon National University, Repubic of Koera
김 만 배
- 1983년 : 한양대학교 전자공학과 학사
- 1986년 : University of Washington, Seattle 전기공학과 공학석사
- 1992년 : University of Washington, Seattle 전기공학과 공학박사
- 1992년 ~ 1998년 : 삼성종합기술원 수석연구원
- 1998년 ~ 현재 : 강원대학교 컴퓨터정보통신공학과 교수
- 주관심분야 : 3D영상처리, 깊이맵처리, 입체변환
References
Hou H. , Andrews H. 1978 “Cubic splines for image interpolation and digital filtering” IEEE Trans. Acoust. Speech Signal Process. 26 (6) 508 - 517    DOI : 10.1109/TASSP.1978.1163154
Tomasi C. , Manduchi R. 1998 “Bilateral filtering for gray and color images” In Proc. IEEE Int. Conf. on Computer Vision 836 - 846
Kopf J. , Cohen M. , Lischinski D. , Uyttendaele M. 2007 “Joint Bilateral Upsampling” ACM Trans. on Graphics 26 (3)
Pham C. , Ha S. , Jeon J. 2011 “A local variance-based bilateral filtering for artifact-free detail- and edge-preserving smoothing” PSIVT, Part Ⅱ, LNCS 7088 60 - 70
Jang S. , Lee D. , Kim S. , Choi H. , Kim M. 2012 “Depth Map Upsampling with Improved Sharpness” Jounal of Broadcast Engineering 17 (6) 933 - 944    DOI : 10.5909/JBE.2012.17.6.933
Thu Q. , Ghanbari M. 2008 “Scope of validity of PSNR in image/video quality assessment” Electronics Letters 44 (13) 800 - 801    DOI : 10.1049/el:20080522
Tsai C. , Liu H. , Tasi M. 2011 “Design of a scan converter using the cubic convolution interpolation with canny edge detection” 2011 International Conference on Electric Information and Control Engineering (ICEICE) 5813 - 5816
Marziliano P. , Dufaux F. , Winkler S. , Ebrahimi T. 2008 “Perceptual blur and ringing metrics: application to JPEG2000” Int. Workshop Multimedia Signal Processing 403 - 408
Redert A. , Op M. , Fehn C. , IJsselsteijn W. , Pollefeys M. , Van Gool L. , Ofek E. , Sexton I. , Surman P. 2002 “ATTEST—Advanced Three-dimensional Television System Techniques” Proc. of 3DPVT 313 - 319
Fehn C. 2004 “Depth-image-based Rendering (DIBR), Compression and Transmission for a New Approach on 3D TV” Proc. of SPIE Stereoscopic Displays and Virtual Reality Systems 5291 93 - 104
Zhang L. , Tam W. J. 2005 “Stereoscopic Image Generation Based on Depth Images for 3D TV” IEEE Trans. on Broadcasting 51 191 - 199    DOI : 10.1109/TBC.2005.846190
Borgefors G. 1988 “Hierarchical chamfer matching: a parametric edge matching algorithm” IEEE T. Patten Anal. Mach. Intell. 10 (6) 849 - 865    DOI : 10.1109/34.9107
2000 "Subjective assessment of stereoscopic television picture", ITU-R Recommendation BT. 1438
Nur G , Dogan S. , Kodikara Arachchi H. , Kondoz A. M. 2010 “Impact of Depth Map Spatial Resolution on 3D Video Quality and Depth Perception” 3DTV-CON 1 - 4
Chang Kang-Tsung 2009 “Computation for Bilinear Interpolation” Introduction to Geographic Information Systems 5th ed
Keys R. 1981 “Cubic convolution interpolation for digital image processing” IEEE Trans on Signal Processing, Acoustics, Speech and Signal Processing 29 (6) 1153 - 1160    DOI : 10.1109/TASSP.1981.1163711
Tomasi C. , Manduchi R. 1998 “Bilateral filtering for gray and color images” In Proc. IEEE Int. Conf. on Computer Vision 836 - 846
Kopf J. , Cohen M. , Lischinski D. , Uyttendaele M. 2007 “Joint Bilateral Upsampling” ACM Trans. on Graphics 26 (3)
Phan C. , Ha S. , Jeon J. 2011 “A local variance-based bilateral filtering for artifact-free detail and edge preserving smoothing” PSIVT, Part II, LNCS 7088 60 - 70
Yeo D. , Hap E. , Kim J. , Baig M. , Shin H. 2010 “Adaptive Bilateral Filtering for Noise Removal in Depth Upsampling” SoC Design Conf. 36 - 39
Sobel I. E. , Ph.D. dissertation 1970 “Camera Models and Machine Perception” Stanford University Palo Alto, Calif. Ph.D. dissertation