Advanced
Improve Compression Efficiency of 360degree VR Video by Correcting Perspective in Cubemap Projection
Improve Compression Efficiency of 360degree VR Video by Correcting Perspective in Cubemap Projection
Journal of Broadcast Engineering. 2017. Jan, 22(1): 136-139
Copyright © 2017, The Korean Institute of Broadcast and Media Engineers
This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.
  • Received : December 06, 2016
  • Accepted : December 30, 2016
  • Published : January 30, 2017
Download
PDF
e-PUB
PubReader
PPT
Export by style
Article
Author
Metrics
Cited by
About the Authors
성재, 윤
광훈, 박
ghpark@khu.ac.kr

Abstract
최근 VR(virtual reality)의 관심이 급격하게 늘어감에 따라 HMD(Head Mounted Display), 360도 VR 카메라 등 많은 VR기기들이 출시되고 있다. 그럼에도 불구하고 현재 360도 VR 비디오의 경우 기존의 일반 2D 비디오의 코덱을 그대로 사용하고 있다. 기존의 코덱은 360도 VR 비디오의 특징을 고려하지 않고 비디오를 부/복호화하기 때문에 압축효율이 떨어지게 된다. 본 논문에서는 360도 VR 비디오의 특성 중 시점이 달라 생기는 왜곡을 보정한 참조프레임으로 사용함으로써 압축효율을 높이는 방법을 제안한다. 제안한 방법을 적용할 경우 시간적 예측 효율이 높아져 압축효율이 높아진다.
Keywords
Ⅰ. 서 론
최근 FHD(Full High Definition), UHD(Ultra High Definition) 해상도를 가지는 방송 서비스가 확대되면서, 많은 사용자들이 고해상도, 고화질의 영상에 익숙해지고 있으며, 기술이 개발됨에 따라 기존의 2D 영상 뿐만 아니라 360도 VR 비디오 같은 실감형 미디어에 대한 관심이 높아지고 있다 [1][2] . 360도 VR 비디오는 기존 2D 비디오의 고정된 시점을 벗어나 사용자가 비디오를 재생할 때 원하는 방향을 볼 수 있는 비디오로써 여러 대의 카메라 또는 어안렌즈를 이용하여 한 지점으로부터 3차원 공간 내 360도 모든 방향을 촬영한 뒤 3차원의 다면체나 구에 투영시켜 2차원 공간상의 구나 다면체의 전개도 영상을 얻는다. 투영시킨 전개도 영상은 재생 시에 다시 3차원 다면체나 구 등으로 재구성되고 전체 영상 중에 사용자가 바라보는 특정 관심 영역을 보여준다. 360도 VR 비디오의 관심이 급격하게 많아짐에도 불구하고 현재 360도 VR 비디오의 경우 기존의 일반 2D 비디오의 코덱을 그대로 사용하고 있어서 압축 효율이 떨어지게 된다. 본 논문에서는 360도 VR 비디오의 특성 중 시점이 달라 생기는 왜곡을 보정한 참조 프레임을 사용함으로써 압축효율을 높이는 방법을 제안한다.
Ⅱ. 기존 방법
현재 360도 VR 비디오는 < 그림 1 >과 같이 Equirectangular Projection(ERP), Icosahedral Projection(ISP), Cubemap Projection(CMP), Reshaped Cubemap Projection (RCMP) 등 이 외에도 다양한 형태의 Projection [3] 이 사용되고 있다. 현재 가장 일반적으로 사용되는 Projection은 ERP 포맷이다. ERP 포맷은 3차원 공간에서 구에 투영한 영상을 2차원 평면으로 펴낸 포맷으로 영상이 한눈에 들어와서 직관적이라는 장점이 존재하지만 영상 전체에 왜곡이 존재하므로 블록기반(block base) 코딩을 사용하는 기존 코덱을 사용할 경우 예측이 잘되지 않는 문제점이 있다. 반면 CMP, RCMP 포맷은 3차원 공간에서 정육면체(Cube)에 투영하여 만든 포맷으로 각 면(Plane)내에서는 ERP보다 왜곡이 적고 기존의 블록기반(block base) 코딩이나 영상의 Linear한 특징을 이용한 기존 intra 예측 기술에 적합하다. RCMP 포맷은 CMP 포맷과 데이터는 동일하지만 데이터의 위치를 재배치 해놓은 포맷으로 < 그림1 >의 (c)의 검은 영역인 불필요한 메모리 낭비가 없다는 장점이 있다.
PPT Slide
Lager Image
360도 VR 비디오 Projections Fig. 1. 360degree VR video Projections
- 1. 기존 알고리즘의 문제점
기존의 코덱에서 360도 VR 비디오를 인코딩 할 경우 < 그림 2 >의 좌측과 같이 참조 프레임이 Cube의 경계면에서 왜곡이 존재하게 된다. 따라서 현재 프레임에서 참조프레임으로부터 inter 예측을 할 때 현재의 Cube 면을 벗어날 경우 왜곡된 영상으로부터 예측하기 때문에 < 그림 2 >처럼 우측의 현재 프레임과 좌측의 참조 프레임의 객체의 모양이 서로 달라 예측 효율이 낮아지게 된다.
PPT Slide
Lager Image
기존 알고리즘의 문제 Fig. 2. Problems with existing algorithms
Ⅲ. 제안 방법
- 1. 정육면체(Cube) 면간 perspective 관계식
CMP, RCMP 포맷의 360도 VR 영상을 3차원 공간상에 재구성했을 때 각각 90°의 시야각을 가진 6개의 면을 갖게 된다. 따라서 정육면체(Cube)에서 한 변의 길이를 a라고 하고 perspective 변환 전 픽셀의 위치를 ( x , y ) , perspective 변환 후 픽셀의 위치를 ( x ′, y ′)라고 하면 < 그림 3 > (a)로부터 비례관계 식 (1)을 유도 할 수 있다. 유도한 식 (1)을 계산함으로써 아래와 같은 x x ′의 관계식 (2)를 유도해낼 수 있다. 또한 < 그림 3 >의 (b)와 (c)로부터 y y ′의 관계식 (3)을 유도해낼 수 있다.
PPT Slide
Lager Image
Cube의 perspective 관계 (a)xx′의 관계 (b)변환 전 x, y의 위치 (c)변환 후 x′, y′의 위치 Fig. 3. Cube's perspective relationship (a)Relationship between x and x′ (b)Position of x, y before conversion (c)Position of x′, y′ after conversion
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
- 2. 제안 방법 적용
< 그림 4 >와 같이 현재 Cube 면을 기준으로 상하좌우 앞서 유도한 식을 이용하여 perspective를 보정한다. 보정범위는 Cube의 경계면에서 Search Range만큼 적용을 한다. < 그림 4 >의 (b)와 같이 현재 면의 인접한 좌우영역은 x 축의 경우 식(2) y 축의 경우 식(3)을 사용하여 인접 면을 보정해서 참조프레임을 재구성을 한다. 마찬가지로 상하영역을 재구성을 하는데 상하의 경우 좌우와 달리 x 축을 식(3) y 축을 식(2)을 사용하여 보정한다.
PPT Slide
Lager Image
참조 프레임 보정 과정 Fig. 4. Correction Process performed on the reference frame
< 그림 5 >와 같이 정육면체(Cube)의 경계면에서 왜곡이 보정된 참조프레임을 구성하면 < 그림 5 >의 좌측처럼 보정된 참조프레임으로부터 < 그림 5 >의 우측의 현재 프레임을 예측할 경우 보정을 통해 객체의 모양이 비슷한 것을 확인할 수 있다. 따라서 inter예측 효율이 향상되게 된다.
PPT Slide
Lager Image
제안하는 알고리즘 적용하여 예측한 결과 Fig. 5. prediction result by applying the proposed algorithm
Ⅳ. 실험 결과 및 분석
본 논문에서는 제안한 알고리즘의 성능을 확인하기 위하여 HEVC 참조 소프트웨어인 HM 14.0에 구현하여 HM 14.0 Anchor와의 비교실험을 수행하였다. 제안한 알고리즘의 경우 화면 간 압축 기법을 사용하기 때문에 실험 조건으로 Low-delay와 Random-access 환경에서 수행하였다. 부호화 효율을 측정하기 위해 평균적인 bit-rate 감소량을 나타내는 BD-Bitrate 방법을 사용하였다. 실험영상은 JVET에서 제공하는 360도 VR 비디오의 CTC [4] (common test conditions)영상을 사용하였으며, 실험 Projection으로는 RCMP 포맷을 사용하였다.
< 표 1 >, < 표 2 >는 제안한 방법을 사용하며 부호화한 BD-rate를 나타낸 것이다. 실험결과 Low-delay환경에서는 기존대비 약 2%의 부호화 효율 향상이 있었고 Random-access환경에서는 약 1.2%의 부호화 효율 향상이 있었다. 실험결과 일반적으로 Low-delay환경에서 성능이 더 좋은데, 이는 Random-access환경의 경우 미래 참조프레임이 존재함으로써 왜곡이 일어나지 않은 참조후보가 존재할 가능성이 높기 때문이다. 또한, CTC영상 중 Harbor나 KiteFlite는 AerialCity나 DrivingInCountry에 비해 성능향상이 적은데 이는 Harbor나 KiteFlite영상은 카메라가 고정된 영상으로 정육면체(Cube)에서 면간 이동이 거의 없어 기존 방법을 사용 시에도 왜곡된 부분을 예측하는 경우가 거의 없기 때문에 제안한 방법을 사용해도 성능향상 효과가 적은 것을 확인할 수 있다.
Low-delay 실험 결과Table 1. Low-delay Experiment result
PPT Slide
Lager Image
Low-delay 실험 결과 Table 1. Low-delay Experiment result
Random-access 실험 결과Table 2. Random-access Experiment result
PPT Slide
Lager Image
Random-access 실험 결과 Table 2. Random-access Experiment result
Ⅴ. 결 론
본 논문에서는 VR기술에 많은 관심을 가지는 추세에 따라 360도 VR 비디오의 특성을 고려하여 360도 VR 비디오 부호화 효율을 높이는 방법을 제안하고 실험하였다. 기존의 비디오 부/복호화 연구는 대부분 2D 비디오에 맞추어 연구를 진행하였기 때문에 VR영상에 적용 시 압축 효율이 떨어진다. 따라서 본 논문에서는 VR 비디오의 특성에 맞게 VR비디오 압축의 필요성을 보여주었고 향후 360도 VR 비디오가 많이 사용이 될 것으로 예상됨에 따라 360도 VR 비디오의 특성에 맞는 추가 알고리즘 개발이 필요하다고 판단된다.
References
Kim Chulhyun 2016 A Comparative Study for Virtual Reality 360˚ Contents Shooting Equipments Based on Real World Journal of Broadcast Engineering 21 (5)
Oh JongGyu , Won YongJu , Lee JinSub , Kim YongHwan , Paik JongHo , Kim JoonTae 2014 Study of Development of Transmission Systems for Next-generation Terrestrial 4K UHD & HD Convergence Broadcasting Journal of Broadcast Engineering 19 (6)
He Y. , Vishwanath B. , Xiu X. , Ye Y. 2016 AHG8: InterDigital's projection format conversion tool, JVET-D0021 Chengdu
Alshina E. , Boyce J. , Abbas A. , Ye Y. 2016 JVET common test conditions and evaluation procedures for 360° video, JVET-D1030 Chengdu, CN