현재 MPEG에서 무료(royalty-free) 비디오 코덱으로 표준화 중인 IVC(Internet Video Coding)에서는 저지연(low-delay) 모드 부호화 구조에서 비참조 P 프레임 부호화 기법을 사용하여 부호화 성능 이득을 얻고 있다. IVC 시험모델 ITM(IVC Test Model) 4.0에 채택되어 있던 기존의 비참조 P 프레임 기법은 움직임 벡터(MV)의 크기를 이용하여 적응적으로 고정된 부호화 구조의 비참조 P 프레임을 적용하였으나 시퀀스에 따라서 오히려 부호화 성능이 크게 떨어지는 단점이 있었다. 본 논문에서는 이러한 기존의 적응적 비참조 P 프레임 부호화 성능을 개선하기 위하여 기존의 고정된 비참조 P 프레임의 구조를 변경하는 기법과 MV와 함께 참조 프레임 대비 비참조 프레임의 발생 비트량 비를 함께 사용하는 적응적 기법을 제시한다. 실험결과 제안된 기법은 시퀀스에 따른 큰 성능 저하 없이 ITM 7.0 대비 6.6% 정도의 비트율 감소를 얻음을 확인하였다.
Ⅰ. 서 론
최근 기존의 표준 보다 2배의 압축 성능으로 4K, 8K의 초고해상도(UHD) 비디오를 부호화할 수 있는 HEVC 표준이 만들어졌으며, 이를 바탕으로 충실도, 스케일러빌리티 및 3D를 위한 HEVC 확장 표준으로 HEVC RExt, SHVC, 3D HEVC의 표준화가 진행 중이다. 이러한 표준 비디오 코덱은 로열티가 요구되는 것으로, 인터넷 환경에서의 다양한 비디오 응용 서비스 확산과 일반 사용자들의 용이한 활용을 위하여 무료(royalty-free) 비디오 표준 코덱도 요구되고 있다. 이러한 배경에 따라 MPEG에서는 무료 비디오 부호화 표준 개발을 진행
[1]
하고 있으며 IVC(Internet Video Coding), WebVC(Web Video Coding), VCB(Video Coding for Browser)의 3 트랙으로 진행되고 있다. 기존의 H.264/AVC의 Constrained Baseline Profile을 무료 표준으로 하는 WVC와 Google의 VP8 코덱에 기반한 VCB와 달리 IVC는 특허가 만료된 MPEG 기술이나 공지된 기술을 기반으로 개발되고 있으며, 제107차 산호세 회의에서 시험모델 ITM 8.0과 WD 1.0
[2]
이 완료되었다.
IVC는 부호화 성능 개선을 위한 표준화가 진행 중이며 특히 저지연 부호화 모드에서의 보다 많은 성능 개선이 요구된다. 본 논문에서는 저지연 부호화 모드의 부호화 툴로 ITM 4.0에 채택되어 있던 비참조 P 프레임 부호화를 개선한 적응적 비참조 P 프레임 기법(adaptive non-reference P frame coding)
[3]
[4]
을 제시한다. 본 논문의 제안 기법은 비참조 P 프레임의 부호화 구조와 함께 적응적인 비참조 P 프레임 결정기법을 제시한 것으로 현재 ITM 8.0에 채택되어 있다.
본 논문의 제2 장에서는 기존의 ITM 4.0에 채택되어 있던 적응적 비참조 P 프레임 기법에 대해 설명하고, 제3장에서는 제안한 비참조 P 프레임 부호화 구조와 비참조 P 프레임결정 기법에 기술하고, 제 4 장에서는 제안한 알고리즘의 실험결과를 제시하고, 마지막으로 제 5 장에서 결론을 맺는다.
Ⅱ. 비참조 P 프레임 부호화
IVC의 시험모델인 ITM에서는 저지연 모드에서의 부호화 성능 향상을 위하여 적응적으로 비참조 P 프레임 부호화 툴을 포함하고 있다. ITM 3.0에 처음 채택된 비참조 P 프레임 부호화 기법
[5]
은 저지연 부호화 모드를 사용할 때,
그림 1
과 같이 특정 P프레임들을 비참조 프레임으로 사용하고 참조 프레임보다 큰 값의 양자화 파라미터(QP)를 사용하여 비참조 P 프레임에 적은 비트를 할당함으로써 전체적으로 부호화 효율을 개선하는 기법이다. 그러나 움직임이 많은 시퀀스에서 비참조P 프레임을 적용할 경우 오히려 성능이 저하되는 문제가 있다. 이를 개선하기 위하여 ITM 4.0에서는 비참조 P 프레임 부호화 기법을 적응적으로 사용하는 방법
[6]
이 채택되었다. 즉,
그림 1
과 같이 4개의 프레임 단위로 비참조 P 프레임 부호화 기법을 적응적으로 적용한다. 즉, 현재 프레임의 각 블록의 움직임 벡터(MV)의 크기가 특정 임계값 이하의 블록의 비율이 특정 임계값 이상인 경우에는 현재 영상이 움직임이 작다고 판단하여 바로 다음에 부호화되는 4개의 프레임에 비참조 P 프레임 기법을 적용한다.
그림 1
과 같이 비참조 P 프레임 부호화 기법을 사용하게 되면 비참조 프레임에 참조 프레임보다 더 큰 값의 QP를 사용함으로써 부호화시 프레임의 중요도에 따라 비트 할당을 차별화함으로써 부호화 이득을 얻을 수 있도록 한다.
그림 1
은 3 계층의 QP를 설정할 수 있는 비참조 P 프레임 부호화 구조이다. 즉, P6프레임은 기존의 참조 프레임(P4, P8) 보다 큰 QP값을, 비참조 프레임(P5, P7)은 P6의 QP 보다 더 큰 값을 설정할 수 있다.
기존의 비참조 P 프레임 부호화 구조 Fig. 1. Existing coding structure of non-reference P frame coding
Ⅲ. 제안 기법
ITM 4.0에 채택된 기존의 비참조 P 프레임 부호화 기법은 적응적으로 비참조 P 프레임 부호화를 적용함으로써 일부 시퀀스에서의 성능저하 문제를 다소 개선하고 평균적으로 성능 이득을 주지만 여전히 ITM의 실험조건
[7]
에 주어진 일부 테스트 시퀀스들에서는 오히려 성능이 저하되는 등 시퀀스에 따라서 안정적인 성능 향상을 주지 못하였다. 이러한 문제점은 MV 크기만을 고려하여 MV의 크기가 작은 블록의 비율이 임계값 이상인 경우 시간 상관성이 크다는 가정하에 비참조 P 프레임 부호화를 적용하기 때문으로 볼 수 있다.
이러한 문제점들을 개선하기 위하여, 본 논문에서는 기존의 기법을 개선한 비참조 P 프레임 부호화 기법을 제안한다. 제안한 비참조 P 프레임 부호화 기법은 기존의 기법과 동일하게 4프레임 단위로 적응적으로 적용하지만 개선된 비참조 P 프레임 부호화 구조(
그림 2
)와 결정 알고리즘(
그림 3
)을 사용한다.
제안하는 비참조 P 프레임 부호화 구조 Fig. 2. Proposed coding structure of non-reference P frame coding
제안하는 비참조 P 프레임 부호화 결정 기법 Fig. 3. Proposed algorithm of non-reference P frame coding
그림 1
의 기존의 3계층의 QP 설정 부호화 구조에서는 시간예측 거리가 최대 4 프레임이 되어 프레임간의 예측부호화 성능이 저하되는데, 본 논문에서는
그림 2
와 같이 2 계층으로 QP를 설정할 수 있는 구조로 시간예측 거리를 최대 2 프레임으로 제한하여 예측부호화시 시간 상관성을 유지하도록 하였다.
그림 3
의 비참조 P 프레임 결정 기법은 다음과 같다. 먼저 현재 프레임의 각 8x8 블록에 대해서 식 (1)로 주어지는 MV의 크기를 구하고 그 값이 임계값
MVth
보다 작으면
slow_block
으로 판정한다.
slow_block
이 프레임 내에서 차지하는 비율(
slow_block_portion
)을 기준으로 적응적 기법을 적용한다. 즉, MV의 크기가 작은 블록의 비율이 아주 높으면(
slow_block_portion
>
α
) 움직임이 적은 시퀀스로 가정하여 비참조 P 프레임 부호화 기법을 사용한다. 또는 그 비율이 아주 낮으면(
slow_block_portion
<
β
) 움직임이 아주 많다고 가정하고 비참조 P 프레임 부호화를 적용하지 않고 기존의 저지연 모드를 사용한다. 두 조건을 모두 만족하지 않으면 가장 최근에 적용된 비참조 P 프레임 구조의 비트 발생량을 살펴보고 비참조 P 프레임 부호화로 부호화 효율이 개선되었는지를 판단한다. 즉, 비참조 P 프레임을 적용했을 때 비참조 프레임은 참조 프레임 보다 큰 QP를 사용함으로써 참조 프레임 보다 발생 비트량이 많이 감소하고, 참조 프레임은 예측 거리가 멀어지더라도 높은 시간 상관성이 유지되어 비슷한 비트 발생량을 가진다는 관측 결과를 바탕으로 비참조 P 프레임이 적용된 4 프레임의 비트 발생량 대비 비참조 프레임의 비트 발생량의 비(
bit_ratio
<
σ
)를 이용하여 비참조 P 프레임 적용 여부를 결정한다.
본 논문에서 사용되는 임계값은 ITM의 테스트 시퀀스들을 대상으로 실험을 통하여 식 (2)와 같이 도출하였다.
slow_block_portion
에 대한 임계값
α
,
β
는
MVth
에 따라 결정된다. 즉,
MVth
가 커지면
slow_block
이 증가하므로 비참조 프레임으로 결정하기 위한
slow_block_portion
의 임계값도 커져야 한다. 실험을 통하여 식 (2)와 같이 임계값의 모델링함으로써
MVth
에 따라 임계값이 연동되어 보다 안정적인 성능을 갖도록 하였다. 즉, 실험을 통하여
MVth
를 16이하로 설정하는 경우에서는
MVth
가 변하더라도 유사한 부호화 성능을 얻을 수 있음을 확인하였다.
Bit_ratio
에 대한 임계값
σ
의 경우, 다양한 시퀀스들에 대한 실험결과를 바탕으로 4 프레임으로 구성된 비참조 P 프레임의 비트량 대비 2 프레임의 비참조 프레임의 비트량이 30%이내인 경우 비참조 P 프레임 부호화가 적용될 수 있도록 설정하였다.
이러한 결정 기법에 따라 4 프레임 마다 비참조 P 프레임 부호화가 적응적으로 결정되며, 비참조 P 프레임으로 부호화 될 경우 비참조 프레임이 보다 큰 QP를 설정하여 예측 부호화 성능을 유지함과 동시에 비트 발생량을 줄임으로써 모든 테스트 시퀀스에서 안정적으로 부호화 효율을 개선하게 된다.
Ⅳ. 실험결과
제안한 기법은 ITM 5.0에서 기존의 비참조 P 프레임 부호화 기법에 비해 0.9%의 BD-rate 비트율 감소를 얻음으로써 ITM 6.0
[8]
에 최종 채택되었다. 해당 실험에서는 비참조 P 프레임의 QP 증가값(ΔQP)를 +4로 설정하여 실험하였다. 본 논문에서는 최근 버전인 ITM 7.0에서 Delta QP에 따른 제안 기법의 부호화 성능 이득을 확인하였다.
제안하는 비참조 P 프레임 부호화 기법을 IVC의 시험모델인 ITM 7.0에 구현하였다. 테스트 시퀀스는
표 1
과 같이 IVC의 실험조건
[9]
에 주어진 테스트 시퀀스를 사용하였다.
Table 1. Test sequences and QP values
표 1
의 QP값은 IVC의 제안요청서(CfP, Call for Proposal)에서 시퀀스에 따라 명시된 것이고, ITM에서는 P 프레임의 QP는 QP(I 프레임) + 2로 설정한다. 비참조 P 프레임 부호화를 적용할 경우 비참조 P 프레임QP는 QP(참조 P 프레임) +ΔQP로 설정하며, 실험에서는 ΔQP = 4, 6, 8에 대해서 부호화 이득을 확인하였다. 비참조 P 프레임 결정을 위한 MV에 대한 임계값
MVth
=12로 설정하였다. IVC 표준화에서 사용하고 있는 실험조건을 반영한
표 2
의 실험조건을 사용하였다.
표 3
,
4
,
5
는 각각 ΔQP = 4, 6, 8에 대한 실험결과 부호화 성능이다.
ΔQP 에 따른 부호화 성능 (ΔQP = 4)
Table 3. BD-rate results according to ΔQP (ΔQP = 4)
ΔQP 에 따른 부호화 성능 (ΔQP = 6)
Table 4. BD-rate results accroding to ΔQP (ΔQP = 6)
ΔQP 에 따른 부호화 성능 (ΔQP = 8)
Table 5. BD-rate results according to ΔQP (ΔQP = 8)
실험결과
표 5
와 같이 ΔQP = 8 기존의 저지연 P 프레임 구조 대비 6.6% 의 비트 절감으로 가장 큰 성능 이득을 얻음을 알 수 있다. 또한 제안 기법은 화상회의 시퀀스들이 포함되어 있는 D 클래스에서 10%에 가까운 비트율 이득을 얻음으로써 저지연 부호화 구조가 요구되는 시퀀스에서 보다 효과적으로 사용할 수 있음을 확인하였다. 제안 기법에 대해 ΔQP값이 8 이상인 경우는 IVC의 CfP에 설정된 최대 QP 값
[10]
을 벗어나게 되므로 실험대상에서 제외하였다.
표 6
,
7
,
8
은 임계값인
MVth
에 따른 성능변화 확인을 통하여 식 (2)로 도출한 임계값이 유효함을 보여준다. 실험에서
MVth
는 8, 12, 16으로 설정하고 이에 따라서 식 (2)로 주어진 임계값인
α
,
β
값이 적용되었다. 실험에서 ΔQP 값은 부호화 성능이 가장 좋은 +8로 설정하였다.
Table 6. Experimental results (MVth =8)
Table 7. Experimental results (MVth =12)
Table 8. Experimental results (MVth =16)
실험결과
MVth
에 따라서 식 (2)의 임계값이 적용될 경우 거의 유사한 부호화 성능을 얻을 수 있음을 확인하였다. 즉, 비참조 P 프레임을 적용할 경우 기존의 저지연 P 프레임 구조 대비 6.6% 정도의 비트 절감을 얻었다.
제안된 비참조 P 프레임 부호화는 참조 프레임과 비참조 프레임의 부호화시 중요도에 따라서 QP를 다르게 설정하여 부호화 성능 이득을 얻는 것으로 실험에서 ΔQP = 8일 때 가장 큰 이득을 얻음을 확인하였다.
ΔQP = 8인 경우, 참조 프레임과 비참조 프레임간의 QP 차이로 인한 주관적 화질 차이가 문제가 되지 않음을
그림 4
의 화질 비교로 확인하였다.
그림 4
(a)와
그림 4
(b)는 비참조 P 프레임이 가장 많이 적용되는 ‘
BQsquare
’ 시퀀스의 마지막 부분에 적용된 비참조 P 프레임과 기존의 저지연 구조로 부호화한 동일한 프레임의 복호화된 영상이다.
그림 4
와 같이 모든 테스트 시퀀스에 대해 동일한 프레임을 비교하거나 실시간으로 비교 분석한 결과 비참조 P 프레임에 의한 주관적인 화질 저하는 부호화 이득에 비해 미미한 것으로 확인하였다.
비참조 P 프레임 부호화의 화질 비교 Fig. 4. Subjective quality result of non-reference P frame coding
Ⅴ. 결 론
본 논문에서는 IVC의 저지연 부호화 성능 개선을 위한 비참조 P 프레임 부호화 기법을 제안하였다. 제안 기법은 저지연 모드에서 움직임 정보와 함께 비트 발생량을 사용하여 2 레벨의 비참조 P 프레임의 부호화 구조를 적응적으로 적용함으로써 최대 6.6%의 비트율 감소를 얻음을 확인하였다. IVC는 현재 저지연 부호화 모드에서 보다 많은 성능 개선이 요구되고 있으며, 제안 기법은 현재 IVC의 WD에 채택되어 IVC의 저지연 부호화 모드의 성능 향상을 위한 부호화 툴로 활용될 것으로 예상된다.
BIO
김 동 현
- 2012년 8월 : 한국항공대학교 항공전자공학과 학사 졸업
- 2012년 9월 ~ 현재 : 한국항공대학교 항공전자공학과 석사과정
- 주관심분야 : HEVC, Internet Video Coding, 고속 부호화
김 진 수
- 1991년 2월 : 경북대학교 전자공학과 학사
- 1993년 2월 : KAIST전기 및 전자공학과 석사
- 1998년 8월 : KAIST전기 및 전자공학과 박사
- 1995년 6월 ~ 2000년 3월 : 삼성전자 선임연구원
- 2008년 7월 ~ 2009년 6월 : 텍사스 주립대학교 교환교수
- 2000년 4월 ~ 현재 : 한밭대학교 정보통신공학과 교수
- 주관심분야 : 영상부호화, 디지털방송, 분산비디오부호화
김 재 곤
- 1990년 2월 : 경북대학교 전자공학과 학사
- 1992년 2월 : KAIST전기 및 전자공학과 석사
- 2005년 2월 : KAIST전기 및 전자공학과 박사
- 1992년 3월 ~ 2007년 2월 : 한국전자통신연구원(ETRI) 선임연구원/팀장
- 2001년 9월 ~ 2002년 11월 : 뉴욕 콜롬비아대학교 연구원
- 2007년 9월 ~ 현재 : 한국항공대학교 항공전자 및 정보통신공학부 부교수
- 주관심분야 : 비디오 신호처리, 비디오 부호화, 영상통신, 디지털방송 미디어
Wang R.
,
Zhang X.
,
Ma S.
,
Chen J.
,
Reader Cliff
2014
“Working Draft 1 of Internet Video Coding,” ISO/IEC JTC1/SC29/WG11 N14243
San Jose
Kim D.-H.
,
Kim J.-G.
2013
“Non‐Reference P Improvement for Internet Video Coding,” ISO/IEC JTC1/SC29/WG11 M30200
Vienna, Austria
Kim D.-H.
,
Kim J.-G.
2014
“Non-Reference P Frame Coding for Low Delay Mode in Internet Video Coding,”
in Proc. KICS 2014 Winter Conference
Jan.
986 -
987
Wang R.
,
Zhang X.
,
Ma S.
,
Chen J.
,
Reader Cliff
2012
“Internet Video Coding Test model 3.0,” ISO/IEC JTC1/SC29/WG11 N13162
Shanghai
Zhang X.
,
Zhao L.
,
Wang R.
,
LV H.
,
Ma S.
,
Huang T.
,
Gao W.
2013
“Adaptive Non‐Reference P Optimization for Internet Video Coding,” ISO/IEC JTC1/SC29/WG11 M27964
Geneva
Wang R.
,
Choi K.
,
Kim J.
2013
“Description of Exploration Experiments for Internet Video Coding,” ISO/IEC JTC1/SC29/WG11 N13779
Vienna
Wang R.
,
Zhang X.
,
Ma S.
,
Chen J.
,
Reader Cliff
2013
“Internet Video Coding Test model 6.0,” ISO/IEC JTC1/SC29/WG11 N13778
Vienna
2013
IVC Core Experiment CE1: Overall Codec Testing,” ISO/IEC JTC1/SC29/WG11 N13354
Geneva, Switzerland
Wang R.
,
Zhang X.
,
Yu Q.
,
Gao M.
,
Bivolarsky L.
2012
“Description of Core Experiments in Internet Video Coding,” ISO/IEC JTC1/SC29/WG11 N13164
Shanghai, China