Advanced
An analysis of Scene Change Detection using HEVC coding additional information
An analysis of Scene Change Detection using HEVC coding additional information
Journal of Broadcast Engineering. 2015. Dec, 20(6): 871-879
Copyright © 2015, The Korean Society of Broadcast Engineers
  • Received : September 21, 2015
  • Accepted : November 09, 2015
  • Published : December 30, 2015
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
About the Authors
유 미 엄
상 일 박
sangilparkmail@gmail.com
창 우 정

Abstract
대용량 컨텐츠 수요와 공급의 증가에 따라 UHD 비디오의 분석, 색인, 편집 등을 위한 장면전환을 검출하는 방법이 요구되고 있다. 이전까지 많은 연구자들이 다양한 장면전환 검출 방법을 연구해왔지만 카메라의 다양한 움직임과 장면의 변화를 정확하게 검출하기는 어려웠다. 또한, 4K (3820x2160) 해상도 이상의 UHD 비디오들은 데이터 량을 더욱더 증가시키기 때문에 이전의 장면전환 검출 방법은 UHD 비디오 컨텐츠에 적용하기에는 너무 많은 시간이 걸리는 문제점이 발생한다. 따라서, 압축률이 높은 차세대 고효율 코덱 HEVC를 이용하여 장면전환을 검출하는 방법이 요구되고 있다. 본 논문에서는 차세대 고효율 코덱 HEVC의 부호화 부가정보를 이용한 4가지 장면전환 검출 방법을 제안하며, 대용량 비디오의 장면전환 검출을 위한 픽셀 기반의 새로운 장면전환 검출 시스템 구조를 제안한다. 연산량을 줄이기 위해 프레임 특징에 따른 방법을 각각 제시하며, 실험 결과를 통해 HEVC로 부호화 된 UHD 컨텐츠들의 장면전환 검출 가능성을 확인한다.
Keywords
Ⅰ. 서 론
2013년 11 월 ISO/IEC는 차세대 코덱 HEVC 표준을 발표하였다 [1] . 또한 LG는 7680x4320 해상도를 가지는 8k UHD TV를 발표하였고 삼성은 갤럭시 노트 4는 HEVC 디코더를 탑재하여 출시하였다. HEVC는 H.264/AVC에 비해 3배 이상 복잡하지만 2배 이상의 압축률을 제공 한다 [2] . UHD 비디오 컨텐츠가 하루가 다르게 늘어가는 요즘, 대용량 데이터의 저장, 관리, 편집 등을 편리하게 하기 위해서는 압축률이 높은 HEVC가 필수적으로 사용된다. 또한 비디오 데이터의 관리에는 색인, 검색, 편집을 가능하게 하는 장면 전환 정보가 필수적이라고 말할 수 있다. Davinci Resolve와 같은 편집 소프트웨어는 H.264/AVC를 지원하고 장면 전환을 검출하여 편집에 도움을 주는 기능이 내장되어 있다. 하지만 이 기능은 전체 복호화를 해야 하므로 대용량 비디오 편집 시에는 검출 기능의 실행 시간이 매우 길어진다. 따라서 실제로 대용량 비디오 편집 시에는 사용하기 어려운 점이 있다. 게다가 HEVC는 H.264/AVC에 비해 복호화가 3배 이상 복잡하므로 실시간으로 전체 복호화를 통하여 장면전환을 검출하는 것은 불가능하다고 본다. 따라서, UHD 컨텐츠들을 전체 복호화하지 않고 장면전환을 검출하는 방법이 필요하다고 볼 수 있다. 본 논문에서는 HEVC 복호화 시에 생성되는 부가정보를 이용하여 장면전환을 검출하는 방법을 제안한다. 구체적으로 프레임의 특징에 따라 I-프레임과 P/B-프레임으로 나누어 장면전환을 검출하는 방법을 제시하고, HEVC 비트스트림 상에서 장면전환 검출의 가능성을 살펴본다. 또한 UHD 컨텐츠들의 장면전환 검출에 있어서 생길 수 있는 연산복잡도 문제를 해결하기 위한 픽셀 기반의 장면전환 검출 시스템을 제안한다. 본 논문의 구성은 다음과 같다. 2절에서는 HEVC 코덱을 장면 전환 검출과 연관하여 살펴본 후, 3절에서는 I-프레임 부가정보를 장면전환 검출에 적용하는 방법을 설명하고, 4절에서는 P/B-프레임 부가정보를 장면전환 검출에 적용하는 방법을 설명한다. 5절에서는 제안한 방법의 실험결과를 확인한다. 6절에서는 대용량 컨텐츠의 장면전환 검출 시스템에 대하여 제안하고 가능성을 확인하며 7절에서 본 논문에 대한 결론을 맺는다.
Ⅱ. HEVC 부호화 부가정보와 장면전환 검출
- 1. HEVC
HEVC 표준 기술에서는 쿼드 트리 기반의 부호화 유닛 (Coding Unit), Wavefront Parallel Processing (WPP), 다양한 인트라 예측 모드, 움직임 정보 병합, Sample Adaptive Offset (SAO), Adaptive Loop Filtering (ALF) 등 새로운 기술들이 제안되었다 [3] . 표 1 과 같이 부호화 단위가 H.264/AVC에 비해 가변적이고 범위가 넓어져 부호화 효율이 높아졌다. 병렬 부호화/복호화를 위해서는 tile 기술과 WPP를 추가하여 복잡성은 낮지만 오류 복원력은 더 나아지게 되었다. 또한, 35가지의 화면 내 예측 모드가 있으며 화면 간 예측 모드에서는 Advanced Motion Vector Prediction (AMVP), Motion merge 모드를 추가하여 비트 수가 줄어 들었고 복잡도가 낮아졌다. 엔트로피 코딩은 CABAC과 CAVLC의 장점을 극대화 할 수 있게 두 가지 모드로 나뉘었으며, 루프필터링 과정에서 SAO, ALF기술이 추가되어 왜곡보정성능이 높아지게 되었다 [3] .
HEVC와 H.264/AVC의 비교Table 1. The comparison of HEVC and H.264/AVC
PPT Slide
Lager Image
HEVC와 H.264/AVC의 비교 Table 1. The comparison of HEVC and H.264/AVC
- 2. HEVC 부호화 부가정보와 장면전환 검출
HEVC에서 무엇보다 가장 큰 특징은 가변크기 부호화 유닛을 사용하여 압축효율을 좋게 한다는 점이다. 부드러운 영역은 사이즈가 큰 블록, 디테일한 영역에는 사이즈가 작은 블록을 사용함으로써 압축 효율을 높인다. 이러한 가변크기 부호화 유닛을 사용하여 그림 1 과 같이 프레임 내의 구조적 특징을 자세히 나타내어 줄 수 있다. 프레임 내의 구조적 특징은 장면전환 검출에 있어 중요한 요소가 될 수 있다. 또한 장면전환 상황이 일어나면 대부분의 CU (Coding Unit)는 인트라 모드로 부호화되므로, CU의 크기, 위치 뿐 아니라 예측모드의 비율도 장면전환 검출에 중요한 요소가 될 수 있다.
PPT Slide
Lager Image
HEVC의 코딩 단위 구조 Fig. 1. Coding unit structure of HEVC
또 하나의 HEVC 특징 중 하나는 그림 2 에서 보이는 바와 같이 인트라 예측 모드의 개수가 35가지로 늘어났다는 점이다. 장면전환 상황이 일어나면 프레임 내의 특징이 달라지므로PU(Prediction Unit)의 인트라 예측 모드 분포가 달라지는 것을 예상할 수 있다. 또한, 벡터 예측도 AMVP (Adaptive Motion Vector Prediction), 움직임 병합 모드로 발전했으므로 이러한 특징들을 이용한다면, 이전 장면전환 검출 방법을 응용하는 것뿐만 아니라, 새로운 HEVC 부호화 기반의 장면전환 검출 기법을 개발하는 것도 가능해 보인다.
PPT Slide
Lager Image
HEVC의 인트라 프리딕션 모드 Fig. 2. Intra prediction mode of HEVC
그러나, 대용량 비디오 컨텐츠의 경우 압축 효율이 좋은 HEVC를 사용해도 연산 복잡도가 매우 높기 때문에 모든 프레임을 복호화하여 장면전환 검출을 시행하기에는 너무 많은 연산량을 가지고 있다. 따라서, 최소한의 복호화에 따른 부가정보를 이용하여 장면전환 검출을 하기 위해서는 프레임 특징에 따른 장면전환 검출 방법이 필요하다.
일반적으로 프레임은 I/P/B-프레임으로 나누어질 수 있는데 I-프레임은 다른 프레임들과는 독립적으로 부호화 된다. I-프레임은 시간적으로 앞, 뒤의 프레임을 참조하지 않으므로 움직임 예측을 적용하지 않으며 화면 내 정보만을 사용해서 부호화하므로 프레임 내의 픽셀간의 상관관계가 중요한 정보로 이용된다. P-프레임은 이전의 I-프레임과 P-프레임을 참조하여 부호화 된다. I프레임과 다르게 참조 프레임이 있으므로 정지된 부분을 제외한 움직임이 있는 부분만 부호화되며, 현재 프레임과 과거 프레임간의 상관관계가 중요한 정보로 이용된다. 반면에 B-프레임은 이전의 I/P-프레임뿐만 아니라 이후의 I/P-프레임도 참조하여 부호화된다. B-프레임의 경우 참조하는 프레임이 많아, 중복요소를 가장 많이 제거할 수 있으므로 압축률이 가장 높다 [4] . 따라서, P/B-프레임은 화면 간 부호화, 화면 내 부호화, 스킵 모드 총 세 가지에 대한 부호화 과정을 거치고, I-프레임은 화면 내 예측 모드에 대한 부호화 과정만 거치게 된다. 또한, 복호화 시 복잡도는 인코딩의 복잡도와 상관관계가 높은데, I-프레임의 경우 복호화 복잡도가 P/B-프레임보다 상대적으로 낮으므로 I-프레임은 전체 복호화, P/B-프레임은 최소한으로 복호화하여 장면전환 정보를 찾는다면 빠른 검출이 가능할 것으로 보인다.
Ⅲ. HEVC 부호화 부가정보를 이용한 I-프레임 장면전환 검출
- 1. Intra Prediction Mode and CU Size
HEVC에서는 가변적으로 크기 조절이 가능한 부호화 유닛 CU를 제공하므로 다양한 CU의 구성 정보는 장면전환 검출의 정보로 이용될 수 있다. 장면전환이 일어나지 않는다면 CU의 구성정보는 완전히 같을 수는 없지만 그 유사도는 높을 것이다. 또한 35가지 인트라 예측 모드도 장면전환되지 않은 전, 후 프레임에서는 유사할 것으로 예상된다. 그러므로, CU크기에 따른 인트라 예측 모드의 개수의 차를 이용한다면 장면전환 검출이 가능할 것으로 보인다 [5] .
PPT Slide
Lager Image
식 (1)에서 현재 I-프레임을 n번째 프레임이라고 하고 바로 전 I-프레임을 n-1번째 프레임이라고 한다면, C는 5가지 CU의 크기, M은 35가지의 인트라 예측 모드 정보를 의미한다. 제안하는 방법에서 CU의 크기는 4x4, 8x8, 16x16, 32x32, 64x64로 총 5가지를 이용하였다. Cnt(CUn)는 n번째 프레임 안의 총 CU 개수, Cnt(CUn-1)는 n-1번째 프레임안의 총 CU 개수를 의미한다. CU크기에 따른 인트라 예측 모드 개수의 SSE(Sum of Squared Error)를 인접한 두 프레임 CU 개수의 총 합으로 나눈 값이 임계값 T보다 크면 장면전환이라고 판단한다. 표 1 에서는 이 실험의 결과 값을 보여주고 있다.
- 2. Intensity and Sums of Squared Error
장면전환이 되지 않은 프레임 간에서는 프레임이 가지는 특징이 비슷하기 때문에 인텐시티 값도 비슷한 양상을 가질 가능성이 높다. 장면전환이 일어날 경우 프레임 간의 픽셀 단위 인텐시티의 차이 값이 확연히 드러날 것이다. 제안하는 방법은 대용량 비디오의 데이터를 1/16로 공간적 서브 샘플링을 하여 장면전환 검출이 가지는 복잡도를 낮췄다.
PPT Slide
Lager Image
PPT Slide
Lager Image
식 (2)에서 현재 I-프레임을 n번째 프레임이라고 하고 바로 전 I-프레임을 n-1번째 프레임이라고 한다면, D는 인접한 두 프레임의 동일한 위치에 있는 픽셀의 인텐시티 차이 값이다. 연산 복잡도를 낮추기 위해 차이 값 D가 35보다 크면 1, 작으면 0으로 이진화를 하기로 한다. 이진화 된 인접한 두 프레임간의 픽셀 단위 인텐시티를 모두 더한 값이 임계값 T보다 크다면 장면전환으로 판단한다. 표 2 그림 3 에서는 이 실험의 결과 값을 보여주고 있다.
인트라 프리딕션 모드와 CU 사이즈를 이용한 실험 결과Table 2. The results of Intra prediction mode and CU size
PPT Slide
Lager Image
인트라 프리딕션 모드와 CU 사이즈를 이용한 실험 결과 Table 2. The results of Intra prediction mode and CU size
PPT Slide
Lager Image
인텐시티와 SSE를 이용한 실험 결과 Fig. 3. The results of Intensity and Sums of Squared Error
Ⅳ. HEVC 부호화 부가정보를 이용한 P/B-프레임 장면전환 검출
- 1. Intra, Inter, Skip mode and Threshold
HEVC에서 단위 블록들은 인트라, 인터, 스킵모드로 나뉘어 복호화 될 수 있다. 인트라 모드는 화면 내 중복성을 제거하고 인터 모드는 화면 간 중복성 제거, 스킵모드는 이전 프레임과 비슷하므로 보조정보를 복호화 하지 않는다. 인트라, 인터, 스킵모드의 특징을 이용하면 장면전환이 일어나는 프레임의 경우 인트라 모드 블록이 눈에 띄게 많고, 인터, 스킵 모드 블록이 현저하게 낮다는 것을 예상할 수 있다 [6] .
PPT Slide
Lager Image
식 (4)에서 Sn은 n번째 프레임의 인트라, 인터, 스킵모드의 비율이다. 1은 영이나 무한대 값이 나오지 않기 위한 상수이다. Sn이 임계값 T보다 크면 장면전환으로 판단한다. 표 3 , 그림 4 에서는 이 실험의 결과값을 보여주고 있다.
인텐시티와 SSE를 이용한 실험 결과Table 3. The results of Intensity and Sums of Squared Error
PPT Slide
Lager Image
인텐시티와 SSE를 이용한 실험 결과 Table 3. The results of Intensity and Sums of Squared Error
PPT Slide
Lager Image
인트라, 인터, 스킵모드를 이용한 실험 결과 Fig. 4. The results of Intra, Inter and Skip mode
- 2. Intra, Inter, Skip mode and Window size
장면전환을 판단하기 위해 임계값을 사용한다면 임계값을 정하는 방법이 추가로 필요하다. 임계값을 정하는 방법은 반복 실험을 통해서 값을 얻는 실험적 방법, 동영상의 전체 프레임을 분석해서 값을 얻는 분석적 방법, 동영상의 정보를 가지고 가변적으로 값을 얻는 적응적 방법 세가지가 있다. 우리는 자동적 알고리즘에 적용이 가능한 윈도우를 통해 임계값을 얻고자 한다. Feng Jie 등의 논문에 따르면 장면전환이 일어난 프레임의 경우, 그 프레임의 인트라 모드 블록개수가 앞, 뒤 프레임의 인트라 모드 블록 개수를 모두 더한 것보다도 눈에 띄게 많다 [6] .
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
식 (5)에서 Sn은 n번째 프레임의 인트라, 인터, 스킵 모드의 비율이고, W는 윈도우 사이즈를 의미한다. Sw는 n번째 프레임을 제외하고 윈도우 사이즈 만큼 앞, 뒤 프레임의 Sn 값의 합이다. Sn이 Sw보다 크면 장면전환으로 판정한다. 표4 는 윈도우 사이즈에 따른 장면전환 검출 결과값을 보여준다.
인트라, 인터, 스킵모드와 실험적 임계값을 이용한 실험 결과Table 4 The results of Intra, Inter, Skip mode and Threshold
PPT Slide
Lager Image
인트라, 인터, 스킵모드와 실험적 임계값을 이용한 실험 결과 Table 4 The results of Intra, Inter, Skip mode and Threshold
인트라, 인터, 스킵 모드와 윈도우 사이즈를 이용한 실험 결과Table 5. the results of Intra, Inter, Skip mode and window size
PPT Slide
Lager Image
인트라, 인터, 스킵 모드와 윈도우 사이즈를 이용한 실험 결과 Table 5. the results of Intra, Inter, Skip mode and window size
Ⅴ. 실험 환경 및 결과
실험에 이용된 PC는 Intel I7 4770 에 32GB ram을 장착하였고, 이미지 처리를 위해 HM16.2(HEVC test Model)와 Opencv 2.4.9를 연동하였다. 또한, 결과와 비교할 정확한 장면전환 정보를 찾기 위해 Elecard사의 HEVC analyzer를 이용하였다. 실험을 위한 샘플 비디오는 https://media.xiph. org에서 제공되는 bbb이며, 1920x1080p, YUV 4:2:0, 8bits, GOP(Group of picture)는 48이며 사용된 영상들은 IBBBBBIBBBBB의 구조를 갖는다.
제안하는 방법들의 성능평가는 장면전환 검출 의 척도로 널리 알려진 precision, recall, F1을 사용하였다.
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
식(8)-(10)은 정확도를 나타내기 위한 척도로 NC는 정확하게 검출한 장면전환 개수, NF는 잘못 검출한 장면 전환 개수, NM은 검출하지 못한 장면 전환 개수를 의미한다. precision은 임의의 알고리즘에서 장면전환 검출을 수행한 결과 중 정확한 검출 비율을 의미하며, recall은 실험 영상의 실제 장면 전환 결과 중에서 해당 알고리즘이 정확하게 검출한 비율을 의미한다. F1은 정확도를 판단하는 종합적인 척도로써 precision과 recall의 조화평균으로 정의된다. 이를 이용하면 precision이나 recall중 하나의 척도만 높고 다른 척도는 낮은 경우의 알고리즘들을 객관적으로 비교할 수 있다 [7] .
결과 비교Table 5. results of experimentals
PPT Slide
Lager Image
결과 비교 Table 5. results of experimentals
방법 A 는 CU 크기에 따른 인트라 예측모드가 사용되었으며 방법 B 는 프레임의 인텐시티가 이용되었다. 방법 C 와 D 는 인트라, 인터, 스킵 모드 블록들의 비율을 이용하였으며 방법 C 에서는 실험적 임계값을 사용하였고 방법 D에서는 적응적 임계값인 윈도우를 이용하였다. 4 가지 방법들은 평균적으로 91%의 검출률을 보여주며, HEVC에서 전체 복호화를 하지 않고 장면전환을 검출할 수 있다는 것도 함께 보여준다. 방법 A의 경우 장면전환이 아닌 프레임을 장면전환이라고 판단한 경우가 많았으므로 precision값이 떨어지는 것을 볼 수 있으나 장면전환 프레임을 놓치는 경우는 드물었으므로 recall값이 높은 결과를 확인 할 수 있었다. 따라서, 장면전환이 아닌 프레임을 검출하는 경우를 줄이기 위해서는 각각 CU의 위치정보를 추가적으로 사용해야 한다는 결론을 얻었다. 방법 B의 경우 가장 기본적인 장면전환 검출 방법인 만큼 좋은 결과 값을 보여주고 있다. 그러나 전체적인 인텐시티가 비슷한 장면전환 부분은 검출하지 못했다. 예를 들어 장면은 전환되었지만 전체적인 인텐시티를 따져보았을 때 비슷하다면 검출하기에 어려움이 따랐다. 또한 영상 전체 프레임이 대체적으로 인텐시티가 특히 낮거나 높은 경우에는 검출에 어려움이 따를 것으로 보이며 카메라나 물체의 움직임에 매우 민감하다는 결과를 얻었다. 따라서 프레임의 컬러 값이나 픽셀의 위치정보를 추가하여 정확도를 높여야 한다. 방법 C는 가장 높은 검출률을 보였다. 방법 C를 통해서 영상을 부호화/복호화 할 때 각 프레임의 각 픽셀 또는 각각의 블록 특징을 이용하면 장면전환 검출이 가능한 것을 확인하였다. 그러나, 검출 방법을 실제로 이용하기 위해 알고리즘을 자동화 하려면, 임계값을 자동적으로 결정하는 알고리즘이 추가적으로 필요하다. 방법 D는 자동화 알고리즘에 이용될 수 있게 윈도잉 기술을 사용하여 임계값을 결정했지만 실험적 임계값을 사용한 방법 C만큼 검출률이 좋지는 않았다. 실험 분석 결과, 점진적 장면전환을 찾지 못해서 검출률이 낮아진 것을 확인 할 수 있었고, 점진적인 장면전환을 찾기 위해서는 누적 분포를 이용하는 알고리즘이 추가로 사용 되어야 한다. 4가지 실험은 공통적으로 점진적인 장면전환을 검출하기 어려웠다. 따라서 좀 더 정확하게 장면전환을 검출하려면, 각 블록의 위치정보와 누적분포를 추가적으로 이용해야 한다.
Ⅵ. 픽셀 기반 장면전환 검출 시스템 제안
- 1. 시스템 제안
HEVC는 H.264/AVC의 두 배 압축률, 원본보다 최대 100분의 1로 압축률을 제공한다. 그러나 HEVC는 H.264/AVC보다 3배 이상 복잡하다는 단점이 있다. 따라서 HEVC로 압축된 컨텐츠들을 전체 복호화하여 장면전환을 검출하는 것은 상당히 많은 연산량이 요구되기 때문에 모든 프레임을 복호화하는 것이 아닌 필요한 부분만 복호화하여 장면전환 검출하는 방법이 필요하다. 이번 절에서는 픽셀 기반의 장면전환 검출 방법을 사용하며 부분 복호화를 통해 빠르고 정확하게 장면전환을 검출하는 시스템을 제안한다. 제안하는 시스템은 압축영역에서의 장면전환 검출과 비압축영역에서의 장면전환 검출로 나눌 수 있으며, 비압축영역에서의 장면전환 검출에서는 연산량을 줄이기 위해 공간적 다운 스케일링을 이용한다.
제안하는 시스템 구조는 그림 5 와 같다. 첫 번째 장면전환 검출은 압축된 영역에서 P/B-프레임을 이용하여 장면전환을 검출한다. 이 부분에서 장면전환 검출을 위해 전체 프레임을 복호화 할 필요가 없어진다. 두 번째 장면전환 검출을 위해 I-프레임만 전체 복호화 한다. 또한, 재구성된 I-프레임은 알고리즘의 복잡도를 낮추기 위해 공간적으로 다운스케일링 된다. 그림 6 의 왼쪽 이미지는 HEVC로 인코딩된 4K영상의 한 프레임이고, 오른쪽은 32분의 1로 다운스케일링 된 이미지이다. 3840x2160의 해상도를 가지는 4K UHD 비디오의 경우 인접한 픽셀들은 매우 유사한 정보를 가진다. 따라서 그림 6 에서 보여주는 것과 같이, 영상을 매우 작게 다운스케일링 하여도 프레임전체가 가지는 이미지 구조는 비슷한 것을 알 수 있다. 4K 비디오의 한 프레임은 보통 130Kbits의 데이터 량을 가지고, 32분의 1로 다운스케일링 한 프레임의 경우 133Mbits의 데이터 량을 가지므로 이는 장면전환 검출 알고리즘의 복잡도를 1024분의 1로 낮출 수 있다. 다음으로, 공간적으로 다운스케일링 된 프레임을 프레임 버퍼에 저장하여 인접한 I-프레임 끼리 비교하여 장면전환을 검출한다. 결과적으로 압축영역 P/B-프레임의 장면전환 검출 결과와 비압축영역 I-프레임의 장면전환 검출 결과를 비교하여 최종적으로 장면전환이 일어나는 프레임을 결정한다.
PPT Slide
Lager Image
픽셀 기반 장면전환 검출 시스템 Fig. 5. pixel based scene change detection system
PPT Slide
Lager Image
1/32로 공간적 다운스켈링 된 4k UHD 이미지 Fig. 6. 1/32 downscald image of 4k UHD image
- 2. 실험 및 결과
실험을 위해 HM16.6(HEVC test Model)을 이용하였고, 결과와 비교할 정확한 장면전환 정보를 찾기 위해 Elecard사의 HEVC analyzer를 이용하였다. 실험을 위한 샘플 비디오들은 libde265.org에서 제공되며, YCbCr 4:2:0, 8bits, GOP(Group of picture)는 48의 정보를 가진다.
표 5 는 I-프레임의 복호화 시간과 다운스케일링 시간의 비교 결과를 보여준다. 실험을 통해 보는 바와 같이, 두 번째 장면전환 검출에 있어서 대용량 비디오 컨텐츠들을 다운스케일링 할 때는 영상 복호화 시간의 평균 3%의 시간이 소요된다. 픽셀 기반의 장면전환 검출 방법을 이용할 때, 제시한 장면전환 검출 시스템을 사용한다면 두 번의 장면 전환 검출을 통해서 정확도를 높이고, 다운스케일링을 통해서 복잡도를 낮출 수 있다.
I-프레임의 복호화 시간과 다운스케일링 시간의 비교 결과Table 5. Results of decode and downscaling time by frame
PPT Slide
Lager Image
I-프레임의 복호화 시간과 다운스케일링 시간의 비교 결과 Table 5. Results of decode and downscaling time by frame
Ⅶ. 결 론
이 논문은 HEVC 복호화시 부가적으로 생성되는 정보들을 이용하여 장면전환을 검출하는 방법에 대해 제안하였다. 제안하는 방법에서는 프레임의 특징에 따른 부가정보를 이용하였다. 방법 A는 CU 크기에 따른 인트라 예측모드가 사용되었으며 방법 B는 프레임의 인텐시티가 이용되었다. 방법 C와 D는 인트라, 인터, 스킵 모드 블록들의 비율을 이용하였으며 방법 C에서는 실험적 임계값을 사용하였고 방법 D에서는 적응적 임계값인 윈도우를 이용하였다. 4 가지 방법들은 평균적으로 91%의 검출률을 보여주며, HEVC에서 전체 복호화를 하지 않고 장면전환을 검출할 수 있는 가능성도 함께 보여준다. 결과적으로, 누적분포와 CU의 위치정보를 추가적으로 적용하는 알고리즘을 이용하면 HEVC로 복호화 된 대용량 컨텐츠의 장면전환 정보를 빠르고 정확하게 검출할 수 있다는 것을 확인하였다. 또한 픽셀 기반 장면전환 검출 시스템으로 두 번의 장면전환 검출을 이용한 시스템을 제안하였다. 부분적인 복호화와 I-프레임의 다운스케일링을 이용하여 복잡도가 높은 HEVC의 단점을 보완하였다. 실험을 통하여 다운스케일링 시간이 복호화 시간의 평균 3%를 차지한다는 것을 확인하였고, 4K 이상의 대용량 컨텐츠들의 장면전환을 검출 할 때 복잡도를 낮출 수 있는 시스템인 것을 확인하였다. 결과적으로, 차세대 코덱 HEVC와 복잡도를 낮추는 시스템을 이용한다면 대용량 컨텐츠들의 장면전환 프레임을 보다 빠르고 정확하게 검출 가능하다.
BIO
엄 유 미
- 2014년 2월 : 서울과학기술대학교 전자IT미디어공학과 졸업(공학사)
- 2014년 3월 ~ 현재 : 서울과학기술대학교 미디어IT공학과 석사과정
- ORCID : 0000-0002-2677-0850
- 주관심분야 : 차세대 방송, 실감방송, 영상처리, 영상부호화
박 상 일
- 1977년 2월 : 연세대학교 전자공학과 졸업(공학사)
- 1983년 8월 : Kansas State University 전기전자공학과 졸업(석사)
- 1987년 2월 : University of New Mexico 전기전자공학과 졸업(박사)
- 1987년 1월 ~ 1988년 5월 : University of Pittsburgh 전자공학과 조교수
- 1988년 5월 ~ 1995년 5월 : MotorolaDSP SemiconductorDesign Manager
- 1995년 5월 ~ 2006년 11월 : 삼성전자 임원(반도체, 비서실, 본사기획실등)
- 2006년 11월 ~ 2012년 10월 : 스카이레이크인큐베스트투자팀 부사장
- 2009년 8월 ~ 2012년 10월 : 방송통신위원회 차세대 방송 PM
- 2012년 10월 ~ 현재 : 서울과학기술대학교 전자IT미디어공학과 교수
- ORCID : 0000-0002-2026-6848
- 주관심분야 : 차세대 방송, 실감방송, 클라우드 플랫폼, 의료 전기전자
정 창 우
- 2011년 3월 ~ 현재 : 서울과학기술대학교 미디어IT공학과 학사과정
- ORCID : 0000-0003-3324-9606
- 주관심분야 : 시스템 프로그래밍, 영상처리
References
Bross B. (2013) "High efficiency video coding (HEVC) text specification draft 10 (Doc. JCTVC-L1003)."
Grois D. , Marpe D. , Mulayoff A. , Itzhaky B. , Hadar O. (2013) Performance comparison of H. 265/MPEG-HEVC, VP9, and H. 264/MPEG-AVC encoders. In PCS (pp. 394-397).
Sullivan Gary J. (2012) "Overview of the high efficiency video coding (HEVC) standard." Circuits and Systems for Video Technology, IEEE Transactions on 22 (12) 1649 - 1668    DOI : 10.1109/TCSVT.2012.2221191
Ewerth R. , Freisleben B. Frame difference normalization: an approach to reduce error rates of cut detection algorithms for MPEG videos IEEE In Image Processing, 2003. ICIP 2003. Proceedings. 2003 International Conference on (2003, September) (Vol. 2, pp. II-1009)
Bossen F. , Bross B. , Suhring K. , Flynn D. (2012) HEVC complexity and implementation analysis Circuits and Systems for Video Technology, IEEE Transactions on 22 (12) 1685 - 1696    DOI : 10.1109/TCSVT.2012.2221255
Jie F. , Aiai H. , Yaowu C. A novel scene change detection algorithm for H. 264/AVC bitstreams IEEE In Computational Intelligence and Industrial Application, 2008. PACIIA'08. Pacific-Asia Workshop on (2008, December) (Vol. 1, pp. 712-716)
Giuseppe B. , Angelo C. , Vincenzo M. , Antonio P. 2005 "Foveated shot detection for video segmentation." Circuits and Systems for Video Technology, IEEE Transactions 365 - 377