Advanced
Rotated Video Detection using Multi Region Binary Patterns
Rotated Video Detection using Multi Region Binary Patterns
Journal of Korea Multimedia Society. 2014. Aug, 17(9): 1070-1075
Copyright © 2014, Korea Multimedia Society
  • Received : July 14, 2014
  • Accepted : August 22, 2014
  • Published : August 28, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
세민 김
Dept. of Information and Communications Eng., KAIST
승호 이
Dept. of Information and Communications Eng., KAIST
용만 노
Dept. of Electrical Eng., KAIST

Abstract
Due to a number of illegal copied videos, many video content markets have been threatened. Since this copied videos have intercepted the profits of the content holders, content developers lose the will to generate new contents. Therefore, video copy detection approaches have been developed to protect the copyrights of video contents. However, many illegal uploader who generate copied videos used video transformations to avoid video copy detection systems. Among of the video transformations, rotation and flipping did not distorted the quality of video contents. Thus, these two video transformations were adopt to generate copied video. In order to detect rotated or flipping copy videos, rotation and flipping robust region binary pattern (RFR) recently was proposed. But, this RFR has a weakness according to rotated angles. Therefore, in order to overcome this problem, multi region binary patterns are proposed in this paper. The proposed method has the similar performance with the original RFR. But, it showed much higher efficiency for memory spaces.
Keywords
1. 서 론
급격한 유무선 인터넷의 발달과 모바일 단말기 등의 보급으로 인하여 언제 어디서든 쉽게 비디오 시청이 가능해졌다. 또한 비디오 컨텐츠 생산이 용이해져 누구나 쉽게 제작할 수 있게 되었다. 이렇게 생산된 컨텐츠들은 유튜브(YouTube)나 네이버캐스트 등과 같은 비디오 공유 사이트를 통해서 쉽게 배포가 가능하다. 유튜브의 통계 [1] 에 따르면 매달 60억 시간이상의 비디오들이 시청되고 있는데 이는 세상 모든 사람들이 거의 1시간 분량의 비디오를 매달 시청하는 것과 똑같다고 한다. 또한 꾸준히 업로드 되는 영상의 양도 증가 하고 있어 더욱 많은 사람들이 인터넷 환경을 통해 비디오를 감상하고 있다.
그러나 비디오 컨텐츠들은 쉽게 편집이 가능하고 재배포가 가능하다. 이를 악용하여 현재 수많은 불법복제 컨텐츠들이 인터넷 공간에서 쉽게 공유되고 있다. 이는 사람들에게 인기 있는 컨텐츠를 사적인 홍보나 또는 부당 이득을 얻기 위해서 불법적인 업로더들이 많이 증가하고 있으며 이로인해 비디오 컨텐츠 시장에 피해가 발생하고 있다 [2] .
이러한 문제점을 해결하기 위하여 최근 복제 비디오 검출 연구가 활발히 이루어지고 있다 [3 - 8] . 그러나 복제 비디오는 불법 업로드들의 재배포 환경이나 목적에 따라 다양한 변형을 취하게 된다 [9 - 10] . 이중 최종 시청자에게 영상의 왜곡 없이 전달 할 수 있는 방법은 회전과 반전을 활용한 비디오 변형이다. 이는 최종 시청자가 변형된 영상을 역으로 변형함으로써 원본과 동일한 비디오를 시청할 수 있다. 이러한 회전과 반전에 변형된 복제 비디오를 검출하기 위하여 rotation and flipping robust region binary pattern(RFR)이 최근 제안되었다 [11] . RFR 은 비디오의 키프레임(keyframe)에서 regional binary pattern (RBP) 템플릿(template)을 활용하여 이진 패턴을 추출한다. RBP 템플릿은 Fig. 1 의 왼쪽 그림처럼 R1~R3과 같이 여러 개의 링(ring)으로 구성되고 각 링은 다시 여러 개의 하위영역(sub-region)으로 나눠져 있다. 이를 키프레임에 적용하면 각 하위영역에서의 Fig. 1 처럼 평균 밝기(mean luminance) 값을 추출하고 이를 다른 하위영역과 비교함으로써 이진 패턴을 추출하였다. 이렇게 추출된 이진 패턴을 RBP라 하고 다시 한 번 회전과 반전에 강인함을 가지기 위하여 RFR로 변형된다. 그러나 RFR방법은 하나의 링에 속한 하위영역 개수에 따라 회전 각도의 강인함 (robustness)과 약함(weakness)이 결정되었다. 예로 하위영역이 6개로 나눠지면 60°, 120°⋯ 등에 강인하고 30°, 90°⋯ 등에 약한 성능을 보여주었다. 예를 들어 Fig. 2 처럼 키프레임이 90°회전이 되었다면 윗쪽 템플릿으로 추출된 RFR을 살펴보면 Fig. 1 과 달라지는 것을 확인 할 수 있다.
PPT Slide
Lager Image
An example of RFR [11]. As shown in the left figure, a region binary pattern (RBP) template is applied into a keyframe to divide sub-regions. Then, mean luminances are computed from each sub-regions as shown in the center figure. Next, binary patterns are extracted from each ring (R1, R2 and R3), and they are called RBP. Finally, the extracted RBP are converted into RFRs as shown in the right figures. Each RFR has an index as shown in their circles, and these indexes are used to measure the similarity of RFRs.
PPT Slide
Lager Image
An example of RFR extraction from a rotated keyframe by two kinds of RBP templates. The RFRs in top-right are extracted from the basic (original) RBP template, and the RFRs in bottomright are extracted from the rotated RBP template.
따라서 본 논문에서는 이를 해결하기 위하여 이중 RBP 템플릿을 활용한 이진패턴 추출 방법을 제안하고자 한다. 제안된 방법은 기존 RBP 템플릿이 가지는 약한 각도를 개선하기 위하여 Fig. 2 의 아래 템플릿처럼 미리 회전된 RBP 템플릿을 하나 더 이용한다. 예를 들어 하위영역의 개수가 6개라면 기존 RBP 템플릿에 30°가 회전된 또 다른 RBP 템플릿을 생성하여 각각 RFR을 키프레임으로부터 추출한다. 이를 통해 추출된 RFR은 Fig. 1 과 동일하며 이는 기존 방법의 취약을 문제점을 해결할 수 있었다.
본 논문의 구성은 다음과 같다. 2장에서는 기존 RFR의 전체적인 소개를 하고, 3장에서는 본 논문에서 제안한 이중 RBP 템플릿을 이용한 복제 비디오 검출에 대하여 설명한다. 4장에서는 제안된 방법을 기존 방법과 비교하며, 마지막 장에는 본 논문의 결론을 보여준다.
2. 관련연구
기존 RFR에는 내부(intra) RFR과 외부(inter) RFR 등과 같이 2가지 형태를 지니고 있다. 내부 RFR은 하나의 링에서 하위영역들을 밝기를 비교하여 이진 패턴을 추출하는 것이고, 외부 RFR은 이웃 한 두 개의 링에서 하위영역을 서로 비교하여 이진 패턴을 추출한다. 예를 들어 Fig. 1 과 같이 RFR은 여러 하위영역에서 평균 밝기 값들을 구하고 이를 활용하여 내부 RFR과 외부RFR을 추출한다. Fig. 1 의 각 링 Rn 에 대하여 왼쪽 맨 위의 하위 영역을 기준으로 시계방향으로 각각의 인덱스index) 번호를 1, 2, ⋯, P 로 둘 수 있다. 이때 아래와 같이 각 하위 영역의 평균 밝기 값을 아래 식(1)로 정의 할 수 있다.
PPT Slide
Lager Image
여기서 P 는 한 개의 링에 속한 하위영역 개수이다. 이를 이용하여 내부 RBP와 외부 RBP는 식 (2)와 (3)을 이용하여 구해진다.
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 Rμ는 모든 하위 영역의 평균값을 뜻한다. 따라서 식(2)와 (3)을 통하여 내부 RBP와 외부 RBP는 아래 식과 같이 표현된다.
PPT Slide
Lager Image
PPT Slide
Lager Image
만약 링의 개수가 N이라면 intra RBP는 각 링마다 추출되어 N개가 생성되고, inter RBP는 이웃한 링에서 추출되기 때문에 N - 1개가 추출된다. 이렇게 추출된 RBP는 오른쪽 위를 시작으로 시계방향으로 least significant bit 순으로 나열할 수 있다.
다음으로 추출된 RBP들은 회전과 반전에 강인한 RFR로 변환되게 된다. Fig. 3 은 하나의 RFR 변환 예제를 보여준다. Fig. 3 에서 오른쪽은 12개의 RBP 들인데, 이 패턴들은 반전하거나 여러 각도로 회전을 하다 보면 왼쪽의 RBP와 일치하게 된다. 이렇게 왼쪽의 대표적인 RBP를 rotation and flipping robust RBP (RFR)로 선택된다. 이렇게 모든 RBP에서 선택되는 RFR의 개수는 하위영역의 개수인 P에 따라 달라진다. 그리고 각 RFR은 각각의 인덱스를 부여 받고 있는데 이는 차후 RBP를 회전과 반전에 동일한 패턴의 RFR로 변환시키는 인덱스로 사용된다. 이때 키프레임에서 추출된 모든 RBP를 RFR로 변환하는 방법은 아래 식(6)을 통하여 가능하다.
PPT Slide
Lager Image
PPT Slide
Lager Image
An example of roated keyframes from 0°, 5°, …, 90°
여기서 IND는 RBP를 RFR 인덱스로 연결 주기 위하여 미리 정의된 함수이며 xn 는 RFR로 할당된 인덱스들을 의미한다.
따라서 키프레임에서 총 2 N - 1개의 RFR 인덱스들이 추출되고 복제 비디오 검출에 사용된다. 이때에 RFR 비교를 위하여 거리 행렬(distance matrix)를 이용하는데 이것에는 모든 RFR간에 거리가 미리 구해져 있다. 이는 RFR 비교 시에 왜곡을 최소화하고 빠른 속도로 비교하기 위함이다.
3. 제안한 이중 RBP 템플릿기반의 RFR 추출 방법
본 장에서는 앞서 설명된 회전 각도에 따른 RFR의 취약점을 개선하기 위한 이중 RBP 템플릿을 제안하고자 한다. 만약 하나의 링의 하위영역 개수가 6이라면 60°(= 360°/ 6)의 배수에 강인함을 보여주고, 60°배수에 60°/ 2를 뺀 각도에 취약함을 보여준다. 이를 극복하기 위하여 가장 쉬운 방법은 하위영역 개수를 증가 시키는 것이다. 예로 들어 하위영역 개수를 12라 하면 30° 배수에 강인함을 지닐 수 있게 된 반면 30°배수 - 15°에 취약함을 지니게 된다. 이런 방법으로는 약한 각도를 개선할 수 있지만 패턴의 복잡도는 증가하고 거리 행렬을 활용하기 위한 메모리 공간이 급격히 증가한다. Table 1 은 하위영역 개수와 이에 따른 RFR 개수 및 거리 행렬 메모리 크기를 나타낸다. Table 1 과 같이 현실적으로 유용하게 쓰일 수 있는 거리 행렬 크기는 하위 영역에 개수가 20개가 한계이다.
The numbers of RFR and the sizes of distance matrix according to the numbers of subregions
PPT Slide
Lager Image
The numbers of RFR and the sizes of distance matrix according to the numbers of subregions
따라서 이 문제를 해결하기 위하여 Fig. 2 와 같이 이중 RBP 템플릿을 활용하여 RFR을 키프레임에서 추출한다. Fig. 2 에서처럼 기존 RBP 템플릿 방식과 아래의 새로이 제안된 회전된 RBP 템플릿을 각각 사용하여 RFR을 추출해낸다. 이를 활용하여 실제 복제 비디오 검출은 아래와 같이 이루어진다. 예로 원본 비디오 키프레임에서 하고 추출된 RFR 집합을 X R 이라 정의한다. 그리고 복제로 의심되는 비디오의 키프레임에서 추출된 RFR 집합을 X Q 라 정의 한다. 이때 X Q = {X 1 , X 2 }로 구성되어 있는데 X 1 은 기존 RBP 템플릿을 통해 얻은 RFR 집합이며 X 2 는 회전 된 RBP 템플릿을 사용한 경우이다. 이때 최종적인 X R 과 X Q 의 거리는 아래 식(7)과 (8)로 계산할 수 있다.
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 DM은 거리 행렬을 의미한다. 또한 실제적으로 비디오는 다수의 키프레임으로 구성되어져 있기 때문에 원본 비디오는 R = {r 1 , r 2 ,⋯,r M }이라 정의 되며 r m 은 원본 비디오의 m 번째 키프레임에 대한 X R 을 의미한다. 그리고 복제 후보 비디오는 Q = {q 1 , q 2 ,⋯, q N }이라 정의 되며 q n 은 복제 후보 비디오에서 n 번째 키프레임의 X Q 이다. 따라서 일반적으로 복제 비디오 검출은 이러한 키프레임에서 추출된 특징들을 시퀀스 매칭으로 (sequence matching) 비교함으로써 최종 복제여부를 판별하게 된다. 이때 판별식은 아래와 같다.
PPT Slide
Lager Image
따라서 dist clip 의 값이 특정 경계값 ( θ ) 보다 작으면 후보 비디오는 복제된 것이라 판별 된다.
4. 실험결과
본 장에서는 제안하는 이중 RBP 템플릿의 성능을 확인하기 위하여 MUSCLE VCD를 활용한 복제 비디오 검출 실험을 진행하였다. MUSCLE VCD 비디오 중 샷(shot)의 길이가 50개가 넘는 비디오 40개를 선택하고 비디오를 샷으로 나눈다. 그리고 각 샷마다 하나의 키프레임이 선택하고 기존 RFR 방법을 활용하여 이진패턴들을 추출한다. 그리고 전체 40개 비디오 중 10개의 비디오를 복제 후보로 선택한 다음 샷의 길이를 1~15개로 선택하여 총 21,360개의 후보클립(clip)들을 생성한다. 본 실험에서는 회전 각도에 대한 이중 RBP 템플릿의 성능에 초점을 두기 위하여 후보 클립들의 키프레임들을 정사각형으로 크기로 조절한 다음 Fig. 3 처럼 0° 도에서 90°도까지 5°의 크기로 증가시켜 변형된 후보 클립들을 생성하였다.
복제 비디오의 검출 성능을 확인하기 위하여 본 논문에서는 F1-Score를 사용하였다. F1-Score는 recall과 precision을 동시에 고려하기 때문에 균형잡힌 성능을 보여 줄 수 있다. 본 논문에서 사용한 F1-Score는 아래 식(10)으로 계산할 수 있다.
PPT Slide
Lager Image
먼저 기존 RFR의 성능을 측정하기 위하여 RBP 템플릿에서 링의 개수를 두개로 고정을 하여 비교를 하였다. 그리고 하위영역의 개수를 8과 16으로 두 가지 템플릿을 생성하였다. 각 템플릿은 8-SR(subregions)과 16-SR으로 정의된다. 그리고 본 논문에서 제안된 방법으로 하위영역을 8로 선택하고 3장에서 제안한 것처럼 두 가지 템플릿을 생성하고 8+8-SR으로 정의하였다. Fig. 4 는 세 가지 템플릿 (8-SR, 16-SR, 8-8-SR)을 각각 사용하여 회전된 복제비디오 검출을 시행한 결과이다. 8-SR인 경우 45°배수인 각도에서 강인함을 보여주고 있고 반면에 22.5°근처와 67.5°근처에서 취약함을 보여주고 있다. 16-SR의 경우 8-SR 보다 높은 성능을 보여주며 강인함과 취약함이 바뀌는 주기가 반으로 줄어든 것을 확인할 수 있다. 그리고 본 논문에서 제안한 8+8-SR의 경우 16-SR과 아주 유사한 성능을 보여주고 있다. 표 2와 같이 비교해보면 전체 성능을 약간 떨어졌지만 원본 비디오의 RFR의 크기와 거리 행렬에서 상당히 공간을 절약한다는 것을 확인 할 수 있다.
PPT Slide
Lager Image
F1-score results from the original RBP template (8-SR and 16-SR) and the proposed multi RBP template (8-8-SR).
다음으로 동일한 RFR 크기를 고려하려 실험을 진행하였다. 기존 RFR을 추출하기 위하여 하위영역을 14개로 하고 14-SR으로 정의하였다. 이때의 RFR의 크기는 표에서처럼 10bits가 된다. 이와 동일한 크기를 가지는 8+8-SR과 비교를 하였다. Fig. 5 는 각 템플릿을 통한 결과를 보여주고 있다. 각 템플릿이 강인한 각도와 취약한 각도가 다르지만 전체적으로 Table 2 처럼 본 논문에서 제안한 8+8-SR이 좀더 높은 성능을 보여주었다.
PPT Slide
Lager Image
F1-score results from the origianl RBP template (14-SR) and the proposed multi RBP template (8-8-SR).
Comparisons of the sizes of RFRs and distance matrixes according to RBP tempalte types
PPT Slide
Lager Image
Comparisons of the sizes of RFRs and distance matrixes according to RBP tempalte types
5. 결 론
본 논문에서는 회전된 복제 비디오 검출을 위하여 제안된 RFR이 가지는 각도에 대한 취약점을 해결하기 위한 이중 RBP 템플릿을 제안하였다. 제안된 방법은 기존 RFR 방법보다 절반의 크기로 추출되지만 유사한 결과를 얻을 수가 있었다. 또한 기존 RFR이 하위영역을 20개까지만 고려할 수 있었던 점도 이중 템플릿을 통하여 기존 성능을 극복할 수 있는 방법을 제안하였다.
BIO
김 세 민
2006년 안동대학교 멀티미디어공학과 공학사
2008년 경북대학교 컴퓨터공학과 공학석사
2008년 한국산업기술진흥원 연구원
2014년 한국과학기술원 정보통신공학과 공학박사
현재 삼성전자 의료기기사업부 책임연구원
관심분야 : 영상 패턴 추출, 이미지/비디오 분류 및 검색
이 승 호
2009년 동국대학교 전자공학과 공학사
2011년 한국과학기술원 전기 및 전자공학과 공학석사
현재 한국과학기술원 전기 및 전자공학과 박사과정
관심분야 : 객체검출, 얼굴분석(얼굴인식, 표정인식, 연령인식), 기계학습
노 용 만
1992년 한국과학기술원 전기 및 전자공학과 공학박사
1987년 Columbia University 연구원
1996년 University of California Berkeley 연구원
2006년 University of Toronto 방문교수
현재 한국과학기술원 전기 및 전자공학과 정교수
관심분야 : 영상 및 비디오 신호처리, 패턴인식, MPEG-7, Image and Video indexing, Spectral analysis of image signal
References
(2013) Statistics of YouTube http://www.youtube.com/yt/press/statistics.html
Korea Pederation of Copyright Organizations 2014 Annual Report on Copyright Protection
Kim C. , Vasudev B. 2005 "Spatio-temporal Sequence Matching for Efficient Video Copy Detection" IEEE Transactions on Circuits and Systems for Video Technology 15 (1) 127 - 132    DOI : 10.1109/TCSVT.2004.836751
Esmaeili M.M. , Fatourechi M. , Ward K.R. 2011 “A Robust and Fast Video Copy Detection System using Content-Based Fingerprinting” IEEE Transactions on Information Forensics and Security 6 (1) 213 - 226    DOI : 10.1109/TIFS.2010.2097593
Lei Y. , Luo W. , Wang Y. , Huang J. 2012 “Video Sequence Matching based on the Invariance of Color Correlation” IEEE Transactions on Circuits and Systems for Video Technoogyl 22 (9) 1332 - 1343    DOI : 10.1109/TCSVT.2012.2201670
Wei S. , Zhao Y. , Zhu C. , Xu C. , Zhu Z. 2011 “Frame Fusion for Video Copy Detection” IEEE Transactions on Circuits and Systems for Video Technology 21 (1) 15 - 28    DOI : 10.1109/TCSVT.2011.2105554
Kim S. , Choi J.Y. , Han S. , Ro Y.M. 2014 “Adaptive Weighted Fusion with New Spatial and Temporal Fingerprints for Improved Video Copy Detection” Signal Processing: Image Communication 29 (7) 788 - 806    DOI : 10.1016/j.image.2014.05.002
Kim S. , Ro Y.M. 2013 “Analysis of the Robustness and Discrimination for Video Fingerprints in Video Copy Detection” Journal of Korea Multimedia Society 16 (11) 1281 - 1287    DOI : 10.9717/kmms.2013.16.11.1281
Over P. , Awad G. , Fiscus J. 2009 “TRECVID 2009-Goals, Tasks, Data, Evaluation Mechanisms and Metrics” Proceeding of NISTTRECVID Workshop 1 - 42
2007 Muscle-VCD-2007: a live benchmark for video copy detection https://www.rocq.inria.fr/imedia/civr-bench/
Kim S. , Lee S.H. , Ro Y.M. 2014 “Rotation and Flipping Robust Region Binary Patterns for Video Copy Detection,” Journal of Visual Communication and Image Representation 25 (2) 373 - 383    DOI : 10.1016/j.jvcir.2013.12.003