Advanced
Detecting Rectangular Image Regions in a Window Image for 3D Conversion
Detecting Rectangular Image Regions in a Window Image for 3D Conversion
Journal of Broadcast Engineering. 2013. Nov, 18(6): 795-807
Copyright © 2013, The Korean Society of Broadcast Engineers
  • Received : August 28, 2013
  • Accepted : November 04, 2013
  • Published : November 30, 2013
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
종인 길
준석 이
만배 김
manbae@kangwon.ac.kr

Abstract
최근 2D 영상을 3D로 변환하는 2D-to-3D 변환기술에 대한 관심이 높아지고 있다. 지금까지는 영화나 애니메이션 등의 자연영상을 3D변환하는 것에 초점이 맞추어져 있었다. 그러나 텍스트, 이미지, 로고, 아이콘등이 혼재 되어 있는 윈도우영상의 경우, 이러한 3D변환기술을 적용하는데 어려움이 있다. 특히 텍스트는 동일한 깊이를 얻지 못하면 깨짐, 흔들림 등의 문제가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 먼저 자연영상과 윈도우영상의 분류를 수행하고 윈도우영상일 경우에 텍스트나 배경을 제외하고 이미지 영역만을 검출하는 방법을 제안한다. 검출된 영역에 대해서 3D변환을 각자 수행하고 나머지 영역은 변환하지 않음으로써 상기 문제점을 해결할 수 있다. 실험에서는 10,000장 이상의 실험영상을 테스트하였다. 실험결과로는 윈도우영상의 검출률이 97%을 얻었고, 윈도우영상의 영상영역의 검출률은 87%이다.
Keywords
Ⅰ. 서 론
입체영상 기술은 시청자에게 장면의 깊이감을 제공함으로써 실제 환경에서 보는 것과 같은 입체감을 느끼게 하는 기술이다. 입체영상 기술 중에 2D-to-3D 변환기술은 자동으로 2D영상에서 깊이맵(depth map)을 추출하여, 좌우 입체영상을 생성하는 기술로써 기존의 3D영상 만큼의 완벽한 입체감을 전달할 수 없을지라도 자동으로 3D영상을 획득할 수 있다는 장점으로 인해 크게 각광받고 있다 [1 - 3] . 현재 변환 기술은 그림 1 (a)과 같은 자연영상(natural image)에 초점이 맞추어져 있어서 영화나 애니메이션 같은 3D콘텐츠에는 비교적 우수한 입체영상을 얻을 수 있으나, 그림 1 (b)와 같이 텍스트, 이미지, 로고, 웹페이지 등이 혼재되어 있는 영상에서는 왜곡된 입체감이 발생할 수 있다. 따라서 웹페이지를 포함하는 윈도우영상(window image)에는 2Dto-3D 변환을 적용하기 위한 다른 접근이 필요하다.
PPT Slide
Lager Image
자연영상과 윈도우영상의 예. (a) 자연영상 및 (b) 윈도우영상 Fig 1. Example of natural and window images. (a) natural image and (b) window image
자연영상과는 달리 윈도우영상의 경우 많은 텍스트들이 존재한다. 이러한 텍스트를 3D로 변환할 때 모든 텍스트가 동일한 깊이를 갖지 못한다면, 텍스트의 다양한 크기 및 스타일로 인해 글자가 왜곡되어 입체 시청시 가독성(readability)이 낮아진다. 단순한 방법은 웹페이지등의 윈도우 영상은 3D변환을 하지 않고, 2D영상을 그대로 보여주는 것이다. 이 방법은 윈도우영상과 자연영상이 번갈아 출력될 경우, 3D감을 지속적으로 시청자에게 전달하지 않기 때문에 시청자가 불편함을 느끼게 된다. 다른 방법으로는 OCR(Optical Character Recognition)과 같은 기술을 이용하여 텍스트를 검출하여 모든 텍스트에 동일한 깊이를 부여하는 것이다. 그러나 텍스트는 다양한 종류의 글꼴, 형태 및 크기를 가지고 있기 때문에 모든 텍스트를 정확하기 검출하는 것은 어려운 일이다.
또한 윈도우영상은 내부에 포함된 하위 영상을 제외한 나머지 영역들은 깊이를 판단하기 어려운 경우가 존재한다. 예를 들어, 그림 1 (b)에서처럼 배경, 텍스트상자 및 작업표시줄 사이에 깊이차를 부여하기 위한 기준이 모호하다. 그러므로 만일 이 영역에 다른 깊이를 강제로 부여한다면, 시청자는 시각적 불편함을 느낄 수 있을 것이라고 예측할 수 있다.
본 논문에서는 먼저 입력 영상을 윈도우영상과 자연영상으로 분류하는 방법을 소개한다. 윈도우영상으로 분류되었을 경우, 앞서 설명한 문제점을 해결하기 위해서 그림 2 와 같이 이미지가 존재하는 사각 이미지 영역 (RIR, Rectangular Image Region)을 찾는 방법을 제안한다. 실제 응용에서는 이 RIR만 입체변환을 하고, 나머지 영역은 배경으로 가정하여, 입체변환을 수행하지 않는다. 텍스트를 포함하는 배경을 2D로 보여주게 됨에 따라 왜곡과 같은 문제점을 해결할 수 있다. 자연영상으로 분류된다면 전체 영상에 대해 입체변환을 수행하게 된다. 본 논문에서 RIR을 탐색하는 기법을 제안하고, 탐색된 RIR의 3D입체변환은 다양한 기술 변환방법을 이용할 수 있다.
PPT Slide
Lager Image
윈도우영상의 RIR Fig 2. RIR of window image
본 논문의 구성은 다음과 같다. 먼저 Ⅱ장에서는 제안방법의 개요를 소개한다. Ⅲ장에서는 두 가지 영상 분류 방법을 소개하고, Ⅳ장에서 RIR을 탐색하는 방법을 설명한다. 제안 방법의 결과 및 성능분석을 Ⅴ장에서 나타내고, 마지막으로 Ⅵ장에서 결론을 맺는다.
Ⅱ. 제안 방법
입력받은 영상에서 윈도우영상을 분류하고, RIR을 찾기 위한 전체 흐름도를 그림 3 에서 보여주고 있다. 먼저 입력 받은 영상을 그레이스케일 영상으로 변환한 후 영상 분류를 수행한다. 기존에 여러 가지 영상 분류 알고리즘이 존재하지만 본 연구의 목적은 자연영상과 윈도우영상의 두 부류로 나누는 것이 목적이므로 새로운 영상 분류 알고리즘이 필요하다. 제안하는 영상 분류 알고리즘은 히스토그램 기반 영상 분류 방법과 라인 기반 영상 분류 방법이다. 각 방법은 그 자체로 완벽하게 영상 분류를 수행할 수 없다. 따라서 독립적으로 수행하게 되면 만족할 수 없는 결과를 얻게 된다. 그러므로 두 방법을 각각 수행한 후, 둘 중 하나라도 조건을 만족하는 경우 윈도우영상으로 판단하도록 하였다. 그럼으로써 두 방법이 각자의 단점을 보완하여 영상 분류의 정확도를 향상시킬 수 있다. 반대로 두 방법에서 모두 조건을 만족하지 못한다면 자연영상으로 판단하게 된다.
PPT Slide
Lager Image
제안 방법의 전체 흐름도 Fig 3. Block diagram of proposed method
윈도우영상으로 분류되었다면, RIR 검출 과정을 수행하게 된다. RIR 검출은 후보 RIR 분석, bounding box 생성, component filling, 텍스트 제거, 내부 RIR 제거의 5가지 과정으로 이루어져 있다. 초기에는 후보 RIR을 최대한 많이 탐색하고, 이후에 후보군을 제거해나가는 방식으로 구성되어 있다. 영상 분류는 Ⅲ장에서, RIR 검출은 Ⅳ장에서 자세히 설명하도록 한다. RIR의 입체변환은 기존의 다양한 변환 기술들을 적용할 수 있기 때문에 본 논문에서는 다루지 않는다.
Ⅲ. 영상 분류
영상을 자연영상과 윈도우영상으로 분류하기 위해 두 가지 방법을 이용한다. 히스토그램 기반 분류 방법은 히스토그램에서 최대 빈도수를 갖는 구간의 픽셀 수와 전체 픽셀 수의 비율을 분석하는 방법이고, 라인 기반 분류 방법은 영상에 존재하는 라인의 길이를 분석하는 방법이다.
- 1. 히스토그램 기반 영상 분류 방법
윈도우영상의 특징 중 하나는 여러 색이 고르게 분포하는 자연영상과 달리 배경의 영향으로 인해 특정 색상이 많은 부분을 차지한다는 것이다. 그림 4 그림 1 의 자연영상과 윈도우영상의 히스토그램을 보여준다. 그림 4 (b)에서 보여지듯이 그림 4 (a)에 비해 과도하게 기울기(gradient)가 높은 구간이 많이 존재함을 알 수 있다. 따라서 이러한 특징을 이용하여 히스토그램으로부터 영상을 분류할 수 있는 정보를 획득할 수 있다. 먼저 M × N 의 컬러 영상을 그레이스케일 영상으로 변환한다. 그레이스케일 영상 Y 의 히스토그램 H(Y) 를 생성하고 H(Y) 에서 최대 빈도수(frequency)를 가지는 구간(bin)을 선택한다. 이 구간에 해당하는 픽셀의 비율 R 1 을 식 (1)과 같이 계산하고 임계값 T 1 과 비교한다. R 1 T 1 보다 작을 경우 자연영상으로, 아니면 윈도우영상으로 판단한다. 그림 5 는 이러한 히스토그램 기반의 영상 분류 알고리즘을 보여준다.
PPT Slide
Lager Image
PPT Slide
Lager Image
히스토그램의 비교. (a) 자연영상의 히스토그램 및 (b) 윈도우영상의 히스토그램 Fig 4. Comparison of histograms of (a) natural image and (b) window image
PPT Slide
Lager Image
히스토그램 기반 영상 분류 알고리즘 Fig 5. Histogram based image classification algorithm
여기서 yi 는 그레이스케일 값이다.
- 2. 라인 기반 영상 분류 방법
히스토그램 기반 영상 분류 알고리즘을 통해 영상을 분류하는 것은 한계가 있다. 특정 색의 분포가 큰 자연영상의 경우 윈도우영상으로 잘못 판단될 수 있기 때문이다. 그러므로, 이러한 문제를 해결하기 위해 윈도우영상과 자연영상의 또 다른 차이를 고려해야 한다. 윈도우영상은 그 특성상 정보를 나타내기 위해 프레임별로 구간을 나누고 있기 때문에 수직/수평 라인이 많이 존재한다. 그러나 자연영상은 정보를 나눌 필요가 없기 때문에 상대적으로 적은 비율의 수직/수평 라인이 나타나게 된다. 따라서 영상에 존재하는 라인은 영상 분류를 위한 중요한 요인이 될 수 있다. 이러한 라인 기반 영상 분류 방법을 그림 6 에서 보여주고 있다.
PPT Slide
Lager Image
라인 기반 영상 분류 알고리즘 Fig 6. Line-based Image classification algorithm
라인 검출을 위해 식 (2)와 같은 4개의 연산자를 이용하였다 [4] . 각 연산자를 입력영상에 회선(convolution)하여 총 4개의 출력을 획득한다. 각 픽셀에 대해 4개의 출력이 나타나게 되는데, 이 때, 4개의 출력 중 최댓값을 선택한다. 예를 들어 90°의 출력이 가장 크다면 해당 픽셀은 90°의 방향을 가지고 있는것이므로, 90°의 출력을 선택한다. 그리고각 출력에 대해 임계값 TL 을 이용하여 라인 영상을 이진화한다.
PPT Slide
Lager Image
라인 검출 방법으로 얻어진 라인 영상을 그림 7 에서 보여 주고 있다. 왼쪽 영상은 자연영상이고 오른쪽 영상은 윈도우영상이다. 그러나 검출된 라인 픽셀은 모두 방향이 다르다. 또한 라인만으로는 두 영상을 분류하기가 쉽지 않다.
PPT Slide
Lager Image
라인 검출 결과 (TL = 150). (a) 자연영상 및 (b) 윈도우영상 Fig 7. The results of line detection ((TL = 150). (a) natural image and (b) window image
윈도우영상의 가장 큰 특징은 수평/수직 라인이 많이 존재한다는 것이다. 따라서 라인 영상에서 수평/수직 방향이 아닌 라인을 모두 제거하게 되면 분류기의 성능을 높일 수 있다. 제거하는 방법은 검출된 각 라인 픽셀을 중심으로 하여 상, 하, 좌, 우의 4방향으로 탐색을 시작하여 그 길이를조사한다. 만일 측정한 길이가 임계치 T 2 보다 짧을 경우 수직/수평 라인이 아니라고 판단하고 제거한다. 수평/수직 방향이 아닌 라인을 제거한 영상을 그림 8 에서 보여준다. 그림에서 보는바와 같이, 윈도우영상이 자연영상에 비해 훨씬 많은 수직/수평 라인을 포함하고 있다. 이러한 라인의 수를 카운트함으로써 자연영상과 윈도우영상을 분류할 수 있다.
PPT Slide
Lager Image
라인 검출 후 수평/수직 라인만을 검출한 영상 (T2 = 150). (a) 자연영상 및 (b) 윈도우영상 Fig 8. Horizontal and vertical lines after line detection (T2 = 150). (a) natural image and (b) window image
Ⅳ. RIR(Rectangular Image Region) 검출
Ⅲ장으로부터 분류된 윈도우영상은 RIR 검출과정을 거치게 된다. 그림 9 는 영상 분류 과정의 결과를 보여주고 있다. 그림 9 (a)는 입력 영상, 9 (b)는 라인을 검출한 영상이다. 다만 그림 7 과의 차이는 30의 임계치 TL 을 적용했다는 점이다. 임계치를 낮게 설정함으로써 최대한 많은 라인을 검출하였다. 그리고 9 (c)와 같이 짧은 라인을 제거한 결과 영상이 RIR 검출과정의 입력이 된다.
PPT Slide
Lager Image
영상 분류 과정. (a) 원본 영상, (b) 라인 검출 영상 및 (c) 수평/수직 라인 검출 영상 (TL = 30) Fig 9. Image classification process. (a) original image, (b) line detection and (c) horizontal/vertical line detection (TL = 30)
- 1. 후보 RIR 분석
앞선 과정에서 수직/수평 라인이 아닌 경우를 모두 제거 하였지만, 아직 짧은 길이를 갖는 라인들이 존재함을 확인 할 수 있다. 이러한 라인들은 비록 노이즈는 아니지만, RIR을 형성할 수 있는 라인들은 아니다. 또한 사각 형태를 띠고 있더라도 너무 작은 RIR의 경우, 3D 시청 시 깊이감을 느끼기 힘들기 때문에 RIR으로써 부적합하다고 판단한다. 따라서 이러한 라인들을 제거해야 한다. 이를 위해, 라인 레이블링을 수행한다. CCL(Connected Component Labeling) [4] 은 서로 연결된 라인끼리 동일한 레이블을 부여하는 알고 리즘으로써, 검출된 각 라인 픽셀을 기준으로 8-방향으로 탐색하여 연속적으로 연결되어있는 픽셀들을 동일한 레이블로 처리한다. 이 과정에서 각 레이블 당 라인 픽셀의 개수를 구할 수 있다. 즉, 각 라인 픽셀은 모두 레이블 번호를 가지고 있고, 각 레이블은 라인 픽셀의 개수에 대한 정보를 가지고 있다. 이때, 적은 라인 픽셀의 수를 갖고 있는 레이블의 라인을 제거함으로써, 부적절한 라인들을 제거할 수 있다. 이 때, 사용된 픽셀 수의 임계치는 300 픽셀로 설정하였다.
또한 영상 경계에 걸친 레이블 영역도 제거한다. 이는 영상 중심에서 벗어날수록 중요도가 낮은 영역들일 확률이 높다고 판단하였으며, 대체로 최대화 크기로 되어있는 윈도우 창일 확률이 높기 때문에 제거한다. 그 결과를 그림 10 에서 보여주고 있다.
- 2. Bounding Box 생성
그림 10 (c)에서 불필요한 라인들은 대부분 제거 되었지만, 모두 사각형을 형성하는 것은 아니다. 따라서 각 레이블에 대해 좌상, 우하의 좌표를 획득함으로써, bounding box를 생성한다. 그러나 웹브라우저의 주소창, 검색어창 등과 같이 가로 길이와 세로 길이의 차이가 큰 경우는 RIR에 해당하지 않는다. 그러므로 각 bounding box의 너비와 높이를 조사하여 둘 중 하나라도 길이가 50을 넘지 못하면 RIR에서 제거하였다. 이는 또한 앞선 과정에서 픽셀 수가 작은 레이블 영역을 제거한 이유와 같다. 그림 11 에서 획득한 bounding box를 보여주고 있다.
PPT Slide
Lager Image
후보 RIR 분석. (a) 입력 영상, (b) 작은 라인 제거 영상 및 (c) 경계에 걸친 라인 제거 영상 Fig 10. Candidate RIR analysis. (a) input image, (b) short line removal (c) boundary line removal
PPT Slide
Lager Image
bounding box의 생성. (a) 생성된 bounding box 및 (b) 부적절한 bounding box 제거 Fig 11. Bounding box generation. (a) generated bounding box and (b) inappropriate bounding box removal
- 3. Component Filling
지금까지의 과정에서 구한 RIR들은 이미지 영역일 수도 있고 아닐 수도 있다. 예를 들어 웹페이지의 블로그 배경의 경우 다양한 무늬의 디자인을 사용할 수 있다. 이러한 무늬들은 상대적으로 명확한 라인을 검출하게 만들며 지금까지의 과정에서는 이를 RIR로 충분히 오판할 수 있다. 이렇게 잘못 검출된 RIR들을 제거해야 하는 과정이 필요하며, 이는 입력영상이 윈도우영상이 아니라 자연영상으로 잘못 판단한 경우에도 RIR을 검출하지 않게 해준다.
완전한 이미지 영역을 검출하기 위해, 각 레이블 영역이 얼마나 사각의 형태를 갖추고 있는지를 검사한다. 그림 12 는 Component Filling 과정의 예를 보여주고 있다. 그림 12 (a)는 연속된 라인 픽셀로 이루어진 하나의 레이블 영역이며 번호 1로 레이블 되어 있다. 이전 과정에서 각 레이블 영역의 bounding box를 구하였으므로, 1번 레이블의 bounding box 내부의 모든 픽셀에 접근 할 수 있다. 따라서 bounding box 내부의 라인이 아닌 모든 픽셀에 대해서, 해당 픽셀을 기준으로 상, 하, 좌, 우로 탐색을 시작한다. 탐색의 범위는 bounding box 내부에 국한되며, bounding box외부로 벗어나게 되면 멈춘다.
모두 4방향이므로, 각 방향으로 탐색을 하게 되면 1번 레이블을 가지고 있는 라인 픽셀을 최대 4개까지 발견할 수 있다. 따라서 현재 내부 픽셀이 4방향 중 몇 군데에서 라인 픽셀로 가로막혀 있는지 알 수 있다. 만일 어떤 라인 픽셀이 3방향 혹은 4방향에서 가로막혀 있다면 그림 12 (b)에서 처럼 해당 픽셀을 채운다. 그리고 채운 픽셀의 수를 카운트한다.
PPT Slide
Lager Image
Component filling 과정 Fig 12. Component filling process
이렇게 구한 각 레이블 영역의 라인 픽셀 수를 이용하여, bounding box 면적과의 비율 R 2 를 다음 식 (3)과 같이 계산할 수 있다.
PPT Slide
Lager Image
0.8 이하의 R 2 를 갖는 레이블 영역을 제거한 후의 RIR은 그림 13 에서 보여진다. 이 과정을 거치게 되면 라인의 형태가 bounding box와 유사하지 않을수록 제거될 가능성이 크다. 즉, 사각 이미지 영역의 외곽 라인이 명확하게 존재할수록 RIR로 판단될 확률이 높아지게 된다.
그림 13 (a)는 원본 영상을 나타내고, 그림 13 (b)는 Component Filling의 결과 영상이다. 밝은 회색 부분이 진한 회색의 이미지 영역보다 불규칙한 형태를 보임을 알 수 있다. 이 부분은 R 2 가 낮은 영역으로써 제거 대상이다. 왼쪽 원본 영상에서 복잡한 텍스쳐로 이루어진 부분이 RIR로 잘못 검출될 수 있으나, Component Filling과정을 통해 사각형태가 아닌 이미지 영역을 제거 할 수 있다.
PPT Slide
Lager Image
Component filling 결과. (a) 원본 영상 및 (b) component filling을 수행한 영상 Fig 13. The result of component filling. (a) original image and (b) output image after component filling
- 4. 텍스트 RIR 제거
지금까지의 과정에서 해결하지 못하는 몇 가지 문제점들이 있다. 예를 들어 포털 사이트의 경우 인위적으로 프레임을 나누어 정보를 표시한다. 이를테면 뉴스를 표시하는 프레임, 로그인 정보를 표시하는 프레임, 광고를 표시하는 프레임 등으로 카테고리 별로 구분한다. 뉴스 헤드라인과 같은 텍스트 정보의 집합을 별도의 프레임으로 나누는 경우 프레임의 사각 경계선 때문에 RIR로 오판할 가능성이 있다.
일반적으로 텍스트의 경우 가독성을 위해서 배경과 보색 관계에 놓이게 된다. 또한 그 배경은 대체적으로 복잡하지 않은 텍스쳐를 갖는다는 특성이 있다. 그러므로 텍스트 RIR을 제거하기 위해서 이러한 특성들이 이용될 수 있다 [5 - 9] .
이를 위해, 텍스트 픽셀의 수와 배경 픽셀의 수의 비율을 이용한다. 이는 Ⅲ장에서 설명한 히스토그램 기반 영상 분류의 방법과 유사하다. 텍스트와 배경은 하나의 색상을 갖는 경우가 대부분이지만 일부 약간의 텍스쳐를 갖는 경우가 있다. 그러나, 앞서 말한바와 같이 배경과 텍스트는 높은 대비를 가지고 있으므로, 256-레벨로 표현되는 영상을 8-레벨로 양자화를 수행한다면 미미한 텍스쳐를 제거할 수 있다. 그림 14 에서 RIR 내부의 배경은 주로 흰색으로 보이지만 실제 히스토그램을 구하였을 때 250±5의 범위에서 고른 분포를 보이고 있다. 따라서 각 RIR의 8-레벨 히스토그램을 구하여, 식 (1)과 같이 가장 많은 픽셀이 속한 그룹이 bounding box 면적에서 얼마만큼의 비율을 차지하는지를 계산한다. 비율이 높을수록 텍스트 RIR일 가능성이 크므로 제거한다. 그림 15 는 결과 영상이다. 왼쪽 그림은 텍스트 RIR을 제거하기 전 영상이고, 오른쪽 그림은 텍스트 RIR을 제거한 영상이다. 로그인 정보를 표시하는 프레임, 텍스트를 표시하는 프레임이 제거됨을 알 수 있다.
PPT Slide
Lager Image
텍스트 RIR의 예 Fig 14. The example of text RIR
PPT Slide
Lager Image
텍스트 RIR 제거 결과. (a) 텍스트 RIR 제거 전 및 (c) 텍스트 RIR 제거 후 Fig 15. The result of text RIR removal. (a) before removing text RIR and (b) after removing text RIR
- 5. 내부 RIR 제거
앞선 과정을 통해 적절한 RIR을 얻을 수 있었다. 그러나 RIR 내부에 다른 RIR이 검출될 수 있다. 이는 그림 16 에서 보듯이, 주로 동영상과 같이 영상의 aspect ratio의 불일치로 인해 검은색 배경을 포함하고 있는 경우, 혹은 RIR 자체가 여러 하위 이미지를 중첩하여 포함하고 있는 경우에 발생한다. 그리고 여러 이미지들이 바둑판의 형태로 존재하는 경우 여러 RIR이 서로 붙어 있는 경우도 발생한다. 그러므로 이렇게 중첩된 RIR을 하나로 통합하는 과정이 필요하다. 대부분 내부의 RIR이 잘못 설정되어 있는 경우가 많으므로, 외부의 RIR을 남겨둔 채, 내부의 RIR만을 찾아서 제거하도록 한다.
PPT Slide
Lager Image
내부 RIR의 제거 Fig 16. Inner RIR removal
만일 어떤 RIR이 다른 RIR의 내부에 포함되어 있다면, 내부 RIR의 좌표는 외부 RIR의 좌표 범위안에 포함될 것이 확실하다. 그러므로 이러한 내부 RIR을 제거하기 위해서 좌표를 비교한다면 쉽게 포함관계를 확인할 수 있다.
Ⅴ. 실험결과
자연영상과 윈도우영상의 분류 및 RIR 검출 기법의 성능을 측정하기 위해 실험을 수행하였다. 영상 분류의 정확도 실험을 위해 포탈, 블로그, 쇼핑, 뉴스, 지도등을 포함하는 윈도우영상과 영화, 애니메이션, 게임등을 포함하는 자연 영상을 총 11,287장을 수집하였다.
영상 분류의 혼동 행렬
PPT Slide
Lager Image
Table 1. Confusion matrix of image classification
표 1 에서 영상 분류의 결과를 혼동행렬(confusion matrix) [10] 로 나타내었다. 혼동 행렬에서 열 제목은 참 분류, 행 제목은 분류 결과를 의미한다. 결과를 보면 window image의 경우, 성공률은 7964/(7964+260)=96.84 %이고, natural image는 97.91%이다. 윈도우영상을 자연영상으로 잘못 분류한 경우가 260개 발생하였는데 이유는 그림 17 과 같이 주로 지도, 혹은 블로그와 같이 모호한 경우에서 많이 실패하였기 때문이다. 그림 17 (a)의 지도의 경우 작은 화면에서는 정보를 얻기 어렵기 때문에 주로 큰 화면에서 시청을 하게 된다. 그러므로 전체 페이지를 하나의 영상으로 처리되기 때문에 영상 분류 알고리즘에서 제대로 처리되지 못하였다. 또한 그림 17 (b)의 블로그의 경우 다른 웹페이지와 달리, 이미지 자체를 배경으로 사용하는 경우가 많았다. 다시 말해, 대부분 흰색, 혹은 동일한 색상의 배경을 사용하는 것과 달리 블로그에서는 배경이 여러 가지 텍스쳐를 가지고 있었기 때문에 히스토그램 기반 혹은 라인 기반 알고리즘에서 분류해내지 못하였다. 또한 그림 17 (c)의 영상의 경우, 배경이 동일한 색상을 가지고 있는 것처럼 보이지만, 실제로 미세한 텍스쳐를 가지고 있는 경우도 존재한다.
PPT Slide
Lager Image
잘못 분류된 영상. (a) 구글 맵, (b) 블로그 및 (c) 그 외 영상 Fig 17. Missclassified images. (a) google map, (b) blog and (c) other images
또한 이 혼동행렬로부터 정확률(precision)과 재현률(recall)을 측정하였다. 예를 들어, 윈도우영상의 정확률은 윈도우영상으로 판별되어야 할 영상 중에 윈도우영상으로 제대로 판별된 확률이다. 반면 윈도우영상의 재현률은 윈도우영상으로 판별된 영상중에 실제 윈도우영상의 확률이다. 식 (4)는 혼동 행렬로부터 측정된 윈도우영상의 정확률과 재현률을 나타내고 있다. m 12 은 혼동행렬의 첫 번째 행, 두 번째 열의 값을 나타낸다. 자연영상의 경우, 반대로 계산하면 된다.
영상 분류의 정확률과 재현률
PPT Slide
Lager Image
Table 2. Precision and recall of image classification
PPT Slide
Lager Image
RIR 검출 정확도를 측정하기 위해 포털사이트(예: Nate, Naver, Daum, Google)의 윈도우영상들을 수집하였다. 이러한 포털 사이트의 내부는 트리 구조로 구성되어 있다 [11 - 12] . 일반적으로 이러한 윈도우영상은 2~3개의 RIR을 포함하고 있다. 이렇게 적은 RIR을 포함하고 있을 경우 정확도를 측정하기 어렵기 때문에, 최대한 많은 RIR을 포함하고 있는 영상들만을 수집하였다. 그 결과 총 146개의 RIR이 존재하는 10장의 영상을 실험 데이터로 사용하였다. 실험 결과 검출된 RIR을 그림 18 에서 보여주고 있다.
RIR 검출 결과
PPT Slide
Lager Image
Table 3. Result of RIR detection
PPT Slide
Lager Image
제안 방법을 통해 검출된 RIR Fig 18. RIRs detected by proposed method
검출된 RIR의 정확도 여부는 눈으로 확인한 ground truth data를 기준으로 판정하였다. 표 3 에서 보는 것처럼, 총 146개의 ground truth RIR에서 128개의 적중, 16개의 오탐지된결과를 얻었다. 표 3 의 실험 결과로부터 마찬가지로 식 (4)를 이용하여 정확률과 재현률을 측정한 결과, 각각 98.46%, 88.89%가 측정되었다. 이 결과로부터 RIR이지만 제대로 검출 못한 부분이 일부 발생하였지만 상당수 검출에 성공하였음을 알 수 있다. 검출에 실패한 원인을 들자면, 첫째로 RIR의 특성을 들 수 있다. 비록 RIR일지라도 그 내용이 단순하거나, 위치가 전체 영상의 경계에 걸쳐있을 경우 탐지할 수 없게 된다. 두 번째로, ground truth를 들 수 있다. 실험에서는 수동으로 ground truth 데이터를 생성하였다. 그러나 사람의 육안으로도 판단하기 어려운 RIR이 있을 수 있기 때문에 판단의 모호함이 발생하게 된다.
Ⅵ. 결론
본 논문에서는 영상에 따른 차별화된 3D변환의 필요성을 강조하고, 그 초기 연구로써 윈도우영상의 3D변환 방법을 제안하였다. 이를 위해 다양한 종류의 영상을 윈도우영상과 자연영상으로 분류하고, 분류된 윈도우영상으로부터 RIR(Rectangular Image Regions)을 검출하였다. RIR을 검출함으로써 윈도우영상에서 시청자에게 편안한 입체감을 제공하고, 텍스트 등에서 발생할 수 있는 왜곡을 해결할 수 있도록 하였다. 실험 결과를 통해 영상 분류와 RIR 검출에서 높은 검출률을 얻을 수 있음을 보여주었다.
영상 분류 과정에서 입력 데이터 중 지도, 패턴, 단일화된 영상은 낮은 검출률을 보였다. 이를 위해 추가적인 알고리즘에 대한 연구가 진행되어야 할 것이다. 또한 시각적으로도 윈도우영상과 자연영상을 판별하기 어려운 경우를 처리할 수 있도록 명확한 기준이 설정되어야 할 것이다.
BIO
길 종 인
- 2010년 8월 : 강원대학교 컴퓨터정보통신공학과 학사
- 2012년 8월 : 강원대학교 컴퓨터정보통신공학과 석사
- 2012년 9월 ~ 현재 : 강원대학교 컴퓨터정보통신공학과 박사과정
- 주관심분야 : 3D영상처리, 깊이맵처리, 컴퓨터비전
이 준 석
- 2008년 3월 ~ 현재 : 강원대학교 컴퓨터정보통신공학과 학사과정
- 주관심분야 : 영상처리, 컴퓨터비전, 모바일영상기술
김 만 배
- 1983년 : 한양대학교 전자공학과 학사
- 1986년 : University of Washington, Seattle 전기공학과 공학석사
- 1992년 : University of Washington, Seattle 전기공학과 공학박사
- 1992년 ~ 1998년 : 삼성종합기술원 수석연구원
- 1998년 ~ 현재 : 강원대학교 컴퓨터정보통신공학과 교수
- 주관심분야 : 3D영상처리, 깊이맵처리, 입체변환
References
Kim J. , Baik A. , Jung Y. , Park D. 2009 "2D-to-3D image/video conversion by using visual attention analysis," ICIP
Battiato S. , Carpa A. , Curti S. , La Cascia M. 2004 "3D Stereoscopic Image Pairs by Depth-Map Generation," Proceedings of 3DPVT
Tam W. , Zhang L. 2006 "3D-TV Content Generation: 2D-To-3D Conversion," Proceedings of IEEE ICME
Sonka M. , Hlavac V. , Boyle R. 2008 “Image processing, analysis and Machine Vision, 3rd Ed” Thomson Press
Situ L. , Liu R. , Tan C. L 2011 “Text Localization in Web Images Using Probabilistic Candidate Selection Model,“ International Conference on Document Analysis and Recognition(ICDAR) 1359 - 1363
Khodadadi M. , Behrad A. “Text localization, extraction and inpainting in color images,“ 20th Iranian Conference on Electrical Engineering (ICEE) 2012 1035 - 1040
Yang J. , Zhu S. 2011 “Removing Labeled Text in an Image Based on an Extended Filter in Gabor Space,“ International Conference on Multimedia and Signal Processing (CMSP) 353 - 356
Song Y. , Liu A. , Pang L. , Lin S. , Zhang Y. , Tang S. 2008 “A Novel Image Text Extraction Method Based on K-Means Clustering,“ International Conference on Computer and Information Science 185 - 190
Wang Y. , Tanaka N. 2008 “Text String Extraction from Scene Image Based on Edge Feature and Morphology,“ International Workshop on Document Analysis Systems 323 - 328
Elouedi Z. , Lefevre E. , Mercier D. 2010 “Discountings of a Belief Function Using a Confusion Matrix,“ 22nd IEEE International Conference on Tools with Artificial Intelligence (ICTAI) 287 - 294
Yala T. , Chunzhi W. 2009 “Dimensionality reduction in webpage categorization using probabilistic latent semantic analysis and adaptive general particle swarm optimization,“ International Workshop on Intelligent Systems and Application 1 - 4
Lijuan J. , Lipinig F. 2010 “Webpage categorization based on maximum entropy model,“ 2nd IEEE International Conference on Information Management and Engineering (ICIME)