Advanced
Language Identification by Fusion of Gabor, MDLC, and Co-Occurrence Features
Language Identification by Fusion of Gabor, MDLC, and Co-Occurrence Features
Journal of Korea Multimedia Society. 2014. Mar, 17(3): 277-286
Copyright © 2014, Korea Multimedia Society
  • Received : September 26, 2013
  • Accepted : December 18, 2013
  • Published : March 28, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
익훈 장
정회원, 경운대학교 항공전자공학과
지홍 김
정회원, 동의대학교 영상정보공학과

Abstract
본 논문에서는 Gabor 특징과 MDLC 특징, 그리고 co-occurrence 특징의 융합에 의한 질감 특징 기반 언어 인식 방법을 제안한다. 제안된 방법에서는 먼저 시험 영상에 Gabor 변환에 이은 크기 연산자를 적용하여 Gabor 크기 영상을 얻고 그 통계치를 계산하여 결과를 벡터화한다. 이어서 MDLC 연산자를 이용하여 MDLC 영상을 얻고 역시 그 통계치를 계산하여 벡터화한다. 다음으로 시험 영상으로부터 GLCM을 계산하고 이를 이용하여 co-occurrence 특징을 계산한 다음 벡터화한다. 이들 Gabor, MDLC, co-occurrence 특징에 의한 벡터들은 벡터 융합에 의하여 특징 벡터로 사용된다. 분류 단계에서는 얼굴 인식에 주로 사용되는 WPCA를 분류기로 하여 시험 특징 벡터와 가장 유사한 학습 특징 벡터를 찾는다. 제안된 방법의 성능은 15개국 언어의 문서를 스캔하여 얻은 시험 문서 영상 DB에 대한 평균 인식률을 조사하여 알아본다. 실험 결과 제안된 방법은 시험 DB에 대하여 비교적 낮은 특징 벡터 차원으로 매우 우수한 언어 인식 성능을 보여준다.
Keywords
1. 서 론
최근 컴퓨터와 모바일 단말기 등의 IT(정보기술)기기와 그 관련 기술이 비약적으로 발전함에 따라 문서를 IT 기기로 저장하여 관리하는 경우가 많아지고 있다. 이러한 문서 관리 방법 중 하나로 문서 영상을 획득하여 OCR로 그 문자 정보를 인식하여 저장, 관리하는 방법이 있다. OCR로 문자를 인식하는 경우에는 여러 OCR 엔진 중에서 인식하고자 하는 언어에 해당하는 엔진을 사용자가 직접 선택하거나 IT기기에서 언어를 인식하여 자동으로 선택할 수 있다. 세계가 글로벌화되면서 여러 언어로 된 문서를 접할 기회가 많아지고 문서의 분량도 매우 방대해지고 있어서 후자의 방법이 더 효율적인 것이 되고 있다 [1] .
문서 영상에서의 문자 인식의 전단계로 사용하기 위한 언어 인식에 관한 기존의 방법들은 언어 별로 문자가 서로 다른 구조를 갖는 점에 근거한 문자 화소의 통계적 특징(statistical feature)을 이용하는 방법 [2 - 4] 과 문자 영상으로부터 추출한 질감 특징(texture feature)을 이용하는 방법 [5 - 11] 이 주류를 이루어왔다.
Hochberg 등 [2] 은 각 언어 별로 자주 사용되는 단어의 형태를 찾아내어 클러스터링(clustering) 시킨 다음 클러스터별 대표 틀(template)을 생성하고 인식하고자 하는 언어와 가장 유사한 클러스터를 찾아내어 해당 언어를 인식된 언어로 하였다. 이 방법에서는 13개국 언어를 인식하였다. Spitz [3] 는 문자의 윗방향 요면(upward concavity)의 수직적 분포, 이진화된 문자 셀(character cell)의 정규화된 화소 분포, 그리고 단어 형태의 발생 빈도를 이용하여 6개국 언어를 인식하였다. Shijian과 Tan [4] 은 문서 영상을 문자 또는 단어의 형태와 발생 빈도를 특정지우는 문서 벡터(document vector)로 만든 다음 가장 유사한 벡터를 찾는 방식으로 언어를 인식하는 방법을 제안하였다. 이 방법은 6개국 언어에 대한 실험에서 잡음과 왜곡이 있는 문서 영상에서도 우수한 성능을 보이는 것으로 알려졌다.
질감 특징을 이용한 언어 인식 방법에서는 각 언어의 문자가 시각적으로 다르게 나타난다는 사실에 근거하여 문서 영상으로부터 문자 블록을 얻은 다음 이를 질감 패턴으로 보고 그 특징을 추출하여 질감 분류(texture classification) 방식으로 언어를 인식한다 [5 - 11] . 그러므로 질감 특징을 이용한 방법에서 가장 중요한 것은 각 언어에 해당하는 문자를 표현할 수 있는 특징을 추출하는 것이라고 할 수 있다. 언어 인식을 위한 기존의 질감 특징으로는 Gabor, GLCM(gray-level co-occurrence matrix)에 의한 co-occurrence, BDIP(block difference of inverse probabilities)와 BVLC(block variance of local correlation coefficients), MDLC(multi-lag directional local correlation) 등이 있다.
Gabor 필터는 가우시안(Gaussian) 함수를 복소지수 함수로 변조한 함수를 모 함수(mother function)로 하여 이를 스케일링(scaling)하고 회전하여 얻어진다 [12] . 이는 방향성과 주파수 선택성을 가지며 영상에서 국부적인 특정 주파수 성분과 방향성 정보를 효과적으로 표현할 수 있다. Gabor 필터는 질감 분류를 위한 특징 추출로 많이 사용되어 왔으며 [13] , 언어 인식을 위한 질감 특징 추출로 가장 많이 사용된 것으로 알려져있다 [1] . Pearke와 Tan [5] 은 기존의 질감 분류에서 많이 사용되는 Gabor 필터를 이용하여 문서 영상에서 질감 특징을 추출하였다. Tan [6] 은 Gabor 필터를 이용하여 회전(rotation)에도 변하지 않는 질감 특징을 추출하였고, Chan과 Coghill [7] 또한 Gabor 필터를 이용하였다. [5] 에서는 7개국 언어, [6] 에서는 6개국 언어, [7] 에서는 16개국 언어를 각각 인식하였다.
GLCM [14] 은 두 화소간의 결합 통계치로서 질감 분류, 얼굴 인식, 언어 인식 등을 위한 특징 추출에 많이 이용되어 왔다. [5] 에서는 GLCM의 일부 원소들로 구성되는 co-occurrence 특징을 언어 인식에 사용하였다. Busch 등 [8] 은 Wouver 등 [15] 이 질감 분류(texture classification)에 적용한 8개의 통계치에 의한 co-occurrence 특징 중에서 7개를 도입하고 여기에 1개의 특징을 추가하여 구성된 8개의 특징을 언어 인식에 적용한 바 있다. 이 특징들은 웨이브렛 영역에서 로그 연산자와 함께 사용하여 추출되었으므로 WLC(wavelet log co-occurrence)라고 명명되었다. Hiremath와 Shivashankar [9] 는 GLCM에 의한 3개의 통계치를 co-occurrence 특징으로 선택하고 이를 웨이브렛 영역에서 추출하여 언어를 인식하고자 하였다. [8] [9] 에서는 8개국 언어를 각각 인식하였다.
BDIP와 BVLC는 영상의 국부적인 밝기 변화와 질감의 평활성에 관련된 질감 특징을 각각 추출한다 [10] . 이들 연산자는 언어 인식 뿐만 아니라 질감 분류와 영상 검색, 얼굴 인식, 관심영역 결정(ROI determination)에도 적용되어 우수한 성능을 보여주었다. MDLC는 영상의 국부영역에서 방향과 거리차(lag)에 따른 상관계수를 얻는 연산자이며 국부 영역에서 밝기의 유사성을 효과적으로 표현한다 [11] . MDLC는 얼굴 인식을 위하여 제안되었으며 언어 인식에도 우수한 성능을 보여주었다. 언어 인식에 대한 전반적인 개요는 [1] 을 참조하면 된다.
질감 특징은 여러 가지 특징을 융합하여 사용할 수 있다. 이러한 특징 융합에 의한 질감 분류 방법은 사용되는 특징 벡터의 차원이 커지면 계산량이 증가하고 경우에 따라서는 성능이 오히려 감소할 수 있다. 따라서 질감 분류 방법에 사용되는 방법을 문자영상에 적용할 때는 특징 벡터의 차원을 고려하여 가능하면 낮은 차원의 특징으로 높은 인식률을 보이도록 하여야 한다. 그러기 위해서는 문자 영상의 특성을 잘 표현하면서 융합되었을 때 특징 벡터가 상호 보완하면서 시너지 효과를 얻을 수 있고 차원은 낮은 질감 특징들을 선택하여야 한다. 본 저자 등 [10] 은 Gabor 특징과 웨이브렛 영역의 BDIP와 BVLC 특징을 융합하여 언어 인식에 적용한 바 있다. 그리고 Gabor 특징과 MDLC 특징을 융합한 언어 인식 [11] 도 제안하여 [10] 에서 제안한 방법보다 성능이 우수한 것을 실험으로 보인 바 있다. [10] [11] 에서는 각각 10개국 언어를 인식하였다.
본 논문에서는 Gabor 특징과 MDLC 특징에 영상내의 화소 간의 통계적 특성 8가지를 표현하여 이들 특징과는 그 특성이 다르고 벡터 차원도 낮은 co-occurrence 특징을 융합한 질감 특징 기반 언어 인식 방법을 제안한다. 제안된 방법에서는 먼저 시험 영상에 질감 분류에 우수한 성능을 보이는 것으로 알려진 Manjunath와 Ma [12] 가 제안한 Gabor 필터에 이은 크기 연산자를 적용하여 국부적인 특정 주파수 성분과 방향성 정보와 관련된 질감 특징을 추출한다. 그리고 시험 영상에 MDLC 연산자를 적용하여 국부 영역에서 밝기의 유사성에 관련된 질감 특징을 추출한다. 이어서 추출된 Gabor 크기 영상과 MDLC 영상 특징의 전역 평균과 표준 편차를 구하고 이들을 각 특징별로 모아서 벡터화한다. 이어서 co-occurrence 특징을 추출하고 이들을 벡터화하여 Gabor와 MDLC 특징에 의한 벡터와 융합하여 얻어지는 벡터를 특징 벡터로 사용한다. 분류기로는 얼굴 인식에 주로 사용되는 것으로 알려진 WPCA(whitened principal component analysis) [16] 를 사용한다.
2. 질감 특징을 이용한 언어 인식과 질감 특징
- 2.1 질감 특징을 이용한 언어 인식
그림 1 은 기존의 질감 특징을 이용한 문서 영상에서의 언어 인식의 블록도를 보여준다. 편의상 학습(training)을 위한 영상 DB에는 K 개의 언어를 가지면서 각 언어별로는 J 개의 영상이 포함된 것으로 하자. 먼저 학습 단계에서는 영상 DB에 저장되어 있는 각 영상 I k, j , k =1,⋯, K , j =1,⋯, J 로부터 질감 특징을 추출한 다음 이들로 부터 특징 벡터 f k , j 를 생성한다. 기존의 학습에서는 주로 특징 벡터 f k , j 를 평균하여 각 언어에 대한 대표 특징 벡터 집합 {
PPT Slide
Lager Image
| k =1,⋯, K }를 얻는다. 그리고 필요하다면 특징 벡터에 대한 공분산 행렬 집합 {C k | k =1,⋯, K }를 계산하고 통계치를 특징 DB에 저장한다. 시험(test) 단계에서는 언어 인식을 위한 시험 영상 I 가 들어오면 이로부터 특징 벡터 f 를 추출하고 분류기에서 다음과 같이 DB에 저장되어 있는 특징 벡터 {
PPT Slide
Lager Image
| k =1,⋯, K } 중에서 f 와 가장 유사한 벡터
PPT Slide
Lager Image
를 찾아 그 인자(index) c 를 출력한다.
PPT Slide
Lager Image
PPT Slide
Lager Image
기존의 질감 특징을 이용한 언어 인식의 블록도
여기서 d ( ・ )는 두 벡터간의 거리(distance)를 나타낸다. 이때 c 는 인식된 언어의 인자가 된다. 그리고 계산된 공분산 행렬 C k 는 (1)식의 거리 d ( ・ )의 측정에 사용될 수가 있다.
- 2.2 Gabor 특징
2차원 Gabor 필터에서는 다음과 같이 표현되는 가우시안 함수를 복소 지수 함수로 변조한 함수를 모함수로 사용한다 [12] .
PPT Slide
Lager Image
여기서 σx σy 는 가우시안 함수의 표준편차를 나타내며 모 함수의 주파수 대역을 정하는 상수로 사용된다. 그리고 W 는 변조 주파수를 나타내며 모 함수의 중심 주파수를 정하는 상수로 사용된다. Gabor필터는 다음과 같이 (2)식의 모 함수 g ( x , y )를 스케일링하고 회전하여 얻어진다.
PPT Slide
Lager Image
여기서 a ( a >1) 는 스케일링을 위한 상수, m ( m =0,⋯, M -1)은 스케일 인자, 그리고 n ( n =0,⋯, N -1)은 회전 인자를 각각 나타낸다. 그리고 x' = a m ( x cos θn y sin θn ), y' = a m (- x sin θn y cos θn ), θn = / N 이다. (2)식과 (3)식에서 보면 Gabor 필터 g m,n ( x , y )의 주파수 대역은 가우시안 함수의 표준편차 σx σy , 그리고 스케일 인자 m 에 의하여 결정되고, 중심 주파수는 변조 주파수 W 에 의하여 결정되며, 방향성은 회전 인자 n 에 의하여 결정된다는 것을 알 수 있다. 영상 I 에 대한 Gabor 변환은 (3)식의 Gabor 필터 g m,n ( x , y )를 I 에 적용하여 얻어지며, Gabor 특징은 Gabor 변환 영상 GI ={ G (m,n) , m =0,⋯, M -1, n =0,⋯, N -1}에 크기 연산자(magnitude operator)를 적용하여 얻은 영상 G 로부터 추출된다.
- 2.3 MDLC 특징
공간 영역의 MDLC를 표현하기 위하여 영상 I 의 화소 p =( x , y )에서의 밝기 값을 Ip 로 하고, 화소 p 를 중심으로 하는 국부 영역을 Rp 로 하자. 그러면 Rp 내에서의 국부 평균과 분산은 다음과 같이 표현된다.
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 E [ ・| ・]는 조건 기대치 연산자(conditional expectation operator)를 나타낸다. (4)식과 (5)식의 두 통계치를 이용하여 화소 p p 에서 거리차가 r 이고 방향은 단위 방향 벡터(unit direction vector) d 의 방향인 화소와의 방향성 국부 상관(DLC: directional local correlation)을 다음과 같이 표현할 수 있다.
PPT Slide
Lager Image
여기서 r 은 화소 p p rd 사이의 Manhattan 거리를 나타낸다. 그리고 μ p+rd σ p+rd 는 국부 영역 R p+rd 내에서의 국부 평균과 표준 편차를 각각 나타낸다. 국부 영역으로는 3×3 크기의 창(window)이 주로 사용되고, 단위 방향 벡터로는 그림 2 (a)와 같은 8방향 벡터가 주로 사용된다.
PPT Slide
Lager Image
단위 벡터와 여러 거리차에 따른 방향성 화소의 구성 예: (a) 8방향 단위 벡터, (b) L=3, N=8인 경우의 여러 거리차에 따른 방향성 화소의 구성
MDLC는 (6)식의 DLC를 이용하여 다음과 같이 표현된다 [11] .
PPT Slide
Lager Image
여기서 l n 은 거리차와 방향 인자를 각각 나타낸다. 그림 2 (b)에서는 거리차의 수 L =3과 방향 벡터의 수 N =8일 때 화소 p 를 중심으로 하는 여러 거리차에 따른 방향성 화소들을 보여준다. 식 (6)과 (7)에서 보면 MDLC는 거리차와 방향에 따른 정규화된 국부 상관을 나타낸다는 것을 알 수 있다. MDLC 특징은 MDLC 영상 M ={ ρp (r,d) }로부터 추출된다.
- 2.4 GLCM과 Co-Occurrence 특징
밝기 값이 각각 i j 이면서 거리가 r 이고 각도가 θ 인 임의의 두 화소 간의 결합 확률 질량 함수(joint probability mass function)를 P ( i , j ; r , θ )라 하자. 그러면 GLCM은 결합 확률 질량 함수의 추정치
PPT Slide
Lager Image
( i , j ; r , θ )를 일컬으며, GLCP(GLC probability)라고도 한다 [14] . 평균 GLCM
PPT Slide
Lager Image
( i , j )는 다음과 같이 추정된 결합 확률 질량 함수
PPT Slide
Lager Image
( i , j ; r , θ )를 모든 가능한 ( r , θ )에 대하여 평균하여 얻어진다.
PPT Slide
Lager Image
[14] 에서는 GLCM으로부터 얻게 되는 엔트로피(entropy), 분산(variance), 모멘트(moment), 상관(correlation) 등의 28가지 질감 특징을 제안하였다. 그리고 Holmes 등 [17] 도 GLCM을 이용하여 질감 특징을 추출하였다. GLCM을 이용하여 얻어지는 특징은 co-occurrence 특징이라고도 한다. [8] 에서는 표 1 에서 보여주는 에너지, 엔트로피, 관성(inertia), 대비(contrast), 국부 균질성(local homogeneity), 클러스터 색조(cluster shade), 클러스터 중요성(cluster prominence), 상관의 정보 척도(information measure of correlation)의 8개의 통계치를 co-occurrence 특징으로 사용하였다. 본 논문에서는 표 1 의 co-occurrence 특징을 도입한다.
GLCM을 이용한 8개의 co-occurrence 특징[8]
PPT Slide
Lager Image
GLCM을 이용한 8개의 co-occurrence 특징[8]
3. 제안된 질감 특징을 이용한 언어 인식
그림 3 은 제안된 질감 특징을 이용한 문서 영상에서의 언어 인식의 블록도를 보여준다. 언어 인식을 위한 시험 영상 I 가 들어오면 먼저 Gabor 변환을 수행하여 Gabor 영상 GI 를 얻고, GI 에 크기 연산자를 적용하여 얻은 영상 G 로부터 통계치를 계산하여 그 결과를 특징 벡터 f G 로 만든다. 다음으로 영상 I 에 대하여 MDLC 연산자를 적용하여 MDLC 영상 M 을 얻고 이들로부터 통계치를 계산하여 그 결과를 특징 벡터 f M 으로 만든다. 이어서 I 로부터 co-occurrence 특징을 계산하여 특징 벡터 f C 로 만든다. 이들 특징 벡터 f G , f M , f C 들은 벡터 융합을 거쳐 최종 특징 벡터 f를 생성한다. 분류기에서는 특징 DB에 저장되어 있는 대표 특징 벡터 {
PPT Slide
Lager Image
| k =1,⋯, K } 중에서 f와 가장 유사한 벡터
PPT Slide
Lager Image
를 찾아 그 인자 c 를 출력한다.
PPT Slide
Lager Image
제안된 언어 인식의 블록도
- 3.1 특징 벡터의 생성
특징 벡터 f G 를 생성하기 위하여 먼저 m 번째 스케일 n 번째 회전 방향에서의 Gabor 크기 영상 | G (m,n) |으로부터 전역 평균 μ G (m,n) 과 전역 표준 편차 σ G (m,n) 을 계산하고 그 결과를 다음과 같이 벡터화하여 f G (m,n) 을 얻는다.
PPT Slide
Lager Image
이어서 다음과 같이 모든 m n 에 대하여 얻어지는 벡터를 모아서 f G 를 생성한다.
PPT Slide
Lager Image
특징 벡터 f M 을 생성하기 위해서는 거리차가 r 이고 방향이 d 벡터 방향인 MDLC 영상 M (r,d) 로부터 전역 평균 μ M(r,d) 와 전역 표준 편차 σ M(r,d) 를 계산하고 그 결과를 다음과 같이 벡터화하여 f M(r,d) 를 얻는다.
PPT Slide
Lager Image
그리고는 다음과 같이 모든 r d 에 대하여 얻어지는 벡터를 모아서 f M 을 생성한다.
PPT Slide
Lager Image
특징 벡터 f C 는 8개의 co-occurrence 특징을 모아서 생성된다.
- 3.2 벡터 융합
특징 벡터 f G , f M , f C 는 그 값의 분포 범위가 서로 다를 수 있으므로 이들을 융합하되 그 값의 분포 범위가 같도록 각각 정규화(normalization)하면 효율적인 언어 인식이 되도록 할 수 있다. 이를 위하여 먼저 특징 벡터 f G , f M , f C 를 다음과 같이 모아서 융합된 특징 벡터
PPT Slide
Lager Image
를 얻는다.
PPT Slide
Lager Image
Gabor 크기 영상의 전역 통계치로 주어지는 f G 는 Gabor 크기 영상이 스케일과 방향별로 그 값의 분포 범위가 거의 같이 주어지므로 f G 의 원소들은 서로 비슷한 분포 범위를 갖는다. f M 도 MDLC 영상이 방향과 거리차에 따라 그 값의 분포 범위가 거의 같으므로 그 원소들이 거의 비슷한 분포 범위를 갖는다. 그러므로 f G 와 f M 은 각각 모든 원소에 대하여 동일한 값으로 정규화한다. 서로 다른 성격의 통계치로 주어지는 f C 는 원소들이 서로 다른 분포 범위를 가질 수 있다. 따라서 f C 는 각 원소에 대하여 서로 다른 값으로 정규화한다.
이러한 점을 고려하여 융합된 특징 벡터
PPT Slide
Lager Image
는 다음과 같이 특징 벡터 f G , f M , f C 의 표준 편차 벡터 σG , σM , σC 로 정규화한다.
PPT Slide
Lager Image
여기서 Σ = diag [ σG , σM , σC ]이다. 이때 σG 는 학습단계에서 k 번째 언어에 대한 Gabor 특징 벡터 f Gk 의 표준 편차 벡터 σGk k 에 대하여 평균하여 얻은 벡터 E [ σGk | k ]의 각 원소를 스칼라 평균한 값 σG 로 이루어진 벡터이다. 즉 σG = σG 1이다. 그리고 σM 도 MDLC 특징 벡터 f Mk 에 대하여 σG 와 같은 방식으로 주어지는 벡터이다. σC σG , σM 과 달리 모든 원소가 다른 값을 갖으며, 학습단계에서 k 번째 언어에 대한 co-occurrence 특징 벡터 f Ck 의 표준 편차 벡터 σCk k 에 대하여 평균하여 얻은 벡터 E [ σCk | k ]이다.
- 3.3 WPCA를 이용한 분류기
DB 내의 k 번째 언어에 해당하는 대표 특징 벡터로서 J ×1 차원을 갖는
PPT Slide
Lager Image
에 대한 WPCA는
PPT Slide
Lager Image
에 대한 PCA 과정과 화이트닝(whitening) 과정으로 구성된다 [16] . 편의상 대표 특징 벡터
PPT Slide
Lager Image
의 공분산 행렬을 C k 로 표시하고, 내림차순으로 정렬된 C k 의 고유치와 고유 벡터를 각각 {λ k,i | i =1,⋯, U }와 { ϕ k,i | i =1,⋯, U }로 표시하자. 그러면 대표 특징 벡터
PPT Slide
Lager Image
에 대한 WPCA는 다음과 같이 주어진다.
PPT Slide
Lager Image
여기서 Փk
PPT Slide
Lager Image
는 각각 다음과 같이 고유 벡터로 이루어진 행렬과 고유치로 이루어진 대각선 행렬을 나타낸다.
PPT Slide
Lager Image
PPT Slide
Lager Image
이때 고유치는 안정화를 위하여 역치 δ 로 클리핑(clipping)되었다. 얼굴 인식에 사용되는 WPCA에서는 공분산 행렬을 모든 클래스에서 얻고 역치 보다 큰 고유치에 해당하는 고유 벡터만을 사용한다. 반면에 본 논문에서 사용하는 WPCA에서는 공분산 행렬을 각 클래스, 즉 각 언어에서 얻고 해당 언어의 모든 고유벡터를 사용한다.
본 논문에서 사용하는 WPCA를 이용한 분류기에서 시험 영상 I 의 특징 벡터 f와 k 번째 언어에 해당하는 대표 특징 벡터
PPT Slide
Lager Image
의 거리는 (15)식과 같은 방식으로 주어지는 f에 대한 WPCA ykts 와 (15)식의
PPT Slide
Lager Image
사이의 cosine 거리로서 다음과 같이 표현된다.
PPT Slide
Lager Image
여기서 ykts 는 다음과 같이 주어진다.
PPT Slide
Lager Image
그리고 ・ 는 벡터의 내적(inner product)을 나타내고, ║ ・║는 벡터의 크기를 나타낸다.
4. 실험 결과 및 검토
본 논문에서 제안된 언어 인식 방법의 성능을 평가하기 위하여 영어, 프랑스어, 그리스어, 베트남어, 러시아어, 몽골어, 히브리어, 페르시아어, 에티오피아어, 힌디어, 말라야람어, 태국어, 중국어, 일본어, 한국어의 15개국 언어에 대하여 문서 영상 DB를 구축하고 시뮬레이션을 수행하였다. 문서 영상 DB를 구축하기 위하여 먼저 각 언어별로 문서를 스캔하여 모 영상(mother image)을 획득하였다. 이때 각 모 영상에는 두 가지의 폰트를 가지며 각 폰트 별로 정상적인 영상, 1.5도와 3.0도 만큼 회전된 영상, 그리고 0.8:1로 스케일링 된 영상의 총 8종류의 영상을 가지도록 하였다. 각 모 영상은 128×128 크기의 영상으로 50장씩 나누어져 각 언어 별로 총 400장의 영상을 갖도록 하였다. 이때 각 언어별 400장의 영상 중에서 절반인 200장은 시험 영상으로, 나머지 절반인 200장은 학습 영상으로 사용하되 실험 조건에 따라서 학습영상의 수를 24∼56장으로 변화를 주었다. 그림 4 는 실험에 사용된 15개국 언어 영상의 샘플을 보여준다.
PPT Slide
Lager Image
실험에 사용된 15개국 언어 영상의 샘플: 왼쪽 위부터 오른쪽 아래 순서로 영어, 프랑스어, 그리스어, 베트남어, 러시아어, 몽골어, 히브리어, 페르시아어, 에티오피아어, 힌디어, 말라야람어, 태국어, 중국어, 일본어, 한국어
실험에서는 제안된 언어 인식 방법을 Gabor 특징, co-occurrence 특징 [8] , WLC 특징 [8] , 그리고 MDLC 특징에 의한 방법과 성능 비교를 하였다. 또한 Gabor와 co-occurrence 특징의 융합에 의한 방법과 Gabor와 MDLC 특징의 융합에 의한 방법 [11] 과도 성능 비교를 하였다. 실험에서 사용된 co-occurrece 특징을 위한 GLCM의 거리는 [8] 에서와 같이 r =1,2이고 각도는 θ =0,45,90,135˚ 이다. Gabor 필터를 위한 (2)식과 (3)식의 상수는 σx =0.9809, σy =1.2873, W =0.4, a =2.8284, M =3, N =4로 하였다. MDLC를 위한 거리차의 수는 L =3으로, 방향 벡터의 수는 그림 2 (a)에서 보여준 것의 절반인 N =4로, 국부 창의 크기는 3×3으로 하였다. WPCA에서의 고유치에 대한 역치 δ 는 모든 학습 영상에 대한 고유치를 내림차순으로 정렬한 다음 하위 є %를 역치화 할 수 있는 값으로 결정하였다. 언어 인식 성능의 평가 척도로는 시험 영상의 수에 대한 정확하게 인식된 영상의 수의 비를 나타내는 평균 인식률(AIR: averaged identification rate)을 사용하였다.
그림 5 는 각 언어별 학습 영상의 수에 따른 Gabor 특징에 의한 방법과 특징의 융합에 의한 3가지 방법의 AIR 성능을 보여준다. 그림 5 에서 Gabor+co-occurrence는 Gabor와 co-occurrence 특징의 융합에 의한 방법, Gabor+MDLC는 Gabor와 MDLC 특징의 융합에 의한 방법, 그리고 Gabor+MDLC+co-occurrence는 제안된 Gabor, MDLC, co-occurrence 특징의 융합에 의한 방법을 나타낸다. 이때 WPCA 분류기에서 고유치에 대한 역치 δ 를 위한 є 은 학습 영상의 수에 따라 0.01∼1.1로 선택되었다. 그림 5 에서 보면 Gabor, Gabor+co-occurrence, 그리고 Gabor+MDLC는 각각 91.57%∼94.90%, 95.87%∼98.63%, 98.47%∼99.37%의 AIR 성능을 보인다. 반면에 제안된 Gabor+MDLC+co-occurrence는 99.00%∼99.50%의 성능을 보인다. 이들 결과로부터 제안된 방법은 Gabor 특징에 의한 방법에 비하여 학습 영상의 수에 따라 4.50%∼7.43%의 성능 향상을 가져온다는 것을 알 수 있다. 그리고 Gabor+co-occurrence에 비하여서는 0.77%∼3.13%의 성능 향상을 가져오고, Gabor+MDLC에는 0.03%∼0.53%의 성능 향상을 가져온다는 것을 알 수 있다.
PPT Slide
Lager Image
각 언어별 학습 영상의 수에 따른 Gabor 특징에 의한 방법과 특징 융합에 의한 3가지 방법들의 AIR 성능
표 2 그림 5 의 결과에서 제안된 방법의 성능이 가장 우수한 성능을 보인 학습 영상의 수가 48인 경우의 각 특징에 따른 AIR 성능을 보여준다. 표 2 에서 보면 co-occurrence 특징은 64.53%, MDLC 특징은 90.53%, WLC 특징은 92.30%, 그리고 Gabor 특징은 94.47%의 AIR 성능을 각각 보인다. 융합된 Gabor+co-occurence 특징은 98.30%, Gabor+MDLC 특징은 99.23%의 성능을 보인다. 반면에 제안된 Gabor+MDLC+co-occurrence 특징은 99.50%의 AIR 성능을 보여 co-occurrence 특징에는 34.97%, MDLC 특징에는 8.97%, WLC 특징에는 7.20%, Gabor 특징에는 5.03%, 그리고 Gabor+co-occurence 특징에는 1.20%의 성능 향상을 가져온다는 것을 알 수 있다. 또한 Gabor+MDLC 특징에는 0.27%의 성능 향상을 보여 co-occurrence 특징이 Gabor+MDLC 특징에 융합됨으로써 그 만큼의 성능 향상을 가져왔음을 알 수 있다.
각 언어 별 학습 영상의 수가 48인 경우의 각 특징별 AIR 성능
PPT Slide
Lager Image
각 언어 별 학습 영상의 수가 48인 경우의 각 특징별 AIR 성능
표 3 은 각 언어별 학습 영상의 수가 48인 경우에 제안된 방법의 분류 행렬(confusion matrix)을 보여준다. 표 3 에서 보면 제안된 방법이 영어, 프랑스어, 그리스어, 베트남어, 중국어, 일본어, 한국어에 대하여 0.5%∼2.5%의 에러를 보이고, 러시아어, 몽골어, 히브리어, 페르시아어, 에티오피아어, 힌디어, 말라야람어, 태국어의 8개국어에 대하여는 에러가 없다는 것을 알 수 있다. 이상의 결과들로부터 제안된 방법은 특징 벡터의 차원이 비교적 낮은 56이면서도 매우 우수한 언어 인식 성능을 보인다는 것을 알 수 있다.
각 언어 별 학습 영상의 수가 48인 경우의 제안된 방법에 대한 분류 행렬, 여기서 AL은 실제 언어, IL은 인식된 언어를 나타낸다
PPT Slide
Lager Image
각 언어 별 학습 영상의 수가 48인 경우의 제안된 방법에 대한 분류 행렬, 여기서 AL은 실제 언어, IL은 인식된 언어를 나타낸다
5. 결 론
본 논문에서는 Gabor 특징, MDLC 특징, co-occurrence 특징의 융합에 의한 문서 영상에서의 질감 특징 기반 언어 인식 방법을 제안하였다. 제안된 방법에서는 특정 주파수 성분과 방향성 정보와 관련된 질감 특징을 추출하는 Gabor 특징과 국부적인 밝기의 유사성과 관련된 특징을 추출하는 MDLC 특징에 영상 내의 화소 간의 통계적 특성 8가지를 표현하는 co-occurrence 특징을 융합한 것을 질감 특징으로 사용하였고 분류기로는 WPCA를 사용하였다. 실험 결과 제안된 방법은 15개국 언어로 이루어진 실험 문서 영상 DB에 대하여 학습 영상의 수에 따라 99.00%∼99.50%의 AIR 성능을 보여 Gabor 특징에 비하여 4.50%∼7.43%의 성능 향상을 보였고, Gabor 특징과 MDLC 특징의 융합에 의한 방법 보다는 0.03%∼0.53%의 성능 향상을 보여주었다. 그리고 기존의 co-occurrence 특징, WLC 특징, 웨이브렛 영역의 BDIP와 BVLC 특징, 그리고 MDLC 특징에 의한 방법 보다는 월등한 성능 향상을 보였다.
BIO
장 익 훈
1986년 2월 경북대학교 전자공학과 공학사
1988년 2월 경북대학교 전자공학과 공학석사
1998년 8월 경북대학교 전자공학과 공학박사
1988년 2월~1994년 2월 국방과학연구소 연구원
1998년 3월~현재 경운대학교 항공전자공학과 부교수
관심분야 : 영상처리, 컴퓨터비젼 등
김 지 홍
1986년 2월 경북대학교 전자공학과 공학사
1988년 2월 경북대학교 전자공학과 공학석사
1996년 8월 POSTECH 전자전기공학과 공학박사
1988년 2월~1997년 2월 한국전자통신연구원 선임연구원
2008년 미국 조지아공대 방문교수
2002년 3월~현재 동의대학교 영상정보공학과 교수
관심분야 : 영상통신, 의료영상, 컴퓨터비젼
References
Ghosh D. , Dube T. , Shivaprasad A.P. 2010 “Script Recognition-a Review” IEEE Trans. Pattern Anal. Mach. Intell. 32 (12) 2142 - 2161    DOI : 10.1109/TPAMI.2010.30
Hochberg J. , Kerns L. , Kelly P. , Thomas T. 1997 “Automatic Script Identification from Document Images using Cluster-based Templates” IEEE Trans. Pattern Anal. Mach. Intell. 19 (2) 176 - 181    DOI : 10.1109/34.574802
Spitz A.L. 1997 “Determination of the Script and Language Content of Document Images” IEEE Trans. Pattern Anal. Mach. Intell. 19 (3) 235 - 245    DOI : 10.1109/34.584100
Shijian L. , Tan C.L. 2008 “Script and Language Identification in Noisy and Degraded Document Images” IEEE Trans. Pattern Anal. Mach. Intell. 30 (1) 14 - 24    DOI : 10.1109/TPAMI.2007.1158
Pearke G.S. , Tan T.N. 1997 “Script and Language Identification from Document Images” Proc. the IEEE Workshop Document Image Anal. 10 - 17
Tan T.N. 1998 “Rotation Invariant Texture Features and Their use in Automatic Script Identification” IEEE Trans. Pattern Anal. Mach. Intell. 20 (7) 743 - 756    DOI : 10.1109/34.689305
Chan W. , Coghill G. 2001 “Text Analysis using Local Energy” Pattern Recognit. 34 (12) 2523 - 2532    DOI : 10.1016/S0031-3203(00)00155-2
Busch A. , Boles W.W. , Sridharan S. 2005 “Texture for Script Identification” IEEE Trans. Pattern Anal. Mach. Intell. 27 (11) 1720 - 1732    DOI : 10.1109/TPAMI.2005.227
Hiremath P.S. , Shivashankar S. 2008 “Wavelet Based Co-occurrence Histogram Features for Texture with an Application to Script Identification in a Document Image” Pattern Recognit. Lett. 29 (9) 1182 - 1189    DOI : 10.1016/j.patrec.2008.01.012
장 익훈 2011 전자공학회논문지 SP편 48 (4) 72 - 82
Jang I.H. , Kim N.C. , Park M.H. 2011 “Texture-feature Based Language Identification using Gabor and MDLC Features” Proc. the IEEE Int. Conf. Multimedia Expo
Manjunath B.S. , Ma W.Y. 1996 “Texture Features for Browsing and Retrieval of Image Data” IEEE Trans. Pattern Anal. Mach. Intell. 18 (8) 837 - 842    DOI : 10.1109/34.531803
김 원희 2007 한국멀티미디어학회논문지 10 (9) 1125 - 1134
Haralick R.M. , Shanmugam K. , Dinstein I. 1973 “Textural Features for Image Classification” IEEE Trans. Syst., Man, Cybern. SMC-3 (6) 610 - 621    DOI : 10.1109/TSMC.1973.4309314
Wouver G.V. , Scheunders P. , Dyck D.V. 1999 “Statistical Texture Characterization from Discrete Wavelet Representation” IEEE Trans. Image Process. 8 (4) 592 - 598    DOI : 10.1109/83.753747
Liu C. 2007 “The Bayes Decision Rule Induced Similarity Measures” IEEE Trans. Pattern Anal. Mach. Intell. 29 (6) 1086 - 1090    DOI : 10.1109/TPAMI.2007.1063
Holmes Q.A. , Neusch D.R. , Shuchman R.A. 1984 “Textural Analysis and Real-time Classification of Sea-ice Types using Digital SAR Data” IEEE Trans. Geosci. Remote Sensing GE-22 (2) 113 - 120    DOI : 10.1109/TGRS.1984.350602