Advanced
Design of Robust Face Recognition System to Pose Variations Based on Pose Estimation : The Comparative Study on the Recognition Performance Using PCA and RBFNNs
Design of Robust Face Recognition System to Pose Variations Based on Pose Estimation : The Comparative Study on the Recognition Performance Using PCA and RBFNNs
The Transactions of The Korean Institute of Electrical Engineers. 2015. Sep, 64(9): 1347-1355
Copyright © 2015, The Korean Institute of Electrical Engineers
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/)which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
  • Received : November 05, 2015
  • Accepted : August 24, 2015
  • Published : September 01, 2015
Download
PDF
e-PUB
PubReader
PPT
Export by style
Article
Author
Metrics
Cited by
TagCloud
About the Authors
봉 연 김
Dept. of Electrical Engineering, The University of Suwon, Korea
진 율 김
Dept. of Electronic Engineering, The University of Suwon, Korea
성 권 오
Corresponding Author : Dept. of Electrical Engineering, The University of Suwon, Korea E-mail :ohsk@suwon.ac.kr

Abstract
In this study, we compare the recognition performance using PCA and RBFNNs for introducing robust face recognition system to pose variations based on pose estimation. proposed face recognition system uses Honda/UCSD database for comparing recognition performance. Honda/UCSD database consists of 20 people, with 5 poses per person for a total of 500 face images. Extracted image consists of 5 poses using Multiple-Space PCA and each pose is performed by using (2D) 2 PCA for performing pose classification. Linear polynomial function is used as connection weight of RBFNNs Pattern Classifier and parameter coefficient is set by using Particle Swarm Optimization for model optimization. Proposed (2D) 2 PCA-based face pose classification performs recognition performance with PCA, (2D) 2 PCA and RBFNNs.
Keywords
1. 서 론
지문, 손, 얼굴, 홍채, 망막, 정맥 등의 신체적인 특성과 글씨체, 음성, 걸음걸이 등의 행동학적 특성 등 개별적인 생체 특성을 이용해 보안시스템에 활용하는 기술이다. 이러한 생체인식 기술은 네트워크 환경과 정보 발달에 의한 보다 확실하고 정확한 사용자 인식 기술이 필요하고 현재 사용되고 있는 대부분의 인식 기술의 경우 암기를 해야 하거나 분실 및 도용 등 노출이 될 수 있다는 단점이 있다. 하지만 인간의 고유한 신체적 특징을 이용하는 생체인식 기술은 분실 및 도난 등의 문제가 발생하지 않아 네트워크 및 금융 서비스 등 많은 분야에서 사용되고 있다. 얼굴 인식의 경우에는 다른 생체인식 기술과 달리 비접촉식으로 사용자의 불편함이 적다는 장점이 있어 많은 분야에서 연구가 진행 중이다. 따라서 본 연구에서는 제한되지 않은 자연스러운 환경에서 얻은 영상 내의 얼굴 추적 및 인식의 필요성을 인지하여 본 연구를 진행하였다. 기존의 얼굴인식은 고정식 카메라를 정면에 두고 응시해야 하는 통제적인 방법이 사용되고 있기 때문에 사람이 정면을 응시하지 않으면 인식이 불가능 하다는 단점을 가진다. 따라서 성능이 개선된 얼굴인식을 위해서는 다양한 크기의 변화와 포즈의 변화에 대해 얼굴의 위치를 추적할 수 있어야 하며, 정면이 아닌 포즈를 사용하여도 대상의 얼굴을 인식하도록 하였다.
본 논문에서는 동영상에서 추출한 Honda/UCSD와 IC&CI 데이터베이스를 이용하여 2차원 얼굴인식을 수행한다. 데이터베이스와 인식성능 확인을 위한 테스트 데이터의 포즈 추정을 하기 위해 전처리 기법인 (2D) 2 PCA를 사용하여 각각의 포즈를 추정하였다. 그리고 분류된 2차원 얼굴 데이터는 PCA와 다항식 기반 RBFNNs 패턴분류기의 인식 성능 비교를 위해 각각의 입력 데이터로 사용된다. PCA 기반 얼굴인식 알고리즘을 사용하여 얼굴인식을 수행할 때 PCA의 인식성능 저하를 극복하기 위하여 (2D) 2 PCA도 사용한다. 다음은 분류된 포즈기존 RBFNNs 패턴분류기를 확장한 다항식 기반 RBFNNs 패턴분류기는 FCM(Fuzzy C-Means)알고리즘을 통해 은닉층 활성함수의 형태를 표현하여 패턴분류기의 전반부 구조 동정을 수행한다. 상수항이었던 연결 가중치의 값은 일차식, 이차식, 변형된 이차식과 같은 3가지 다항식의 형태로 확장하여 후반부 구조 동정을 수행하며, 이와 같은 다항식 형태의 연결가중치를 사용함으로서 퍼지 규칙과 같은 언어적 관점에서의 해석이 가능해졌다. 후반부 파라미터 동정은 각 규칙에 대한 파라미터를 독립적으로 구하는 WLSE 방법을 사용하였다. 빠른 학습 속도와 높은 인식 성능을 위한 파라미터 최적화는 입자 군집 최적화 알고리즘(Particle Swarm Optimization)을 통해 수행하였다.
본 논문의 2장에서는 2차원 얼굴인식 시스템의 구성에 대해 설명한다. 3장과 4장에서는 포즈 추정과 인식성능을 구현하기 위한 차원축소 알고리즘에 대해 설명하며, 이를 이용한 포즈분류 및 추정을 설명한다. 5장과 6장에서는 패턴분류기의 구조 설계를 위한 파라미터 최적화를 구성 및 다항식 기반 RBFNNs 패턴분류기에 대해 설명한다. 마지막으로 7장에서는 Honda/UCSD와 IC&CI 데이터베이스를 이용한 실험 및 결과 고찰에 대하여 설명한다.
2. 차원 축소 알고리즘
차원 이미지는 본래의 이미지 그대로 얼굴 인식 시스템에 입력하여 사용할 경우 고차원 데이터로 인식 속도 및 성능의 저하가 발생하게 된다. 따라서 인식을 수행하기 전에 차원 축소 알고리즘을 수행하여 획득한 데이터를 저차원 데이터로 축소하여야 한다. 본 논문에서는 PCA 알고리즘과 (2D) 2 PCA 알고리즘을 이용하여 포즈 추정을 위한 특징값 추출 및 인식성능 산출을 위해 이를 진행하였다.
- 2.1 주성분 분석법(PCA : Principal Component Analysis)
영상에서 추출된 이미지는 2차원의 영상 이미지이고, 고차원의 데이터를 가지고 있기 때문에 학습성능 및 속도를 향상시키기 위해서 대표적인 차원축소 알고리즘인 주성분분석법(PCA)을 사용하여 차원을 축소한다. PCA는 고차원의 특징벡터를 저차원의 특징벡터로 정보의 손실이 최소화 되도록 차원을 축소시키는 대표적인 알고리즘이다. PCA알고리즘을 이용한 얼굴인식은 얼굴영상의 크기가 N × N 이고 인식 후보 얼굴영상의 개수가 6 M 개 일 때 각 후보 얼굴영상을 6 M개의 7 N 2 × 1 행 벡터로 인식후보의 얼굴벡터 집합을 구성한다. 인식후보들의 얼굴벡터 집합을 사용하여 평균영상을 구할 수 있다. 공분산 행렬을 구하기 위해 학습 영상 벡터와 평균 얼굴영상 벡터의 차 영상벡터를 구한다. 이 결과는 7 N 2 × M행렬이 되며 공분산행렬은 N 2 × N 2 의 차원을 갖는다. 공분산 행렬로부터 M개의 고유 값 λi
PPT Slide
Lager Image
와 이에 대응하는 고유벡터를 계산한다. 여기서 고유 값에서 얻어진 고유벡터를 N × N 로 재배열하면 사람 모양과 닮은 고유 얼굴을 얻을 수 있다. 고유 얼굴은 다음과 같은 식으로 표현되며 고유 얼굴이 완성되면 얼굴인식을 위한 학습단계가 끝나게 된다. 새로운 인식 후보가 들어오게 되었을 때 인식후보들의 평균 벡터를 사용하여 차 벡터를 만들고 그것을 학습 단계에서 만든 고유 얼굴에 투영하여 a각 인식후보들과의 유클리디안 거리가 가장 작게 나오는 사람을 인식 대상으로 판정한다. 본 논문에서는 PCA를 이용한 얼굴인식과 얼굴인식 이전에 필요한 포즈분류에서 사용하였다. 포즈 분류 과정에서는 포즈별로 PCA 공간을 구축하고 테스트 이미지의 유사성을 비교하여 얼굴 포즈를 분류한다. 주성분 분석법의 수행단계는 아래와 같다.
[Step 1] 인식후보의 얼굴 벡터 집합 구성
PPT Slide
Lager Image
[Step 2] 평균과 분산을 기준으로 이미지 정규화 수행
PPT Slide
Lager Image
[Step 3] 평균 얼굴 벡터를 계산
PPT Slide
Lager Image
[Step 4] 인식후보 얼굴 벡터와 평균 얼굴 벡터와의 차이 벡터를 계산
PPT Slide
Lager Image
[Step 5] 인식후보 얼굴에서 공분산 행렬을 계산
PPT Slide
Lager Image
[Step 6] M개의 고유벡터에서 가장 큰 고유값을 갖는 M'개만을 선택
PPT Slide
Lager Image
[Step 7] 각 인식후보 얼굴과 고유벡터와의 사영을 통해 가중치를 획득
PPT Slide
Lager Image
PPT Slide
Lager Image
주성분 분석법(PCA)의 차원축소 Fig. 1 Dimensional Reduction of Principal Component Analysis(PCA)
- 2.2 (2D)2PCA : 2-Directional, 2-Dimensional PCA
(2D) 2 PCA 알고리즘은 행 방향으로 차원을 축소한 (2D)PCA와 열 방향으로 차원을 축소한 (2D)PCA를 결합한 방식으로 2차원 이미지의 특징을 양쪽 방향에서 차원을 축소하는 방법을 말한다. 이렇게 생성된 2개의 특징 행렬들을 이용하여 새로운 인식 후보들이 들어왔을 때 다음과 같은 식으로 표현할 수 있다.
PPT Slide
Lager Image
앞서 설명한 행 방향으로 차원을 줄인 (2D)PCA와 열 방향으로 차원을 줄인 (2D)PCA의 특징 행렬 ) U와 = V 는 행 방향으로km1 × d1K 만큼 차원이 줄어들고, 열 방향으로 Lm 2 × d 2 만큼 차원이 줄어든다. 따라서 x Y 의 행렬의 크기는 Km1 × d 2 L의 크기를 갖는다. 이렇게 행과 열의 특징 벡터 중에서 가장 큰 몇 개의 주성분만을 추출하여 차원을 줄임으로써 2DPCA와 같은 인식률을 가지며 계산하는 차원이 줄어서 연산의 속도가 감소하는 장점이 있다.
3. Multi-Spcae PCA를 이용한 얼굴 포즈 분류
- 3.1 Multi Space PCA를 이용한 데이터 베이스의 구성
얼굴 추적기에서 얻어지는 얼굴 영상 시퀀스를 그대로 얼굴인식에 사용할 경우 포즈변화에 따른 얼굴 이미지의 차이를 고려하지 않으므로 성능의 저하가 불가피하다. 얼굴 인식성능의 향상을 위해서는 추적기에서 추출된 얼굴을 포즈별로 분류하고 분류된 포즈 안에서 얼굴 인식을 해야 한다. 얼굴포즈를 분류하기 위해서는 먼저 다른 사람들의 같은 포즈들을 그림 3 과 같이 yaw 각도(±90°, S±45°, 0°)에 따라 분류한다. 분류된 이미지로 데이터 베이스를 구성하고 각 포즈별로 PCA를 수행하여 포즈별 고유 얼굴 벡터를 갖는 Multi-Space PCA 공간을 구성한다.
PPT Slide
Lager Image
Multi-Space PCA의 구성 Fig. 2 Configuration of Multi-Space PCA
다음으로 테스트하려는 얼굴 이미지를 각 PCA 공간으로 투영하여 그 거리를 계산하고 최소 거리를 갖는 포즈로 분류한다. 이 때 각 포즈별 고유 얼굴 벡터의 모든 성분을 사용하여 포즈를 분류하려 한다면 포즈별 고유 벡터 안에서 잘못된 값으로 매칭되어 포즈가 분류되지 않는다.
따라서 포즈를 분류하기 위해서는 각 포즈별 PCA공간이 가지고 있는 가장 큰 몇 개의 주성분을 추출하고, 추출된 주성분을 테스트 이미지에 투영하여 해당 포즈별 PCA 공간과의 유클리디언 거리가 최소일 때 포즈로 추정한다. 이상을 정리하면 포즈를 분류하는 과정은 다음과 같이 진행된다.
포즈를 분류하는 과정
  • [Step 1] : 각 포즈별로 PCA알고리즘을 실행하여 고유 얼굴 벡터를 생성
  • [Step 2] : 각 포즈의 특징을 나타내는 큰 주성분을 추출
  • [Step 3] : 인식후보의 특징을 각 포즈별 주성분으로 투영하여 가까운 포즈를 찾음
- 3.2 데이터베이스와 유사한 포즈를 갖는 이미지 추출
추출된 각 이미지를 앞서 설명한 3.1절의 방법으로 포즈를 판별하면 5개의 포즈 중 하나로 포즈를 분류할 수 있다. 하지만 분류된 포즈별 데이터베이스 내에서 그대로 얼굴인식을 실행하게 된다면 데이터베이스 속의 학습된 이미지와 판별된 이미지의 포즈각도 차이가 존재하므로 얼굴인식률 하락한다. 이러한 문제점을 해결하기 위해 추출된 이미지가 포즈별 데이터베이스와 유사한 포즈 일 때만 얼굴인식에 사용하도록 하여 동영상 속에서의 얼굴인식의 성능을 개선한다. 대상이 어떤 포즈를 가질 때 다른 포즈들에 대한 거리의 차이는 2차 곡선모양이 되어 추정된 포즈에서 인접한 다른 포즈까지의 거리가 같다고 알려져 있다.
예를 들어, 현재 포즈가 그림 3(a) 와 같이 정면(Front)이라고 하면, 이때 다음으로 가까운 포즈인 좌(Left45), 우(Right45)의 두 포즈간의 거리 값의 차이는 거의 없게 된다. 따라서 좌(Left45), 우(Right45) 포즈와의 거리 값을 각각 계산하여 그 차이가 거의 없을 때 현재 이미지가 데이터베이스와 가장 유사한 이미지임을 알 수 있다.
PPT Slide
Lager Image
인접 포즈간의 거리값 Fig. 3 Value of Distance between Adjacent Poses
이렇게 계산된 Left45(Point 2), Right45(Point 3)의 거리 값 차이를
PPT Slide
Lager Image
λ로 두고, 그 차이가 일정한 범위(0과 가까운) 안에 들어올 때 이미지는 데이터베이스속의 이미지와 유사한 포즈임을 나타내므로 이 얼굴 이미지를 얼굴인식에 사용한다. 반면 그림 3(b) 에서는 yaw 각도가 변하여 얼굴이 한 포즈에서 다음 포즈로 넘어가는 과정에서 두 포인트의 거리 차가 증가하는 것을 볼 수 있다. 그림 4 는 유클리디안 거리를 통해 어떤 포즈로 인식 결과를 수행하였는가를 확인 할 수 있다. 정면의 포즈각도를 ‘3’, 우측과 좌측의 사진을 각각 ‘4’, ‘2’ 로 설정하였을 때, 임의 우측 45도의 사진과 임의 정면의 사진은 포즈가 제대로 추정되었지만 임의 좌측 45도와 같은 경우는 좌측이 아닌 정면으로 포즈가 오인식 되었음을 확인할 수 있다.
PPT Slide
Lager Image
유클리디안 거리를 이용한 포즈 추정 Fig. 4 Pose Estimation using Euclidean Distance
4. 다항식 기반 RBFNNs 패턴분류기의 구조 및 최적화
- 4.1 다항식 기반 RBFNNs 패턴분류기의 구조
본 장에서는 제안된 얼굴인식 시스템의 인식 성능을 확인하기 위해 다항식 기반 RBFNNs 패턴분류기에 대하여 설명한다. 기본적인 신경회로망은 인간의 두뇌를 구현하기 위한 알고리즘으로, RBFNNs 패턴분류기는 신경회로망의 구조를 기반으로 하여 입력층, 은닉층, 출력층이 3가지로 구분할 수 있다. 입력층에서는 각 노드마다 입력변수의 개수만큼 활성함수가 존재하며, 활성함수는 방사형 기저함수의 형태를 하고 있고, 주로 가우시안 형태를 사용하고 있다. 입력 데이터는 전처리 과정을 수행하여 인식에 사용하기 적합한 저차원 데이터로 축소되어, 은닉층의 입력으로 들어가게 된다. 은닉층에서 활성함수로 변환된 출력은 은닉층과 출력층 사이의 연결가중치 값과 곱해져 출력층의 최종 출력으로 얻어지며, 이때 연결가중치의 값은 상수를 사용한다.
본 논문에서 제안한 다항식 기반 RBFNNs 패턴분류기는 기존의 RBFNNs과 비교하였을 때 구조적 모듈로는 동일하게 입력층, 은닉층, 출력층 이 3가지로 구분되나, 기능적 모듈로서 조건부, 추론부, 결론부 이 3가지로 구분이 가능하다. 또한 기존의 조건부의 활성함수로 사용하였던 가우시안 함수 대신 FCM(Fuzzy C-Means)클러스터링 알고리즘의 멤버쉽 값을 사용함으로써 입력 데이터의 특성을 좀 더 잘 반영할 수 있도록 개선하였다. 또한 결론부의 연결가중치를 상수항에서 일차식과 이차식, 그리고 변형된 이차식과 같은 다항식의 형태로 확장하여 사용한다는 특징을 가지고 있다.
PPT Slide
Lager Image
다항식 기반 RBFNNs 패턴분류기의 전체 구조 Fig. 5 Overall architecture of polynomial based RBFNNs pattern classifier
[Type 1] 1차 선형 추론 (Linear)
PPT Slide
Lager Image
[Type 2] 2차 선형 추론 (Quadratic)
PPT Slide
Lager Image
PPT Slide
Lager Image
[Type 3] 변형된 2차 선형 추론 (Modified Quadratic)
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 x = [ x 1 , x 2 , ..., xk ], k는 입력변수의 수, Rj 는 j번째 퍼지 규칙(j=1,...,c), c는 퍼지 규칙 수이며, fj = ( x 1 , ..., xk )는 j번째 규칙에 대한 후반부로써 j번째 퍼지 규칙에 대한 로컬 모델이다.
모델의 출력은 아래 식처럼 구해진다.
PPT Slide
Lager Image
이와 같이 다항식 형태의 연결가중치를 사용함으로서 아래 식의 퍼지 규칙 표현과 같은 언어적 관점에서의 해석이 가능해졌다.
PPT Slide
Lager Image
- 4.2 전반부 동정 : FCM (Fuzzy C-Means) 클러스터링
본 논문에서는 전반부 동정을 위하여 FCM 클러스터링 알고리즘을 사용하였다. FCM(Fuzzy C-Means) 클러스터링 알고리즘은 비슷한 패턴, 속성, 형태 등의 기준을 통해 데이터를 분류하는 알고리즘으로, 데이터와 각 클러스터와의 거리를 기준으로 소속정도를 측정하여 데이터를 분류한다. 이를 이용하여 다항식 기반 RBFNNs 패턴분류기의 은닉층 활성함수 형태를 표현하였으며, 아래 단계를 통해 수행된다.
[Step 1] 클러스터의 개수, 퍼지화 계수를 선택하고, 소속 함수(U(0))를 초기화 한다.
PPT Slide
Lager Image
[Step 2] 각 클러스터에 대한 중심 벡터를 구한다.
PPT Slide
Lager Image
[Step 3] 중심과 데이터와의 거리를 계산하며, 이를 통해 새로운 소속함수(U(1))를 계산한다.
PPT Slide
Lager Image
PPT Slide
Lager Image
[Step 4] 오차가 허용범위 안에 도달하면 알고리즘을 종료하고, 그렇지 않으면 [Step 2]로 돌아간다.
PPT Slide
Lager Image
- 4.3 후반부 동정 : 가중최소자승법 (WLSE)
기존 퍼지 추론 시스템에서는 후반부 파라미터 동정 시 주로 각 규칙에 파라미터를 동시에 구하는 전역학습 방법인 Least Square Estimator(LSE)를 주로 사용하였다. LSE는 각 규칙에 파라미터를 동시에 구하는 전역학습 방법으로 학습만 너무 많이 했을 시, 오버피팅 (overfitting)이 발생할 수 있고, 퍼지 규칙수가 많거나, 입력이 많은 경우에는 찾고자 하는 파라미터들이 늘어나서 연산시간이 오래 걸리는 단점이 있다. 본 논문에서는 이를 보완하기 위해 Weighted Least Square Estimator(WLSE)를 사용하여 각 규칙에 대한 파라미터를 독립적으로 구하는 지역학습 방법을 적용하였다.
LSE와 WLSE의 특징Table 1Characteristics of LSE and WLSE
PPT Slide
Lager Image
LSE와 WLSE의 특징 Table 1 Characteristics of LSE and WLSE
LSE는 오차제곱의 합이 최소가 되도록 계수를 측정하지만 WLSE는 오차제곱에 가중치가 곱해진다는 차이가 있다. WLSE에서의 성능 평가함수를 행렬식으로 표현하면 아래 식과 같다.
PPT Slide
Lager Image
여기서 aj 는 추정하고자 하는 j번째 다항식의 계수, Y는 출력 데이터, Uj 는 j번째 입력공간에 대한 입력 데이터들의 소속 값을 의미한다. Xj 는 j번째 로컬모델의 계수를 추정하기 위한 입력데이터 행렬을 의미하며 로컬모델이 선형일 경우 다음과 같이 정의된다.
PPT Slide
Lager Image
여기서 m은 데이터의 수이며, j번째 규칙에 대한 로컬모델인 다항식의 계수는 아래 식에 의해 구해진다.
PPT Slide
Lager Image
위와 같이 설계된 다항식 기반 RBFNNs 패턴분류기는 다차원 입, 출력 문제 해결이 용이하며, 네트워크 특성이 강인하고, 예측 능력이 뛰어나다는 장점을 지니고 있다.
5. PSO를 이용한 RBFNN의 파라미터 최적화
Particle Swarm Optimization(PSO)는 Kennedy and Eberhart에 의해 처음 소개된 새떼와 물고기 떼와 같은 생체군집의 사회적 행동양식을 바탕으로 한 최적화 알고리즘이다. 일반적으로 PSO는 이론의 간결성, 구현의 용이성, 연산의 효율성과 같은 특징을 보이며 짧은 계산시간 안에 최적의 해를 생성할 수 있고 다른 확률적 방법보다 안정적인 수렴특징을 나타낸다.
- 5.1 입자군집 최적화 알고리즘의 알고리즘
  • [Step 1] 초기 Swarm과 Particle Velocity를 랜덤하게 생성
  • [Step 2] 초기 Particle을 pbest로 선정하며, 그 중 최적의 값은 다시 gbest로 선정
  • [Step 3] 아래 식을 통해 관성하중 값을 계산하며, 관성 하중 값을 근거로 하여 j번째 Particle Velocity 를 계산
PPT Slide
Lager Image
PPT Slide
Lager Image
  • [Step 4] Particle Velocity를 바탕으로 Particle의 위치 정보를 수정
PPT Slide
Lager Image
  • [Step 5] 각 Particle의 적합도와 pbest의 적합도를 비교하여 재설정하고, 최적해의 pbest와 gbest를 비교하여 재설정
  • [Step 6] 종료조건이 만족할 때까지 탐색을 계속하며, 최종적으로 최적의 위치정보를 가지는 gbest가 생성
위 최적화 알고리즘을 이용하여 본 논문에서는 퍼지화 계수, 연결가중치의 다항식 타입, 노드의 수, 축소되는 차원의 수 등을 최적화 시켰다.
6. 실험 및 결과 고찰
- 6.1 실험의 전체 개요
본 논문에서는 2차원 얼굴인식에서의 포즈변화에 강인한 얼굴 인식 시스템 설계를 위해 PCA와 RBFNNs 패턴분류기를 이용한 인식성능 비교 연구를 하였다. 2차원 이미지의 DB를 획득하기 위해 Honda/UCSD와 IC&CI 데이터베이스를 사용하였다. 먼저 포즈 분류를 위해 (2D) 2 PCA를 이용하였으며 PCA와 RBFNNs 패턴분류기의 인식성능 비교를 위해 PCA와 (2D) 2 PCA를 이용한 인식성능 산출 또는 PCA와 (2D) 2 PCA 기반 RBFNNs를 이용하여 인식 성능을 확인한다. 또한 Honda/UCSD DB와 같은 포즈로 구성된 포즈 추정에 대하여 한계점을 개선하고자 상하의 개념을 포함한 IC&CI 데이터베이스를 구축하여 인식성능을 비교한다. 효율적인 학습을 위한 파라미터의 탐색 범위 및 최적화 알고리즘의 파라미터 설정은 표 2 와 같이 설정하였다. 또한 그림 6 과 같이 k-fold cross validation을 사용함으로서 각 포즈별 데이터가 한번 씩 검증 데이터로 들어가게 되며, 각 모델에서 얻은 성능의 평균을 하나의 모델로서 평가하는 방식으로 인식을 수행한다.
최적화 파라미터의 설정 및 파라미터의 탐색 범위Table 2Setting of initial optimization parameters and search range of parameters
PPT Slide
Lager Image
최적화 파라미터의 설정 및 파라미터의 탐색 범위 Table 2 Setting of initial optimization parameters and search range of parameters
PPT Slide
Lager Image
k-묶음 교차 검증법에 의한 제안된 모델의 생성 Fig. 6 Generation of the proposed model by k-fold cross validation
- 6.2 Honda/UCSD Database를 이용한 얼굴인식
- (1) Honda UCSD DB를 이용한 인식 시스템의 구성
실험에 사용한 데이터베이스의 구성은 동영상에서 추출한 Honda/UCSD DB의 인원 20명으로 진행하였으며, 학습 및 검증 데이터는 각 인원의 포즈변화에 따른 (좌 90˚ 좌 45˚, 정면, 우 45˚, 우 90˚) 5개의 영상을 입력하여 총 500개의 데이터를 이용하였다. 또한 실험데이터는 5-fold cross validation을 이용하여 위의 그림 6 과 같이 학습, 검증, 테스트를 분할하여 실험을 진행하였다. 테스트 데이터는 임의 정면(좌측, 우측 약 7˚), 임의 좌측(약 45˚) 임의 우측(약 45˚)의 영상을 입력받아 총 60개의 데이터를 사용하였다. 테스트 이미지를 임의각도의 사진을 추출하여 넣은 이유는 세밀하게 분류를 하여 얼굴인식을 수행하면 높은 인식 성능을 획득할 수 있지만 현 상황에서 그 모델에 해당하는 학습 데이터를 전부 구성하는 것은 이론적으로 불가능하다. 따라서 임의의 5가지 방향의 포즈 이미지를 이용한 학습 데이터를 이용하며, 테스트 데이터 입력 시 가장 유사한 포즈 모델에서 인식을 수행하여 인식 성능을 확인한다.
PPT Slide
Lager Image
실험데이터의 구성 Fig. 7 Configuration of experimental database
PPT Slide
Lager Image
Honda/UCSD Database를 이용한 2차원 얼굴인식의 절차 Fig. 8 Procedure of the 2D face recognition Using Honda/ UCSD Database
- (2) Honda UCSD DB를 이용한 인식 시스템의 실험결과
본 실험에서 제안한 얼굴인식 시스템의 포즈 추정은 (2D) 2 PCA를 사용하였다. 총 20명의 사람에 대하여 60장으로 구성된 이미지는 정면, 임의좌측, 임의 우측의 순서로 추정되게 된다.
(2D) 2 PCA를 통한 포즈 추정으로 분류된 학습 데이터에 Case (1)과 Case (2)를 통하여 인식을 위한 처리시간을 상단의 표 3 과 같이 확인하였다. Case (1)과 Case (2)를 이용하여 얼굴 인식 시스템을 수행하였을 때, (2D) 2 PCA를 사용한 얼굴 인식 시스템의 경우에 인식 처리 속도가 더 빠름을 확인하였다. 또한 Case (2)에서 RBFNNs 패턴분류기를 이용하여 인식성능을 확인하는 경우, 학습 및 검증을 수행함으로 인해 Case (1) 보다 많은 처리 시간을 가지는 것을 확인하였다. Honda/UCSD 데이터베이스의 포즈 분류 후, 인식성능 산출을 위해 사용한 Case (1)과 Case (2)의 PCA, (2D) 2 PCA 알고리즘과 PCA, (2D) 2 PCA기반 RBFNNs을 이용한 인식성능은 표 4 와 같다. Case (1)과 Case (2) 에서 각각 PCA를 이용하여 얼굴 인식을 수행하였을 때, (2D) 2 PCA를 사용한 경우가 PCA보다 근소하게 우수한 성능을 출력함을 확인하였다. 또한 Case (1)의 인식성능보다 RBFNNs 패턴분류기를 이용하여 학습 및 검증을 수행한 Case (2)의 성능이 더욱 우수함을 확인하였다.
제안된 얼굴인식 시스템의 성능 결과Table 3Simulation results of proposed face recognition system
PPT Slide
Lager Image
제안된 얼굴인식 시스템의 성능 결과 Table 3 Simulation results of proposed face recognition system
얼굴인식 시스템의 성능 결과Table 4Performance result of face recognition system
PPT Slide
Lager Image
얼굴인식 시스템의 성능 결과 Table 4 Performance result of face recognition system
- 6.2 IC&CI Database를 이용한 얼굴인식
- (1) IC&CI DB를 이용한 얼굴 인식 시스템의 구성
IC&CI 데이터베이스의 구성은 동영상에서 추출한 15명으로 진행하였으며, 데이터는 아래의 그림 10 과 같이 각 인원의 포즈 변화에 따른 ( 좌 90˚ 좌 45˚, 정면, 우 45˚, 우 90˚ ) 5개의 영상을 상, 중, 하의 개념을 적용하여 총 1125개의 데이터를 이용하였다. 또한 실험데이터는 5-fold cross validation을 이용하여 학습, 검증, 테스트를 분할하여 실험을 진행하였다. 테스트 데이터는 영상 내에서 임의로 추출한 15개의 포즈 내의 유사 이미지를 입력받아 한 사람당 450장의 이미지를 사용하였으며 인식대상자의 수는 15명이다. 테스트 데이터 입력 시 가장 유사한 포즈 모델에서 인식을 수행하여 인식 성능을 확인한다.
PPT Slide
Lager Image
IC&CI Database를 이용한 학습 데이터의 구성 Fig. 9 Composition of Training Data using IC&CI Database
- (2) IC&CI DB를 이용한 얼굴 인식 시스템의 실험결과
IC&CI Database를 이용한 얼굴인식에서 포즈 추정은 (2D) 2 PCA를 사용하였다. 총 15명의 사람으로 각 인식대상자당 450장씩 구성된 테스트 이미지를 포즈 분류하였다. 포즈 분류율은 Honda/UCSD DB를 사용했을 때와 같이 비슷한 포즈 분류율을 출력하는 것을 확인할 수 있었으며, 상하의 이미지 모두를 각각의 포즈에 적용하여 학습을 시켰을 때 우수한 포즈 분류율을 출력하는 것을 확인하였다. 인식 성능은 포즈 분류의 성공한 이미지들을 얼굴인식 시스템에 사용하여 인식대상자를 인식한 성공률을 나타낸다. 얼굴인식 시스템의 인식율은 전체 이미지 중에서 포즈 분류를 성공한 이미지들만을 인식을 하였다. 따라서 아래의 표 4 와 같이 인식성능은 Case (2)가 근소하게 우수함을 확인하였다.
7. 결 론
본 연구에서는 (2D) 2 PCA를 통하여 포즈 분류를 한 Honda/UCSD 데이터를 PCA 및 (2D) 2 PCA 또는 PCA 및 (2D) 2 PCA 기반 다항식 RBFNNs 패턴분류기와의 얼굴인식 성능을 비교하였다. 그리고 개선된 인식 성능을 위해 포즈를 세분화한 IC&CI 데이터 베이스를 사용하여 전자의 실험과 같이 얼굴인식 성능을 비교하였다. Honda/UCSD 데이터베이스를 이용한 실험 결과에서 (2D) 2 PCA를 이용한 처리시간이 PCA보다 더 빠른 것을 확인하였고, 표 3 부터 4 까지는 얼굴인식 시스템의 학습 및 검증 그리고 테스트의 컴퓨팅 시간과 인식성능을 확인한다. RBFNNs 패턴분류기를 이용한 경우는 학습 및 검증 수행에 의해 상대적으로 긴 컴퓨팅 시간을 소요하지만, 학습을 통해 획득한 최적화 파라미터를 이용하여 Case (1) 보다 더 높은 인식성능을 출력하는 것을 확인하였다. Case (1)과 Case (2)를 비교하였을 때 (2D) 2 PCA는 행 방향과 열 방향을 각각 축소하며 계산하는 차원의 양이 줄어 PCA에 비해 빠른 연산 속도를 보인다. 또한 Case (1) 과 Case (2)에서의 인식 성능은 PCA를 사용할 때보다 (2D) 2 PCA를 사용하였을 때 근소하게 우수한 것을 확인하였다. Case (2)는 앞서 언급한 것과 같이 학습 및 검증을 통한 인식성능 산출로 Case (1)보다 높은 인식성능을 산출하는 것을 확인하였다. IC&CI 데이터베이스를 이용한 실험 결과에서는 데이터베이스를 5방향 포즈 (±90°, S±45°, 0°)를 위아래의 개념을 추가하여 총 15방향으로 구성하였으며 인식성능을 비교하였다. Type (1)에서 포즈 분류율은 Honda/UCSD와 IC&CI를 사용하였을 때 비슷한 성능을 나타내었다. 그러나 상하의 개념을 적용한 Type (2)에서의 포즈 분류율은 Type (1)보다 우수한 것을 확인하였다. Type (1)과 Type (2)의 인식성능은 포즈 분류에 성공한 이미지만을 가지고 인식을 하였으며, Type (2)의 경우가 근소하게 우수한 것을 확인하였다.
Acknowledgements
본 연구는 한국 산업단지공단의 10차년도 산업집적지경쟁력강화산업계획의 생산기술사업화 지원사업으로 연구를 수행하였음(NTIS-1415136442) 그리고 경기도의 경기도지역협력연구센터사업의 일환으로 수행하였음[GRRC 수원2015-B2, U-city 보안감시 기술협력센터]
BIO
김 봉 연 (Bong-Youn Kim)
2014년 : 수원대학교 전기공학과 졸업.
2014년~현재 : 동 대학원 석사과정.
관심분야 : Fuzzy Inference, Neural Network, Evolutionary Optimization
Phone : +82-31-222-6544
E-mail : zillot07@suwon.ac.kr
김 진 율 (Jin-Yul Kim)
1986년 : 서울대학교 전자공학과 학사.
1988년 : 한국과학기술원 전기 및 전자학과 공학 석사. 1993년 : 한국과학기술원 전기 및 전자공학과 공학 박사. 1994년~현재 : 수원대학교 전자공학과 부교수.
관심분야 : 영상 내 객체추적, 신호처리시스템 설계
Phone : +82-31-220-2323
E-mail : jykim@suwon.ac.kr
오 성 권 (Sung-Kwun Oh)
1981년 : 연세대학교 전기공학과 공학사.
1983년~1989년 : 금성산전연구소 (선임 연구원). 1993년 : 연세대학교 전기공학과 공학박사. 1996년∼1997년 : 캐나다 Manitoba 대학 전기 및 컴퓨터 공학과 Post-Doc. 1993년∼2004년 : 원광대학교 전기전자 및 정보공학부 교수. 2005년∼현재 : 수원대학교 전기공학과 교수. 2002년∼현재 : 대한전기학회, 제어로봇시스템학회, 퍼지 및 지능시스템학회 편집위원.
관심분야 : Fuzzy System, Fuzzy-Neural Network, Automatic System, Advanced Computational Intelligence, Intelligent Control
Phone : +82-31-229-8162
E-mail : ohsk@suwon.ac.kr
References
Murphy-Chutorian E. 2009 “Head Pose Estimation in Computer Vision: A Survey,” Pattern Analysis and Machine Intelligence, IEEE Transactions on 31 607 - 626    DOI : 10.1109/TPAMI.2008.106
Turk M. A. , Pentland A. P. 1991 "Face recognition using eigenface," Proc. Computer Vision and Pattern Recognition 586 - 591
2005 Honda UCSD Video Database Available:
Oh S. K. , Pedrycz W. , Park B. J. 2011 “Polynomial-based Radial Basis Function Neural Net works realized with the Aid of Particle Swarm Optimization,” Fuzzy Sets and Systems 163 54 - 77    DOI : 10.1016/j.fss.2010.08.007
Kim J. Y. , Kim Y. S. " Face Tracking and Recognition in Video with PCA-based Pose-Classification and (2D)2PCA recognition algorithm." Journal of Korean Institute of Intelligent Systems 23 423 - 430    DOI : 10.5391/JKIIS.2013.23.5.423
Turk M. A. , Pentlan A. P. 1991 "Face recognition using eigenface," Proc. Computer Vision and Pattern Recognition 586 - 591
Daoqiang Z. , Zhi-Hua Z. 2005 “Two-directional two-dimensional PCA for efficient face representation and recognition,” Neurocomputing 69 (1-3) 224 - 231    DOI : 10.1016/j.neucom.2005.06.004
Zhao Q. , Liang B. , Duan F. 2013 "Combination of Improved PCA and LDA for Video-based Face Recognition." Journal of Computational Information Systems 9 (1) 273 - 280
Aggarwal G. , Chowdhury A. K. R. , Chellappa R. 2004 "A system identification approach for video-based face recognition," IEEE 17th International Conference on Pattern Recognition, ICPR 2004 4
Pedrycz W. 1998 “Conditional fuzzy clustering in the design of radial basis function neural networks” IEEE Trans. Neural Networks 9 601 - 612    DOI : 10.1109/72.701174