Advanced
Invariant Classification and Detection for Cloth Searching
Invariant Classification and Detection for Cloth Searching
Journal of Broadcast Engineering. 2014. May, 19(3): 396-404
Copyright © 2014, The Korean Society of Broadcast Engineers
  • Received : March 19, 2014
  • Accepted : April 21, 2014
  • Published : May 30, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
인성 황
drpro@nate.com
법근 조
승우 전
윤식 최

Abstract
의류 검색 분야는 의류의 비정형 특성으로 인해 매우 어려운 분야로 인식 오류 및 연산량을 줄이기 위한 노력이 많이 진행되어 왔으나 이를 위한 학습 및 인식 과정 전체에 대한 구체적인 사례가 없고 일부 관련 기술들은 아직 많은 한계를 보이고 있다. 이에 본 논문에서는 입력된 영상에서 사람 객체를 파악하여 착용한 의상으로부터 색상, 무늬, 질감 등 의상이 가질 수 있는 특성 정보를 분석하여, 이를 분류하고 검색하는 방법에 대한 전 과정을 구체적으로 보였다. 특히, 의류의 패턴 및 무늬 등을 구분하기 위한 비정형 의류 검색을 위한 LBPROT_35 디스크립터를 제안하였다. 이 제안 방식은 영상의 통계적 특징을 분석하는 기존의 LBP_ROT(Local Binary Pattern with ROTation-invariant) 방식에 추가로 원 영상에 크기 변화가 생겨도 검색해 낼 수 있도록 하는 특성이 추가된 것이며, 이를 통해 비정형 의류 검색 시 옷이 회전되어 있거나 스케일에 변화가 있어도 높은 검색율을 얻을 수 있게 되었다. 또한 색 공간을 11개의 구간으로 양자화 하는 방식을 이용하여 컬러 분류를 구현하여, 의류 검색에 있어서 중요한 컬러 유사성을 상실하지 않도록 하였다. 한편, 인터넷 상의 의류 사진들로부터 추출한 총 810장의 트레이닝 이미지로 데이터베이스를 구축하고 이들 중 36장을 질의영상으로 테스트 한 결과, 94.4%의 인식률을 보이는 등 Dense-SIFT 대비 높은 인식률을 보였다.
Keywords
Ⅰ. 서 론
스마트 모바일 환경의 급격한 발전에 따라 모바일 쇼핑 산업이 나날이 성장하고 있다. 특히 다양한 사용자의 요구사항에 부합하는 비주얼 검색, 특히 정형화 된 사물이 아닌, 의류와 같이 정형화 되지 않은 사물에 대한 검색 필요성이 부각되고 있다. 따라서 이와 관련한 핵심 기술과 응용 기술을 개발하여, 기존의 비정형 이미지 검색에서 발생되는 인식 오류를 줄일 수 있는 디스크립터의 개발이 주목을 받고있다. 의류와 같은 실 생활에서 볼 수 있는 비정형 이미지들은 일반적으로 조명 변화, 회전 및 스케일 변화 등 상당히 취약한 환경 하에서 생성되는데, 이러한 환경 하의 실제 이미지 자체를 입력으로 하여 의류를 검색하는 기술은 아직 제대로 개발되어 있지 않았거나, 현재 개발 중인 의류검색 기술의 경우 아직 그 성능이 미흡하여 실제 의류검색 서비스에 재대로 적용되지 못하고 있는 상황이다 [1] [2] [3] [4] [5] .
본 논문에서는 인터넷으로부터 확보한 조명, 회전 및 스케일 변화를 동반한 비정형 실제 영상에서 사람 객체를 파악하여 착용한 의상의 색상, 무늬, 질감 등 의상이 가질 수 있는 특성 정보를 분석하여, 이를 통해 의류를 분류하고 검색하는 방법에 대해 전 과정을 구체적으로 보였다. 특히, 의류 텍스쳐의 질감에 대한 디스크립터와 의류의 패턴을 구분하기 위한 비정형 의류 검색 디스크립터인 LBPROT_35 디스크립터를 제안하였다. 기존에 우수한 성능으로 잘 알려진 Dense-SIFT가 실제로는 밝기 변화나 패턴 분석에 취약한 단점을 보이는 반면에, 이 디스크립터에는 영상의 통계적 특징을 분석하는 기존의 LBP_ROT(Local Binary Pattern with ROTation-invariant) 방식 [6] 에 원 영상에 스케일 변화가 생겨도 검색해 낼 수 있도록 하는 특성이 추가되어, 이를 통해 비정형 의류 검색 시 밝기 변화에 둔감한 정확한 패턴 분석 능력을 확보함은 물론 옷이 회전되어 있거나 크기에 변화가 있어도 높은 검색율을 얻을 수 있게 되었다. 또한 HLS 색 공간을 11개의 범위로 양자화 하는 방식을 이용하여 조명 변화에 둔감한 컬러 분류를 구현하여, 의류 검색에 있어서 중요한 컬러의 유사성을 상실하지 않도록 하였다.
한편, 비교 실험을 위해 앞서 언급했던 종래의 우수한 성능을 보였던 Dense-SIFT 방식을 사용하였다 [8] [9] . Dense-SIFT는 일정 간격마다 강제로 SIFT 특징 벡터를 추출하는 방법으로 본 논문에서는 이 방법만을 사용했을 때와 본 논문의 제안 방식인 Dense-SIFT 디스크립터에 LBPROT_35 디스크립터 및 HLS 기반 컬리 디스크립터를 병행 사용하는 경우에 대한 구체적인 실험 방법 및 결과를 보였다. 이 과정에서 이용된 데이터베이스는 인터넷 상에서 판매되는 의류 사진들의 일부분을 직접 추출한 것들이며, 총 810장을 트레이닝 이미지로 사용하여 구축하였다. 실험 결과, 동일한 옷의 다른 위치에서 추출한 패치들을 가장 우선적으로 잘 찾아내었으며, 그 다음 순위의 후보군들 역시 비슷한 패턴과 색상을 가진 데이터베이스 내의 이미지들을 후보로 잘 내놓는 있음을 확인할 수 있었다. 최근 들어 책, 브랜드 로고가 있는 가전제품 등 정형 객체에 대한 이미지 검색 기술의 경우 여러 기업에서 상품화가 진행 중이나, 의류와 같이 형태가 변하는 객체에 대한 이미지 검색 기술은 아직 정확도 측면에서 미흡함이 많다. 따라서 본 제안 방법에 의해 의류 검색 기술이 개발될 경우 시점 변화와 물체 변형 등에 강한 의류 검색을 가능하게 할 것이라 확신한다.
Ⅱ. 회전 및 크기 불변 컬러 디스크립터
- 1. LBPROT와 회전 및 크기 불변 디스크립터
LBP (Local Binary Pattern)은 한 픽셀과 주위에 이웃하는 픽셀간의 크기 비교를 통하여 추출되는 이진화 된 값을 이용하는 방식으로 그림 1 에 보인 것과 같이, 중앙 픽셀의 값에 해당하는 5보다 크거나 같은 값에 해당하는 픽셀에 대해선 1을 부여하고, 그렇지 않은 픽셀들에 대하여 0을 부여하고, 특정 시작점(좌상단)을 기준으로 한자리씩 읽어서 2진수로 표현하는데, 이 그림의 경우에는 LBP 값은 53이 된다 [10] [11] [12] [13] .
PPT Slide
Lager Image
LBP (Local Binary Pattern)의 계산방법 Fig. 1. LBP (Local Binary Pattern) calculation process
이러한 방식으로 추출되는 LBP 값은 0 부터 255 까지 총 256개의 종류로 나뉘게 되며, 여기에 회전을 고려하면 36개의 종류로 줄일 수 있게 되는데, 이것을 LBP_ROT(Local Binary Pattern with ROTation-invariant)라고 부른다 [6] .
LBP_ROT는 LBP의 특성에 회전변환을 고려한 방식으로 기존의 이진화된 패턴에서 공통적인 패턴형태를 보유한 대상을 한데 묶어버리는 방식이다.
예를 들어, 그림 2 와 같이 LBP_ROT = 53과 LBP_ROT = 106은 서로를 45° 회전시킨 것에 해당한다. 이와 같이 회전을 통해 같은 구조적 형태를 구성하는 LBP의 값들에 대하여 동일한 하나의 대상으로 취급하는 것이다.
PPT Slide
Lager Image
한 픽셀의 LBP와 이를 45° 회전시킨 후의 LBP Fig. 2. Comparing between LBP and 45° rotated LBP
한편, 아래 그림 3 은 한 이미지와 이를 90° 회전한 동일 패턴의 이미지 각각에 대하여 LBP_ROT를 추출한 결과를 히스토그램으로 작성한 것이다. 회전 변환이 이루어진 이미지와 그렇지 않은 이미지 각각의 LBP_ROT 히스토그램이 동일 혹은 유사하게 추출됨을 확인할 수 있다.
PPT Slide
Lager Image
원 이미지와 이를 90° 회전시킨 이미지에 대한 LBP_ROT 히스토그램 결과 Fig. 3. LBP_ROT histogram comparing for original and 45° rotated patch image
하지만, LBP_ROT에는 비정형 의류의 확대/축소에 따른 크기 변화에 관한 문제를 해결하지 못하는 한계가 존재 한다. 확대 및 축소 문제는 비정형 의류 검색과 관련하여 상당히 중요한 요인으로, 비정형 의류 검색 분야에 있어서 반드시 해결 되어야 하는 문제이며, 본 논문에서 이를 해결할 수 있는 방법을 다음과 같이 제안하였다.
엣지 영역은 이미지 영역에서 선 형태로 존재하여 1차원적인 특성을 지니지만, 반대로 평탄영역은 면 형태로 존재하여 2차원적인 특성을 지니므로, 이미지가 2배 확대되었다고 가정하면, 엣지 영역은 이에 비례하여 2배 증가하게 되지만, 평탄 영역은 확대비의 제곱에 비례하여 4배 증가하게 된다. 예를 들면, 그림 4 에서 보인 것과 같이 2배 확대된 이미지에 대하여 LBP_ROT 분석 [6] 을 거치게 되면, 엣지 영역에서 주로 추출되는 특징벡터들은 2배 증가하게 되지만 평탄영역에서 주로 추출되는 특징벡터들은 4배 증가하게 됨을 볼 수 있다. 또한, 이로 인해 LBP_ROT 분석결과, 추출되는 특징 벡터간의 비율로 구성된 히스토그램에 커다란 변화를 가져오게 되고, 이것이 바로 LBP_ROT가 원 영상의 확대 및 축소에 따른 크기변화에 민감하게 반응하는 이유이다.
PPT Slide
Lager Image
원영상과 2배 확대시킨 영상의 LBP_ROT 히스토그램 추출 결과 Fig. 4. LBP_ROT histogram comparing for original image and magnifying patch image by 2 times
따라서 본 논문에서는 이러한 문제를 해결하기 위해 실제 패턴 분석에 필요한 요소에 해당하는 엣지 영역만을 LBP_ROT 영역의 추출대상으로 고려하였다. 엣지 영역을 추출하는 방식은 케니 엣지 검출을 활용하였다 [14] . 이렇게 케니 엣지 검출을 거친 이미지는 엣지 영역만이 남게 되고, 이는 LBP_ROT의 특징 벡터들의 히스토그램 상에서 평탄 영역의 LBP_ROT 값 한개는 통계 대상에서 제외시키는 효과를 가져 오며, 이렇게 36개의 LBP_ROT 특징 벡터 중 하나를 제거한 LBP_ROT를 LBPROT_35라고 부르겠다.
PPT Slide
Lager Image
원영상과 이를 1.5배(확대1), 2배(확대2) 확대시킨 영상에 대해 LBPROT_35 히스토그램 추출 결과 Fig. 5. LBP_ROT_35 histogram comparing for original image and magnifying patch image by 1.5 and 2 times
이렇게 모서리 검출을 거친 뒤 이후 평탄영역을 분석대상에서 제외시키는 LBPROT_35의 특징벡터는 그림 5 에 보인 것과 같이 크기 변화에 따른 영향이 최소화 되어 비정형 검색 성능을 극대화 해 준다.
- 2. HLS 기반 컬러 디스크립터
컬러 인식은 패턴 인식과 마찬가지로 의류 매칭 알고리즘 구성에서 반드시 필요한 과정이다. 단색으로 이루어진 이미지의 컬러 특성을 분석하는 것은 물론이고, 패턴에 의해 발생하는 다양한 컬러 분포 모두를 종합적으로 분석대상에 포함시켜야 한다. 더불어 컬러의 다양성을 고려함으로써 사용자가 원하는 색상의 이미지를 정확히 내놓을 수 있도록 해야 한다. 또한, 컬러 인식의 정확도를 높이기 위해, 외부 조명의 변화나 그림자에 의한 이미지의 명암 변화에도 고려해야 한다. 즉, 극단적인 명암변화가 아닌 일상생활에서의 조명이나 그림자에 의한 명암 변화가 검색능력에 부정적인 영향을 주지 않도록 설계해야 한다. 이를 위해 본 논문은 다음과 같은 일련의 과정으로 컬러 디스크립터를 설계하였다.
우선 기존의 RGB 색 공간으로 표현된 이미지를 명암을 고려하여 HLS 색 공간으로 변환한다 [15] [16] . HLS 색공간은 RGB와 마찬가지로 색을 표현하는 하나의 방법으로 색상(Hue), 채도(Saturation), 밝기(Lightness)의 좌표를 이용하여 색을 표현한다. 색상(Hue, H)는 가시광선 스펙트럼을 고리모양으로 배치한 색상환(Color Circle)에서 가장 파장이 긴 빨강을 0°로 하였을 때의 상대적인 배치 각도의 분포이다. 때문에 H 값은 0°~360°의 범위를 갖고, 360°와 0°는 같은 색상 빨강을 가리키고, 채도(Saturation, S)는 특정한 색상의 가장 진한 상태를 100%라고 하였을 때 진하기의 정도를 나타내는 것으로, 0%는 색상과 무관하게 무채색을 나타내며, 밝기(Lightness, L)는 색의 밝고 어두움을 나타내는 정도로, 실제 이미지의 명암변화와 직접적으로 관련이 있다. RGB 색 공간에서 HLS 색 공간으로 변환이 이루어진 이미지는 밝기 정도를 수치화 하여 표현 할 수 있다. 따라서 만약 이미지 상에서 조명이나 그림자에 의해 명암의 변화가 발생한다면, 밝기(L) 값의 변화가 크게 발생하고 색상(H)과 채도(S)는 거의 변하지 않는다. 이러한 점을 이용하여 HLS공간을 몇 가지의 색으로 양자화 시키는데, 우선 밝기에 대해 문턱 값을 설정함으로써 자연스러운 밝기 변화를 넘어서 극단적으로 밝아지거나 어두워지는 색 변화는 그 부분이 조명변화에 의한 것이 아닌 본래 흰색과 검은색을 가지고 있는 것으로 판단되도록 하였다. 여기서 검은색과 흰색의 문턱 값은 색상(H)와 채도(S)와는 무관하며, 밝기(L)가 15% 이하이면 검은색, 밝기 80% 이상이면 흰색으로 여기도록 문턱 값을 설정하였다. 이제 밝기 15%~80% 사이의 값을 가지는 색상들에 대해 빨강, 주황, 노랑, 초록, 연한 파랑, 파랑, 보라, 핑크, 회색으로 구분을 지었다. 한편, 우선해서 제한된 밝기(L) 내에서 채도(S)가 10% 이하인 색을 회색으로 고려하였고, 이후 제한된 밝기(15% 그림 6 은 각 이미지들을 11개의 색으로 양자화한 결과의 히스토그램이다. 최종적으로 개별 이미지들에서 추출된 히스토그램 내의 컬러의 분포를 좌측 색에서 우측 색 방향으로 차례대로 읽어서 11차원으로 구성된 특징벡터인 컬러 디스크립터를 만들고, 이를 비교하여 색상이 유사한 이미지를 찾아내게 된다.
PPT Slide
Lager Image
이미지에 따른 양자화된 11개 컬러에 대한 히스토그램의 두가지 예시 Fig. 6. Two examples of HLS-based color histogram
두 이미지간의 컬러 벡터로 구성된 히스토그램의 유사도 여부를 분석하는 과정은 Histogram Intersection을 사용 하며, 앞서 설명 한 Dense-SIFT와 LBPROT_35를 이용한 패턴 분석에서도 마찬가지로 Histogram Intersection을 이용하였다 [17] .
Ⅲ. 회전 및 크기 불변 의류 분류 및 검색기
- 1. 회전 및 크기 불변 분류기의 설계
그림 7 에 보인 것처럼, 기존 방식인 Dense-SIFT [8] [9] 에 병행하여 제안 방식인 LBPROT_35와 HLS 기반 컬러 디스크립터를 추출하고, 각각에 대해 히스토그램을 만들어 저장한다.
PPT Slide
Lager Image
전체 알고리즘의 블록 다이어그램 Fig. 7. Block diagram of the whole process
즉, Dense-SIFT의 경우, 트레이닝 이미지들로부터 만들어진 수많은 패치들에서 128차원의 SIFT 벡터들을 얻어, 이를 K-means 클러스터링을 수행하여 분류하고, 이를 바탕으로 K-D 트리 [18] [19] 를 구축하여 개개의 트레이닝 이미지들에 대해 클래스 값을 bin으로 하는 히스토그램을 만들어 저장해 둔다. 또한 LBPROT_35 분류기를 적용할 때에는, 모든 트레이닝 이미지들로부터 얻은 패치들에 대해 우선 캐니 엣지 검출기를 적용하여 이진화 된 엣지만 남긴 후에 각 영상마다 LBPROT_35가 출력하는 35개의 숫자를 bin으로 하는 히스토그램을 저장해 둔다. 마지막으로 컬러에 대해서도 주어지 모든 트레이닝 패치들에 대해 11가지 컬러 값을 bin으로 하는 히스토그램을 저장해 둔다.
한편, 이들 세 가지 분류기는 서로 독립이므로, 나중에 제안 검색기에 의해 최종 결과를 출력해야 할 때는, 개개의 결과를 곱한 값을 보고 가장 높은 값을 가진 것을 최종 결과로 선택하게 된다.
- 2. 검색기의 설계
그림 7 의 하단에 보인 것처럼, 트레이닝 때와 유사하게 테스트 하고자 하는 질의영상이 들어오게 되면, 얼굴 검색 과정을 거쳐 질의 패치를 추출한 뒤, 세 가지 방식으로 각각 검색을 수행한다. 즉, Dense-SIFT 검색기 [8] [9] 로 처리하는 경우, 트레이닝 과정에서 획득한 K-D 트리를 이용해 워드의 히스토그램을 구하며, 마찬가지로 LBPROT_35와 컬러 히스토그램 검색기를 통하는 경우, 각각에 대해 히스토그램을 얻은 후에, 이를 Histogram Intersection 방법 [17] 으로 점수를 구한 뒤 세 점수를 곱하여 최종 점수를 구하고, 가장 높은 값을 얻는 후보를 결과로 출력하면 검색이 완료된다.
Ⅳ. 실험 결과 및 분석
본 실험에서는 데이터베이스 내에 총 810장의 패치 이미지를 100x100픽셀 크기로 일정하게 맞추어, 이것으로 트레이닝을 수행하였다. 데이터베이스 내에 이미지들 중에는 특별히 제작된 36가지 옷으로부터 각각 10장씩, 회전 및 스케일 변형을 임의로 주어 취득한 비정형 의류 패치 데이터들을 포함하고 있다. 한편, Dense-SIFT 과정에서는 트레이닝 영상에 32x32 윈도우를 4픽셀 단위로 움직이며 하나의 특징점 당 128개의 특징 벡터를 추출하였고, 가로로도 4픽셀 간격으로 이동하여, 하나의 패치로부터 100x100 영상 기준으로 361개의 특징점을 추출하였다. 결과적으로 하나의 영상에서 361개의 128차원 SIFT 벡터가 추출되어, 전체 810장의 데이터베이스로부터 361x810개의 SIFT 벡터를 만들어 K개의 워드 개수만큼 K-means 클러스터링 과정을 수행하였는데 [20] [21] , 본 논문에서는 워드 개수를 300개로 하였다. 이후, K-means 클러스터링의 워드들을 이용하여 이진 K-D 트리를 만들고 [18] [19] , 이 트리를 이용하여 트레이닝 영상들이 갖고 있는 워드들의 히스토그램 얻어서 저장하였다. 이 과정은 전형적인 Dense-SIFT 방식으로, 본 논문에서는 이것만 사용한 경우와, 본 논문의 제안 방식인 Dense-SIFT에 추가로 LBPROT_35 및 컬러 디스크립터를 병행 사용한 경우를 비교 분석하였다.
그 결과, 그림 8 의 실험 결과에서 보인 것처럼, 36벌의 옷으로부터 추출된 의류 이미지 패치 한 장씩으로 검색을 수행한 결과, 5가지 출력만을 고려한 경우, 모든 테스트에서 제안 방식이 Dense-SIFT 보다 더 많은 유사 의류 패치들을 데이터베이스로부터 정확하게 찾아냈으며, 10가지 출력을 고려하는 경우, 29번째 테스트 패치를 제외한 나머지 모든 테스트에서 마찬가지로 Dense-SIFT 보다 더 많은 정확한 동일한 옷으로부터 얻은 의류 패치들을 찾아내었다. 한편, 그림에는 보이지 않았지만, 한 가지 유일한 출력만을 내도록 하는 실험에도, Dense-SIFT의 경우 36가지 실험 중 23번을 성공(63.9%)한 반면에, 제안 방식은 34번을 성공(94.4%)하는 상대적으로 높은 성능을 보였다. 그림9 에 실험 결과로 찾아낸 유사 의류 패치들을 몇 가지 보였다. 제안방법은 비교적 정확히 찾아내는 반면에 Dense-SIFT 방식은 그렇지 못함을 알 수 있다. 이는 제안 방식에서 사용된 LBPROT_35가 스케일 변화를 고려한 순환 텍스쳐 방식을 사용하여 영상의 크기 및 밝기 변화에 무관한 영상 feature를 얻을 수 있음과 동시에 HLS 기반 컬러 디스크립터 조명의 영향을 최소화 하여 컬러를 분석하여 결과를 찾아 주기 때문이다.
PPT Slide
Lager Image
제안 방법과 Dense-SIFT 방법과의 비교 실험결과(결과로 5개 혹은 10개를 출력하는 경우) Fig. 8. Comparing between the proposed method and Dense-SIFT(in case of Top5 and Top10)
PPT Slide
Lager Image
제안 방법과 Dense-SIFT의 실험 결과 이미지 (우선순위 : 좌상단에서 우하단 순) Fig. 9. comparing the result images between the proposed and Dense-SIFT
그림 9 의 하단에 보이는 것처럼, 29번째 테스트 이미지의 경우, Dense-SIFT가 10개를 고려하는 경우, 한 개를 더 찾아냈으나, 1개만을 출력하는 것을 고려할 경우, Dense-SIFT는 오류를 내고 있으며, 5개만을 출력하는 경우에도 1개만 제대로 찾는 등 제안 방법 대비 성능이 떨어짐을 알 수 있다.
한편, 그림 10 에 스케일 변화(50 ~ 200%)에 따른 실험 결과를 기존 방식의 결과와 함께 보였다.
PPT Slide
Lager Image
제안 방법과 Dense-SIFT의 스케일 변화 실험 결과 이미지 (우선순위 : 좌상단에서 우하단 순) Fig. 10. comparing the result of scaled image between the proposed and Dense-SIFT
Dense-SIFT의 경우, 그림에서 보는 바와 같이 질의영상을 가장 높은 순위로 검색을 하였으나, 이후 유사한 이미지 검색에서 Top5에는 한 개를 Top10에서는 3개를 추가로 찾는데 성공한 반면에, 제안 방식은 Top5에서 모두 찾았고, Top10에서는 두 개를 뺀 나머지 모두를 찾는데 성공하였다. 이는 제안 방식에서 사용된 LBPROT_35가 스케일 변화 때 발생되는 통계적인 변화 요소를 최대한 억제하도록 해 주어 스케일에 덜 민감하도록 해 주었기 때문이다.
마지막으로 트레이닝 과정 및 테스트 과정 각각에 대해 수행 시간 비교를 아래 표1 에 보였다. 동일한 사양의 PC(Intel Xeon CPU 2GHz, 16GB RAM) 환경에서 실험한 결과, 제안 방식이 종래 Dense-SIFT에 추가로 LBPROT_35와 HLS 기반의 컬러 디스크립터를 추가로 수행하는 관계로 트레이닝에서 11.5%, 테스트에서 6.9% 정도 더 소요되었으나, 본 제안 방식이 서비스에 제공되어 사용자가 이용하는 상황인 테스트 과정의 경우, 제안 방식이 0.31초로, 종래 방식의 0.29초 대비 사용자가 차이를 느끼기 어려운 미미한 수준이었다.
제안 방식과 종래 방식 사이의 처리 속도 비교
PPT Slide
Lager Image
Table 1. Time consumption comparison between the proposed method and Dense-SIFT
Ⅴ. 결 론
본 논문에서 우리는 비정형 의류 검색을 위한 회전 및 스케일 불변 고성능 의류 분류기 및 검색기를 제안 하였다. 기존의 SIFT 방법을 의류 검색에 사용할 경우, 의류의 비정형 특성으로 인하여 트레이닝 및 검색 과정에서 왜곡이 많이 발생하여 성능이 매우 떨어지는데, 본 논문의 제안 방법은 이러한 단점을 극복하여 비정형 의류에서도 높은 검색 성능을 발휘할 수 있도록 LBPROT_35 디스크립터와 HLS 기반 컬러 디스크립터를 적용하여 성능을 극대화 할 수 있게 하였다. 특히 LBPROT_35 디스크립터의 경우, 기존의 LBP_ROT와는 달리, 신호의 특징이 압축되어 있는 엣지 부분에 관심을 집중하여 우수한 특징 정보 습득은 물론, 원 영상의 스케일 변화에 따른 변형을 최소화 할 수 있게 하였고, HLS 기반 컬러 디스크립터는 의류 검출에 있어서 큰 중요도를 차지하는 색깔 분류를 위해 색 공간을 11개로 양자화 하여 11개의 색깔 기반의 히스토그램으로 만들어져, 이를 바탕으로 분류기로 사용되어졌으며 색깔 검색에 있어서 우수한 성능을 발휘할 수 있게 해 주었다.
여러 가지 질의영상으로 Dense-SIFT와 제안 방법을 비교 실험을 한 결과, 하나의 결과만을 출력하도록 하는 실험에서는 제안 방법이 94.4%로 Dense-SIFT의 63.9% 보다 월등히 우수하였고, 5가지 후보를 출력하는 실험에서도 모두 Dense-SIFT 보다 더 많은 유사 의류 패치를 검색해 내었다. 한편, 10개의 유사 패치를 출력하는 실험에서도 단 하나만을 빼고 모두 제안 방법이 더 우수한 결과를 내었다. 결과적으로 회전 및 스케일에 변화가 많은 비정형 의류 검색에 있어서 제안 방법은 Dense-SIFT 단점을 극복하여 월등히 높은 검색 결과를 가져다주므로 실제 제품화에 적용될 경우 큰 효과를 가져다 줄 것으로 기대된다.
BIO
황 인 성
- 1995년 : 인하대학교 전자공학과 석사
- 현재 : 연세대학교 전기전자공학부 박사과정, SK플래닛 근무
- 주관심분야 : 영상 검색 및 영상 신호처리, 비디오 압축 등
조 법 근
- 2013년 2월 : 연세대학교 전기전자공학부 학사
- 현재 : 연세대학교 전기전자공학부 석사과정
- 주관심분야 : 패턴인식, 기계학습 등
전 승 우
- 2014년 2월 : 연세대학교 전기전자공학부 학사
- 현재 : 연세대학교 전기전자공학부 석박통합과정
- 주관심분야 : 패턴인식, 기계학습 등
최 윤 식
- 1979년 : 연세대학교 전기공학과 학사
- 1984년 : 클리브랜드 케이스 웨스턴 리저브 대학교 석사
- 1987년 : 팬실베니아 주립 대학교 석사
- 1990년 : 일리노이즈 퍼듀 대학교 박사
- 1990년 ~ 1993년 : 현대전자 산업전자연구소 수석연구원
- 1993년 ~ 현재 : 연세대학교 전기전자공학부 교수
- 주관심분야 : 비디오 코딩, 비디오 통신, 통계적 신호처리, 디지털영상처리 등
References
Kumar S. Suresh , Ganesan L. 2008 “Texture classification using wavelet based laws energy measure.” International Journal of Soft Computing 3 (4) 293 - 296
Yang Ming , Yu Kai 2011 “Real-time clothing recognition in surveillance videos.” IEEE Image Processing (ICIP), 2011 18th IEEE International Conference on.
Zhang Jianguo (2007) “Local features and kernels for classification of texture and object categories: A comprehensive study.” International journal of computer vision 2007. 73 (2) 213 - 238    DOI : 10.1007/s11263-006-9794-4
Pietikäinen Matti , Ojala Timo , Xu Zelin (2000) “Rotation-invariant texture classification using feature distributions.” Pattern Recognition 2000. 33 (1) 43 - 52    DOI : 10.1016/S0031-3203(99)00032-1
Yuan Shuai , Tian YingLi , Arditi Aries (2011) “Clothing matching for visually impaired persons.” Technology and disability 2011. 23 (2) 75 - 85
Ahonen Timo , Matas Jiri , He Chu , Pietikanen Matti 2009 “Rotation Invariant Image Description with Local Binary Pattern Histogram Fourier Features”, LNCS 5575 61 - 70
Viola Paul , Jones Michael J. (2004) “Robust real-time face detection.” International journal of computer vision 2004. 57 (2) 137 - 154    DOI : 10.1023/B:VISI.0000013087.49260.fb
Lowe D. G. 1999 Object recognition from local scale-invariant features. Kerkyra, Greece In IEEE International Conference on Computer Vision (ICCV) 1150 - 1157
Liu C. , Yuen J. , Torralba A. , Sivic J. , Freeman W. T. 2008 SIFT flow:dense correspondence across different scenes. In European Conference on Computer Vision (ECCV)
Wolf L. , Hassner T. , Taigman Y. 2008 “Descriptor based methods in the wild” in Proc. ECCV
Ruiz-del-Solar J. , Verschae R. , Correa M. 2009 “Recognition of faces in unconstrained environments: A comparative study” EURASIP Journal on Advances in Signal Processing 2009 1 - 20    DOI : 10.1155/2009/184617
Ahonen T. , Hadid A. , Pietikainen M. 2006 “Face description with local binary patterns: Application to face recognition” IEEE Transactions on Pattern Analysis and Machine Intelligence 28 (12) 2037 - 2041    DOI : 10.1109/TPAMI.2006.244
Rodriguez Y. , Marcel S. 2006 “Face authentication using adapted local binary pattern histograms” Lecture Notes in Computer Science 3954 321 -
Canny John 1986 “A computational approach to edge detection.” Pattern Analysis and Machine Intelligence, IEEE Transactions on 6 (1986) 679 - 698    DOI : 10.1109/TPAMI.1986.4767851
Joblove George H. , Greenberg Donald 1978 (August 1978). “Color spaces for computer graphics”. Computer Graphics 12 (3) 20 - 25    DOI : 10.1145/965139.807362
Swain Michael J. , Ballard Dana H. (1991) “Color indexing.” International journal of computer vision 1991. 7 (1) 11 - 32    DOI : 10.1007/BF00130487
Swain M. J. , Ballard D. H. 1991 “Color indexing” IJCV 7 (1) 11 - 32    DOI : 10.1007/BF00130487
Bentley J. L. 1975 Multidimensional binary search trees used for associative searching. Communications of the ACM 18 (9) 509 - 517    DOI : 10.1145/361002.361007
Silpa-Anan Chanop , Hartley Richard 2008 “Optimised KD-trees for fast image descriptor matching.” IEEE Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on.
Wu Xindong , Kumar Vipin , Quinlan J. Ross , Ghosh Joydeep , Yang Qiang , Motoda Hiroshi , McLachlan Geoffrey J. , Ng Angus , Liu Bing , Yu Philip S. , Zhou Zhi-Hua , Steinbach Michael , Hand David J. , Steinberg Dan 2007 Top 10 algorithms in data mining. Knowl. Inf. Syst. 14 (1) 1 - 37    DOI : 10.1007/s10115-007-0114-2
Elkan Charles 2003 “Using the triangle inequality to accelerate k-means.” ICML. 3