Advanced
Hybrid Camera System with a TOF and DSLR Cameras
Hybrid Camera System with a TOF and DSLR Cameras
Journal of Broadcast Engineering. 2014. Jul, 19(4): 533-546
Copyright © 2014, The Korean Society of Broadcast Engineers
  • Received : July 03, 2014
  • Accepted : July 28, 2014
  • Published : July 30, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
수현 김
재인 김
태정 김
tezid@inha.ac.kr

Abstract
본 논문은 Time-of-Flight(ToF) 깊이 카메라와 DSLR을 이용한 사진측량 기반의 복합형 카메라시스템 구성방법을 제안한다. ToF 깊이 카메라는 깊이 정보를 실시간으로 출력하는 장점이 있지만 제공되는 명암 영상의 해상도가 낮고 획득한 깊이 정보가 물체의 표면상태에 민감하여 잡음이 발생하는 단점이 있다. 따라서 깊이 카메라를 이용한 입체 모델 생성을 위해선 깊이 정보의 보정과 함께 고해상도 텍스처맵을 제공하는 복합형 카메라의 구성이 필요하다. 이를 위해 본 논문은 상대표정을 수행하여 깊이 카메라와 DSLR의 상대적인 기하관계를 추정하고 공선조건식 기반의 역투영식을 이용하여 텍스처매핑을 수행한다. 성능검증을 위해 기존 기법의 모델 정확도와 텍스처매핑 정확도를 비교 분석한다. 실험결과는 제안 기법의 모델 정확도가 더 높았는데 이는 기존 기법이 깊이 카메라의 잡음이 있는 3차원 정보를 기준점으로 사용하여 절대표정을 수행한 반면에 제안 기법은 오차정보가 없는 두 영상간의 공액점을 이용했기 때문이다.
Keywords
Ⅰ. 서 론
산업자동화나 로봇제어, 비디오 감시시스템 등의 분야에서 활용되던 깊이 카메라가 최근 일반인을 위한 모션 캡처 장비로 저렴한 가격에 출시되며 이를 3차원 입체 복원 관련 분야에 활용하는 연구가 급증하고 있다. 깊이 카메라 이용의 주된 목적은 촬영한 장면에 대한 깊이 혹은 거리정보 획득에 있으며, 작동원리에 따라서 Time-of-Flight(이하 ToF)와 구조광(Structure Light)방식으로 구분된다.
ToF 방식은 적외선 신호를 측정하고자 하는 물체에 투사하여 반사되는 시간을 측정하고 깊이 정보를 실시간으로 획득하는 기법이다. 대표적인 ToF 방식의 깊이 카메라 제품으로는 Mesa-Imaging사의 SR4000, 3DVsystems사의 ZCamTM, PMD사의 Camcube 등이 있다. ToF 깊이 카메라는 실시간으로 물체의 깊이 정보를 추출할 수 있어 3차원 입체 영상 생성 등에 사용돼 왔다. 작동범위가 넓으며(0~10m) 환경 제약이 상대적으로 적고, 동기신호를 받을 수 있어 송출신호 간 간섭이 없는 범위 내에서는 몇 대의 카메라를 동시에 설치해 장면을 획득할 수 있다. 하지만 잡음에 매우 민감해 후처리가 필요하며, 최근 출시된 카메라들은 대부분 해상도가 176x144 등으로 매우 낮고 색상 정보를 제공하지 않아 3차원 입체 복원에 단독적인 사용이 어렵다는 단점이 있다 [1] [2] .
구조광 방식은 랜덤 패턴을 물체에 투사하고 패턴의 변화를 이용하여 깊이 혹은 거리를 측정한다. 대표적으로 Microsoft사의 Kinect가 있다. Kinect는 깊이 센서와 함께 장착된 RGB 카메라를 이용하여 3차원 정보 외에도 색상 정보를 획득할 수 있는데, 이를 이용한 3차원 입체 모델 생성, 3차원 영상 구성, 실내지도 작성 등의 3차원 입체 복원 관련 분야의 연구가 활발히 진행되고 있는 추세이다 [3] . Kinect는 ToF 깊이 카메라에 비하여 상당히 저가이며 초당 30 프레임의 속도로 640x480 해상도의 깊이 영상과 색상 영상을 출력한다. 하지만 모션 캡쳐 기능을 기본 목적으로 하므로 3차원 입체 모델 복원을 수행하기 위해선 깊이 센서와 장착된 RGB 카메라 사이에 보정을 별도로 수행해야 한다. 또한 측정 거리의 제약이 있어 약 1미터 이상 3.5미터 이내일 때만 깊이 정보 추출이 가능하며 그 이상의 촬영 거리에선 깊이정보의 정확도가 현저하게 줄어든다 [4] . Microsoft사는 이러한 구조광 깊이 카메라의 단점을 고려하여 ToF 방식의 Kinect2를 2014년 출시예정에 있다.
3차원 입체 모델 생성을 위해선 형상 정보를 표현하기 위한 깊이 영상과 물체의 표면 정보를 표현하는 색상 영상이 필요하다. 초기 ToF 깊이 카메라는 깊이 영상만을 제공하였으므로 깊이 센서를 통해 생성한 3차원 입체 모델의 정확도 향상에 연구 방향의 초점이 맞춰져 있었다 [5] . 그러나 구조광 깊이 카메라의 등장으로 깊이 정보와 색상 정보를 이용한 3차원 입체 모델 생성과 관련된 연구 또한 활발히 진행되고 있다 [6] . 이러한 가운데 ToF 방식의 SR4000과 구조광 방식의 Kinect의 성능을 비교하는 연구도 진행되었으며 촬영 거리와 대상 물체의 종류에 따라 두 방식의 카메라가 다른 성능을 보임이 확인되었다 [4] [7] . 해당 연구에서는 촬영 거리가 1.5m 이내일 때는 Kinect가 더 좋은 정확도를 보였지만 촬영 거리가 1.5m 이상으로 멀어지는 경우와 반사되는 물체에 대한 정확도는 SR4000의 성능이 더 우수함이 실험적으로 증명되었다.
최근에는 이러한 ToF 방식의 장점을 활용하고 색상 영상을 제공하지 않는 단점을 보완하기 위해 DSLR과 같은 고해상도의 RGB카메라를 복합형 시스템으로 구성하여 깊이 정보와 색상 정보를 함께 추출하고 이를 통해 3차원 입체 복원을 수행하는 방식이 주목받고 있다. Li [8] 는 강체변환식(rigid transformation)을 적용한 이미지 투영 모델을 이용하여 ToF 카메라(CamCube 3.0)와 VGA급의 RGB 카메라 사이의 외부변수를 추출하고, 이를 통해 깊이 카메라가 제공하는 포인트클라우드(3차원 정보)에 대응하는 색상 정보를 RGB 카메라로부터 추출하는 기법을 제안하였다. 정하형 [9] 은 Kinect내부에 있는 깊이 센서와 RGB 센서를 표준 오브젝트를 이용하여 개별적으로 보정하고 외부변수를 각각 추출하여 그 차이를 통해 두 센서간의 외부변수를 추출하는 이종 센서간의 정합기법을 제안했다. 권순철 [10] 은 Kinect와 DSLR을 복합형 카메라 시스템으로 구성하여 고해상도의 텍스처맵을 생성하고 이를 통해 고해상도 3D 객체를 생성하는 방법을 제안했다. 기존의 연구들은 ToF 깊이 카메라와 RGB 카메라간의 외부변수를 추출할 때 컴퓨터비전 분야에서 일반적으로 사용하는 강체변환식에 Levenberg Marquardt 알고리듬을 적용하는 이미지투영 모델을 이용하였다 [11] . 이 기법은 기준 좌표계 상에서의 3차원 기준점 정보와 매칭쌍을 이루는 영상 좌표를 이용하여 해당 영상의 외부 표정요소를 추출하는 절대표정 방식이며 기존 연구에서는 ToF 깊이 카메라의 3차원 정보를 기준점으로 이용하였다. 하지만 ToF 깊이 카메라에서 획득되는 깊이 정보는 물체의 표면상태(질감, 색상)에 민감하여 잡음이 발생하므로 기준점의 정확도가 떨어진다는 문제가 있다 [8] . 또한 외부변수 추출을 통해 구성된 복합형 카메라 시스템의 정확도는 실제거리와의 정확도 비교정도로만 수행되었고 다른 기법과의 비교분석은 이루어지지 않았다. 따라서 깊이 카메라의 잡음이 포함된 3차원 정보를 기준점으로 이용하는 절대표정의 방식이 아닌 다른 방식의 접근과 비교분석이 필요하다.
본 논문에서는 기준점에 대한 정보 없이 두 장의 연속 사진만으로 촬영 당시의 상황을 재현하는 수치사진측량의 상대표정기법을 이용하여 ToF 깊이 카메라(Mesa-Imaging SR4000)와 DSLR(Canon EOS 450D)간의 정확한 기하구조를 결정하고 이를 통해 복합형 카메라 시스템을 구성하는 방법을 제안한다. 제안 기법은 기존 연구와는 다르게 두 카메라간의 기하추정 단계에서 깊이 카메라의 오차가 포함된 3차원 정보가 아닌 깊이 카메라의 명암 영상과 DSLR의 색상 영상을 사용하므로 깊이 카메라의 잡음에 영향을 받지 않으며 이로 인해 두 카메라 사이의 정확한 기하구조 추정이 가능하다. 복합형 카메라는 3차원 입체 모델 생성에 있어 고해상도의 텍스처맵을 제공함으로써 ToF 깊이 카메라가 가지는 단점을 보완할 수 있는데, 이를 위해 먼저 두 카메라의 내부표정을 수행하고, 깊이 정보의 잡음보정을 수행한다. 그 다음 명암 영상과 색상 영상의 공액점을 이용한 상대표정을 통해 두 카메라간 기하구조를 결정하고 깊이 정보에 대응하는 색상 영상 좌표를 추출하는 텍스처매핑을 수행한다. 제안된 방식의 성능을 검증하기 위하여 기존 연구에서 사용한 이미지 투영 모델과 제안 기법의 정확도를 비교 분석하고 그 결과를 제시한다.
이하 본 논문의 구성은 다음과 같다. Ⅱ장에서는 ToF 깊이 카메라의 특성에 대하여 언급하고 Ⅲ장에서는 수치사진 측량 기법을 이용한 복합형 카메라 시스템 구성에 관하여 기술한다. 그리고 Ⅳ장에서는 기존 연구에서 사용한 이미지 투영모델과 제안 기법의 모델 정확도와 텍스처매핑 정확도를 검증하는 방법에 대해 설명하고 비교분석한 결과를 정리한 뒤 Ⅴ장에서는 결론을 맺는다.
Ⅱ. Time-of-Flight 깊이 카메라의 특성
깊이 카메라는 카메라로부터 물체까지의 거리를 측정하여 영상으로 출력하는 장비이다. 깊이 카메라는 Time-of-Flight(ToF) 기술을 이용하여 카메라로부터 물체까지의 실제 거리를 측정한다. ToF 기술이란 장착된 센서로부터 나온 적외선 신호가 대상 물체에 반사되어 돌아오는 시간을 계산하여 거리를 측정하는 방식이다. ToF 깊이 카메라는 취득된 깊이 정보를 촬영 가능한 깊이 공간(0~10m)이 0부터 16383까지 14비트의 정수값을 가지도록 분할하고, 영상의 각 화소값에 측정된 원시 깊이 값을 14비트의 정수형태로 저장한다. 저장된 원시 깊이 정보는 양자화 과정을 통해 깊이 영상으로 표현된다. 즉 촬영하는 장면의 깊이 정보가 0부터 255 사이의 값을 가지도록 정규화 하여 적절한 화소값(Gray-Level)을 부여한다. 그림 1 은 Mesa-Imaging에서 제작한 ToF 깊이 카메라인 SR4000의 출력영상인데, 그림 1 (a)은 원시 깊이 정보가 정규화되어 생성된 깊이 영상이고 그림 2 (b)는 함께 취득되는 명암 영상(intensity)이다.
PPT Slide
Lager Image
SR4000의 출력 영상 Fig. 1. Acquired images of SR4000
저장된 원시 깊이 정보를 3차원 정보로 변환하기 위해선 14비트의 정수값이 아닌 실세계 수치 단위(meter)로 변환된 깊이 정보가 필요하다. 이는 깊이 카메라의 깊이 공간 해상도 값과원시 깊이 정보를 이용한 식 (1)의 연산을 통해 계산이 가능하다. 이때 깊이 공간 해상도는 촬영 가능한 깊이 공간을 14비트 정수값의 범위로 분할함으로써 계산이 가능하며 그 값은 0.6104mm이다. 식 (1)에서 Depthraw 는 원시 깊이 정보, Depthres 는 깊이 공간 해상도, Depthmillimeter 는 변환된 실세계 millimeter 단위의 깊이 정보이다.
PPT Slide
Lager Image
변환된 깊이 정보는 3차원 정보가 2차원 평면에 투영된 것으로 깊이 카메라의 내부변수를 이용한 좌표계변환 기능을 통해 깊이 카메라 좌표계 기준의 3차원 정보 ( x , y , z )로 변환된다. 변환된 3차원 정보는 포인트클라우드라 일컬어지고 깊이 카메라 전면의 중심을 원점으로 하는 직교 좌표계를 사용한다. 변환과정은 Ⅲ장에서 설명하도록 한다. 그림 2 는 깊이 카메라의 좌표계를 나타내고 그림 3 은 포인트클라우드를 나타낸다.
PPT Slide
Lager Image
깊이 카메라의 직교좌표계 Fig. 2. Cartesian coordinates of depth camera
PPT Slide
Lager Image
정면 시점의 포인트클라우드 Fig. 3. Scene of Pointcloud
일반적으로 ToF 방식의 깊이 카메라는 깊이 영상과 명암 영상을 함께 제공한다. 명암 영상은 깊이 영상과 일대일로 대응하는데 이는 곧 명암 영상의 각 화소에 깊이 정보가 아닌 촬영 대상물에 대한 명암값(intensity value)이 저장됨을 의미한다. 명암 영상은 주로 카메라 보정을 위해 사용되며 낮은 해상도와 깊이 영상의 잡음 때문에 카메라 보정작업 이외에는 활용이 어렵다.
Ⅲ. 복합형 카메라 시스템 구성 방법
복합형 카메라는 깊이 카메라와 색상 카메라로 구성되며 깊이 영상과 색상 영상을 함께 제공한다. 이때 깊이 영상에 대응하는 색상 영상의 좌표 정보를 추출해야 하는데 이를 위해선 두 카메라간의 기하구조를 결정해야한다.
본 장에서는 두 카메라의 내부변수 추출 및 왜곡보정을 위한 내부표정 과정, 깊이 정보의 잡음보정 과정, 그리고 서로 다른 특성을 갖는 두 카메라 사이의 기하구조 결정을 수행하기 위한 제안 기법과 기존의 이미지투영 모델기반의 절대표정 방식에 대하여 기술하였다.
- 1. 촬영환경
스테레오 리그를 이용하여 SR4000을 리그의 왼쪽에, DSLR을 오른쪽에 배치하고 정면을 바라보도록 고정하였다. 표 1 은 SR4000과 DSLR에 대한 제원 및 본 연구에서 사용한 장비의 옵션정보이다. 그림 4 는 스테레오 리그에 장착된 복합형 카메라의 모습이다.
복합형 카메라 시스템의 제원 정보
PPT Slide
Lager Image
Table 1. Specification of hybrid camera system
PPT Slide
Lager Image
스테레오 리그에 설치된 복합형 카메라 Fig. 4. Hybrid camera on stereo rig
- 2. 내부표정
일반적으로 영상은 3차원 환경이 2차원 평면에 투영된 것으로 그림 5 와 같은 핀홀 카메라 모델로 관계를 표현할 수 있다 [12] . 카메라 투영중심을 원점으로 하는 좌표계에서 표현된 3차원 공간상의 임의의 점 P ( X , Y , Z )는 영상 평면 좌표계상의 점 p ( x , y , f )로 대응되며 이에 따른 투영 변환식(Projective transform)은 식 (2)와 같이 나타낼 수 있다.
PPT Slide
Lager Image
핀홀 카메라 모델 Fig. 5. Pinhole camera model
PPT Slide
Lager Image
일반적으로 투영변환식은 실제 카메라 좌표계의 중심과 영상 평면 좌표계 중심의 불일치현상, 그리고 렌즈왜곡으로 인한 기하학적 오차가 발생한다. 따라서 중심 위치의 차이를 고려하기 위한 카메라 내부변수 ( fx , fy , cx , cy )와 렌즈왜곡계수( k 1 , k 2 , p 1 , p 2 )를 구해야 한다. 여기서 fx , fy x 축과 y 축의 카메라 초점거리, cx , cy 는 주점의 위치를 나타낸다.
식 (3)은 영상 좌표와 카메라 좌표간의 관계를 나타낸다. 이 때 영상 좌표계는 직관적으로 해석이 용이한 양화영상의 좌표계를 이용하였으며 f 값의 부호는 양수이다. u 는 영상의 column좌표, υ 는 영상의 row 좌표를 나타낸다.
PPT Slide
Lager Image
식 (2)에 식 (3)을 적용하면 카메라 내부 변수를 고려한 식 (4)으로 표현이 가능하다.
PPT Slide
Lager Image
깊이 카메라(SR4000)의 내부변수와 렌즈왜곡계수는 카메라 제조사에서 제공하는 내부변수 추출 프로그램을 통하여 취득하였다. EOS 450D의 내부변수와 렌즈왜곡계수의 추출은 일반적으로 널리 알려진 GML C++ Camera Calibration Toolbox를 이용하였다 [13] . 표 2 는 획득한 각 카메라의 내부변수이다.
각 카메라의 내부변수
PPT Slide
Lager Image
Table 2. Camera inner parameters
그림 6 은 SR4000의 렌즈왜곡 보정 전과 후의 영상이고 그림 7 은 EOS 450D의 렌즈왜곡 보정 전과 후의 영상이다.
PPT Slide
Lager Image
SR4000의 명암 영상 왜곡보정 Fig. 6. Correcting distortion of SR4000
PPT Slide
Lager Image
EOS 450D의 왜곡보정 Fig. 7. Correcting distortion of 450D
- 3. 깊이 영상 잡음보정
그림 8 (a)에 보이듯이 깊이 영상은 렌즈왜곡과 깊이 정보에 대한 심한 잡음(과대오차)이 존재한다. 이러한 문제는 깊이 정보를 3차원 정보로 변환할 때 기하학적 오차를 발생시키므로 보정작업이 필요하다. 다음으로 깊이 정보의 과대오차 제거를 위하여 메디안필터링을 수행한다. 메디안필터링을 위한 윈도우의 크기는 7x7을 사용하였다. 그림 8 (b)는 보정된 깊이 영상을 나타낸다.
PPT Slide
Lager Image
깊이 영상의 보정작업 Fig. 8. Correcting error of depth image
- 4. 깊이 영상의 포인트클라우드화
일반적으로 깊이 영상은 각 화소에 깊이 정보를 저장한 2.5차원의 정보 ( u , v , Z )이다. 하지만 실세계의 대상 물체에 대한 입체 모델 생성을 위해선 3차원 정보로 변환할 필요가 있다. 깊이 카메라의 내부변수를 고려한 식 (4)로부터 유도되는 식 (5)를 이용하면 보정된 깊이 영상을 실세계의 단위(미터, metre)를 가지는 포인트클라우드로 변환할 수 있다. 이 때 u 는 깊이 영상의 column 좌표, υ 는 row 좌표를 의미한다. 그림 9 (a)는 변환된 포인트클라우드를 정면 시점에서 바라본 장면이며 그림 9 (b)는 우측 측면 시점에서 바라본 장면이다.
PPT Slide
Lager Image
PPT Slide
Lager Image
포인트클라우드 Fig. 9. Pointcloud
- 5. 상대표정 기반의 제안 기법
일반적으로 사진측량분야에서는 두 카메라 사이의 기하구조를 추정하기 위한 방법으로 상대표정을 사용한다 [14] . 상대표정은 수학적으로 엄밀한 제약조건식과 최소제곱조정(LSE, Least-Squares Estimation Method) 과정을 거쳐 연속적인 중복영상만을 이용하여 두 카메라간의 정확한 외부 표정요소를 결정한다.
상대표정 방식은 종속적 상대표정과 독립적 상대표정으로 구분된다. 3차원 공간에서 카메라는 6개의 표정요소( BX , BY , BZ , ω , ϕ , k )를 갖는다. 따라서 두 카메라의 기하구조를 재현하기 위해선 총 12개의 표정요소를 결정해야 한다. 이때 종속적 상대표정은 왼쪽 카메라의 표정요소 중 BZ 값을 제외한 모든 요소를 ‘0(Zero)’으로 설정하고 오른쪽 카메라의 5개 표정요소( BY , BZ , ω , ϕ , k )를 구한다. 이때 왼쪽 카메라의 BZ 는 고정값(보통 ‘0’)으로 설정하고 우측 카메라의 BX 는 적당한 상수로 고정한다. 독립적 상대표정의 경우 두 카메라 모두 위치요소를 제외한 5개의 자세(회전)요소만을 이용한다. 독립적 상대표정에서 사용하는 5개의 표정요소는 일반적으로 왼쪽 카메라의 ϕ , k 와 오른쪽 카메라의 ω , ϕ , k 이다. 본 논문에서는 종속적 상대표정을 이용하였는데 이는 좌측에 배치된 깊이 카메라가 실세계의 3차원 좌표계를 지니고 있으므로 상대표정을 통해 생성되는 모델 공간 좌표계를 이와 동일하게 배치하기 위함이다. 이 방식을 통해 좌측 카메라의 투영중심을 기준으로 한 우측 카메라의 상대적인 자세(회전요소, ω , ϕ , k )와 위치요소( BX , BZ )만을 실제 추정하고자 하는 모델 방정식의 미지수로 간주하게 된다. 이때 우측 카메라 투영중심의 위치요소들 중 X 방향을 나타내는 BX 값은 상대표정을 통해 생성되는 모델 공간의 스케일과 관련된 요소이기 때문에 적당한 상수로 고정한다. 이를 통해 모델 방정식을 수립하기 위한 미지수의 개수는 총 5개로 최소화된다. 이러한 방식은 실제 촬영 환경상의 구조적 특성에 따라 유연한 조정이 가능하며, [15] 정확한 BX 산출을 위해선 상대표정 작업을 거친 후 생성된 모델 공간 좌표계와 깊이 카메라의 좌표계를 일치시키는 3차원 변환(3D Transformation) 작업이 필요하다.
제약조건식으로는 공면조건식을 이용하여 상대표정요소를 결정하였다. 공면조건식은 좌우로 배치된 카메라가 동일한 지점을 바라보고 있을 때, 각 카메라의 투영중심, 동일한 사진 좌표 그리고 대상 지점의 3차원 좌표가 하나의 평면을 구성함을 의미하며 그림 10 에 표현된 모델 공간상의 벡터들은 식 (6)-(8)과 같이 표현할 수 있다. 여기서 L1 은 좌측 깊이 카메라의 투영중심의 위치이며 종속적 상대표정에서는 모델 공간 좌표계의 원점으로 표현된다. L 2 ( BX , BY , ZY )는 우측 DSLR 카메라 투영중심의 모델 좌표계상의 상대적인 위치, p1 은 ToF 카메라의 사진 좌표, p2 는 DSLR 카메라의 사진 좌표, A 는 대상 지점의 모델공간상의 3차원 좌표이다.
PPT Slide
Lager Image
공간상의 공면조건식 Fig. 10. Coplanarity equation in model space
공면조건식은 그림 10 에 묘사된 공간상의 벡터들로부터 식 (6)와 같이 표현할 수 있다. 여기서 P , P 1 , P 2 는 각각
PPT Slide
Lager Image
을 의미한다. 식 (6)는 식 (7)로 표현되며 결과적으로 식 (8)을 통해 비선형의 공면조건식으로 나타난다.
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
최소제곱조정을 통해 5개의 표정요소를 구하기 위해서 식 (8)의 테일러 전개를 통한 선형화 과정 후에 반복적인 최소제곱조정을 통해 정확한 상대표정요소를 결정한다. 이 과정에서 5개 표정요소의 초기값은 모두 ‘0’으로 설정하는데 이는 일반적인 스테레오 촬영에 있어 두 카메라가 가지는 구조적 배치에 기인한다 [15] .
종속적 상대표정을 통해 생성된 모델 공간 좌표계는 설정된 기선거리에 따른 임의의 스케일을 가지고 있으며 깊이 카메라의 좌표계와 불일치한다. 따라서 3차원 변환을 수행하여 두 좌표계를 일치시키는 과정이 필요하다. 이 때 깊이 카메라의 좌표계를 기준으로 설정하며 이는 텍스처매핑 수행 시 계산의 복잡성을 최소화하기 위함이다. 그림 11 은 깊이 카메라의 좌표계를 기준으로 기선거리에 따른 모델공간 좌표계의 스케일 차이와 두 좌표계의 불일치를 나타낸다.
PPT Slide
Lager Image
공간모델과 깊이 카메라 좌표계의 불일치 Fig. 11. Inconsistency of the coordinate system
- 6. 이미지 투영 모델 기반의 기존 기법
OTOF 이용한 이미지 투영 모델 기법을 구현하였다. 이미지 투영 모델은 월드 좌표계를 카메라 좌표계로 바꾸는 절대표정 방식의 강체변환식을 이용하며 이를 위해선 대상 카메라의 내부표정요소와 최소 4개의 3D-월드좌표, 2D-영상 좌표 매칭쌍을 필요로 한다. 깊이 카메라의 3차원 정보와 DSLR 영상의 매칭쌍은 {{ XTOF , YTOF , ZTOF }, { xRGB , yRGB }}로 표현된다. 깊이 카메라 좌표계를 월드좌표계로 전제하여 변환을 수행하면 깊이 카메라로 추출한 3차원 정보에 대응하는 DSLR영상의 색상 영상 좌표를 추출할 수 있는 이미지 투영 모델이 수립된다. 식 (9)은 이미지 투영 모델을 나타낸다. 이때 OTOF ( XTOF , YTOF , ZTOF )는 깊이 카메라의 3차원 좌표계, ORGB ( XRGB , YRGB , ZRGB )는 DSLR 좌표계, R 3×3 은 회전행렬, T 3×1 은 평행이동행렬이다.
PPT Slide
Lager Image
변환된 3차원 좌표인 ORGB 는 식 (10)을 통해 색상 영상의 픽셀좌표로 변환된다.
PPT Slide
Lager Image
변환된 픽셀좌표는 매칭쌍의 픽셀좌표와 오차가 발생하며 이는 식 (11)으로 표현된다.
PPT Slide
Lager Image
식 (11)은 식 (9)-(10)를 적용하여 이미지 투영 모델의 미지수 행렬인 R 3×3 , T 3×1 을 포함한 비선형식으로 변환되며 이러한 비선형 오차 함수를 최소화시키는 기법인 Levenberg-Marquardt 알고리듬을 이용하여 R 3×3 , T 3×1 행렬을 구할 수 있다.
Ⅳ. 정확도 검증 및 비교분석
복합형 카메라는 깊이 카메라와 DSLR을 이용하여 고해상도의 텍스처맵을 ToF깊이 카메라에 제공하는 것에 목적이 있으며 그로인해 두 카메라간의 기하구조 추정과 텍스처매핑의 정확도가 매우 중요하다. 텍스처매핑은 두 카메라의 기하추정이 완료된 후 산출된 외부표정요소를 모델식에 적용하고 3차원 정보를 색상 영상에 역투영시킴으로써 3차원 정보에 해당하는 텍스처맵의 영상 좌표를 추출하는 과정을 의미한다. 따라서 체크점을 수동으로 추출하고 해당 체크점의 3차원 정보를 색상 영상에 역투영시켰을 때 생성되는 영상 좌표를 체크점의 영상 좌표와 비교하여 그 정확도를 분석할 수 있다.
본 장에서는 복합형 카메라 시스템에서 사용하는 텍스처매핑의 방식에 대해 설명하고 공선조건식 기반의 역투영식을 이용하여 제안 기법과 기존 기법의 모델 정확도와 텍스처매핑 정확도를 비교분석한다.
본 논문에서는 정확도 검증 실험을 위해서 그림 4 에 나타난 SR4000 깊이 카메라와 Canon EOS 450D DSLR을 복합형 카메라로 구성하여 실내 환경에서 실험을 진행하였다. 촬영 대상물은 그림 14 에 나타나는 카메라 보정용 체크보드를 이용하였으며 영상취득을 위한 프로그램 및 모든 알고리즘은 C++ 상에서 구현하였다. PC원격제어를 통한 카메라 영상 취득 프로그램 작성을 위하여 Mesa-Imaging사에서 제공하는 SRAPI(Swissranger ToF API), Canon사에서 제공하는 EDSDK(EOS Digital camera Software Develope Kit), 영상처리 프로그램은 OpenCV 2.3버전을 이용하였다.
- 1. 텍스처매핑
일반적으로 텍스처매핑 은 3차원 메쉬모델의 각 꼭지점을 텍스처맵에서의 좌표로 투영시키는 방법과 포인트클라우드에 저장된 RGB정보를 이용하여 메쉬 모델의 면 색상을 결정하는 방법이 있다. 첫 번째 방법은 선명한 질감 및 색상 정보를 얻을 수 있지만 텍스처맵이 파일 형태로 존재해야 하며 텍스처맵으로 변환되는 원영상의 품질에 영향을 받고 매핑 과정이 복잡하다는 단점이 있다. 두 번째 방법은 별도의 텍스처맵 파일이 필요 없고 복잡한 매핑 과정이 생략된다는 장점이 있지만 면 색상을 통해 질감 및 평균화된 색상 정보를 표현하므로 뿌옇게 보이는 현상이 발생하고 포인트클라우드의 점 밀도에 따라 입체 모델의 품질이 결정된다는 단점이 있다. 본 논문에서는 첫 번째 방법을 이용하여 텍스처매핑을 수행했으며 매핑방식은 공선조건식에 기반한 역투영식을 이용하였다.
텍스처맵은 색상 영상을 변환하여 생성되며 가로, 세로의 크기가 동일하면서 2의 승수로 이루어지고 좌측 하단을 원점으로 하며 0에서 1사이의 값으로 정규화된 uv 좌표계를 갖는다. 그림 12 는 색상 영상과 변환된 텍스처맵을 나타낸다.
PPT Slide
Lager Image
영상 좌표계와 텍스처맵 좌표계 Fig. 12. Coordinate of image and texture map
식 (12)는 일반적으로 알려진 공선조건식이다. 이때 r 은 회전행렬 R 의 성분이다. 상대표정을 통해 산출된 외부표정 요소와 텍스처매핑하고자 하는 3차원 좌표를 공선조건식에 변수로 사용하면 역투영된 사진 좌표를 산출할 수 있다. 따라서 식 (12)는 역투영식으로 이용되며 x , y 는 3차원정보가 역투영된 사진 좌표를 의미한다.
PPT Slide
Lager Image
역투영식으로 계산된 사진 좌표는 영상 좌표로 변환되고, 변환된 영상 좌표는 uv 좌표계로 변환된다. 그림 13 은 3차원 메쉬 모델에 텍스처매핑이 적용된 결과를 나타낸다.
PPT Slide
Lager Image
3차원 메쉬모델에 텍스처매핑 적용 전과 후 Fig. 13. Result of texture mapping
- 2. 모델 정확도 비교분석
본 논문에서는 상대표정을 이용하여 두 카메라간의 기하구조를 결정하는 모델을 수립하고 이를 통해 깊이 카메라를 기준으로 오른쪽 DSLR의 상대표정요소를 산출하였다. 정확한 상대표정요소를 알고 있을 때 두 영상의 공액점과 공선조건식을 이용하면 모델 공간상의 3차원 정보를 추출할 수 있다. 추출된 3차원 정보와 상대표정요소를 공선조건식 기반의 역투영식에 적용하면 우측 영상에서의 해당 지점의 사진 좌표를 산출해낼 수 있으며 역투영된 사진 좌표와 공액점의 사진 좌표와의 차이를 이용하여 수립된 모델의 정확도를 확인할 수 있다. 그림 14 는 역투영식을 이용한 모델의 정확도 검증 과정을 나타낸다. 이때 빨강색 점은 두 영상의 공액점이며 1번 화살표는 모델공간상의 3차원 정보(노랑색 점)의 추출을 의미한다. 파랑색 점은 역투영된 사진 좌표를 의미하며 2번 화살표는 역투영식을 통해 3차원 정보에 대응하는 사진 좌표를 산출함을 의미한다.
PPT Slide
Lager Image
제안 기법의 모델 정확도 검증 방법 Fig. 14 Accuracy verification of model
위와 같은 과정으로 기존 기법의 이미지 투영 모델식을 이용하여 역투영식을 계산하고 제안하는 기법과의 모델 정확도를 비교하였다. 표 3 은 제안 기법과 기존 기법을 이용하여 추출한 좌측의 ToF 깊이 카메라 좌표계를 기준으로한 우측 DSLR의 상대적인 위치와 자세를 나타낸다.
산출된 외부표정요소 비교
PPT Slide
Lager Image
Table 3. Comparison of extrinsic parameters
표 4 는 동일한 체크점을 이용하여 산출한 각 모델의 정확도 비교 결과이다. 모델 정확도는 제안 기법이 기존 기법에 비해 x 방향으로 약 5픽셀, y 방향으로 약 4픽셀 정도로 더 우수했다. 이때 제안 기법의 모델 정확도는 y 방향의 오차가 x 방향에 비해 약 10배정도 차이가 발생하는데 이것은 X방향을 기준으로 수립된 상대표정에서 나타나는 전형적 현상이다. 제안 기법의 모델 정확도가 상대적으로 매우 우수했으며 이는 두 카메라간의 기하구조가 정확하게 추정되었음을 의미한다.
모델 정확도 결과 비교
PPT Slide
Lager Image
Table 4. Comparison of model accuracy
- 3. 텍스처매핑 정확도 비교분석
제안 기법의 정확도 검증을 위하여 텍스처매핑 정확도를 분석하였다. 표 5 는 분석 방법 및 과정을 나타낸다.
텍스처매핑 정확도 검증 과정
PPT Slide
Lager Image
Table 5. Process of model accuracy verification
그림 15 는 텍스처매핑 정확도 검증 과정을 나타낸다. 이때 영상의 빨강색 점은 체크점의 영상 좌표이며, PTOF 는 체크점에 대응하는 3차원 정보, pback 은 3차원 정보로부터 역투영된 영상 좌표, ptrue 는 체크점의 영상 좌표이다. 1번 화살표는 체크점에 대응하는 깊이 카메라의 3차원 정보를 추출하는 과정이며 2번 화살표는 추출된 3차원 정보를 텍스처맵에 역투영시키는 과정이다.
PPT Slide
Lager Image
제안 기법의 텍스처매핑 정확도 검증 방법 Fig. 15. Accuracy verification of texture mapping
표 6 은 동일한 체크점을 이용하여 산출한 텍스처매핑 정확도 비교 결과이다. 그림 16 은 기존 기법과 제안 기법을 이용하여 역투영시킨 텍스처매핑 좌표를 참값(체크점)과 비교하는 내용이다. 여기서 파랑색 십자선의 중앙은 수동으로 취득한 체크점의 텍스처맵 좌표, 빨강색은 제안 기법을 통해 취득한 텍스처맵 좌표, 노랑색은 기존 기법을 통해 취득한 텍스처맵 좌표를 의미한다.
텍스처매핑 정확도 결과 비교
PPT Slide
Lager Image
Tale 6. Comparison of texture mapping accuracy
PPT Slide
Lager Image
텍스처매핑 정확도 비교 Fig. 16. Comparison of texture mapping accuracy
텍스처매핑의 정확도는 체크점의 개수를 30개로 고려했을때 제안 기법이 x 방향으로만 약 2.5픽셀 더 높은 것으로 나타났으나 텍스처맵이 고해상도임을 고려했을때 성능의 차이가 크지 않음을 알 수 있다. 상대표정을 통해 정확한 기하구조 추정이 수행되었음에도 정확도에 큰 차이가 없는 것은 역투영식에 사용되는 깊이 카메라의 깊이 정보가 보정과정을 거치며 오차를 포함하게 되고 이것이 역투영 과정에 영향을 주기 때문이다.
반면에 제안 기법은 모델 정확도에 있어서 상대적으로 높은 정확도를 보였는데 이는 제안 기법이 두 영상간의 공액점을 통해 상대표정을 수행하므로 깊이 카메라의 잡음정보로 인한 오차의 영향을 전혀 받지 않기 때문이다.
Ⅴ. 결 론
본 논문에서는 사진측량 기반의 상대표정기법을 적용한 복합형 카메라 구성 방법이 제안되었다. 기존의 복합형 카메라 구성 방법은 깊이 카메라와 DSLR 사이의 기하추정 단계에서 깊이 카메라의 오차정보가 포함된 3차원 정보를 기준점으로 이용한 이미지 투영 모델 기반의 절대표정을 수행하는데, 오차가 포함된 정보를 이용하므로 정확한 기하추정이 어렵다. 따라서 본 논문에서는 기하추정 단계에서 깊이 카메라의 명암 영상과 DSLR의 색상 영상을 이용하는 상대표정 알고리즘을 이용하여 깊이 카메라의 오차요인에 대한 강인성을 확보하고자 하였다. 알고리즘 검증실험에는 기존 이미지 투영 모델 기반의 기법을 비교알고리즘으로 채택하여 성능비교를 수행하였으며, 이를 위해 각각의 방법으로 외부표정요소를 산출한 뒤 역투영식을 이용하여 모델 정확도와 텍스처매핑의 픽셀거리 정확도를 산출 및 비교하였다. 제안 기법에서는 공선조건식을 이용한 역투영식을 사용하였고 기존 기법에서는 강체변환식에 3차원 정보를 이용함으로써 영상 좌표를 산출하였다. 실험결과 제안 기법의 모델 정확도가 더 높았으나 텍스처매핑의 정확도는 큰 차이가 없음을 확인했다. 실험과정에서 기존연구에서 사용한 이미지 투영 모델은 깊이 카메라의 잡음 정보에 큰 영향을 받음을 알 수 있었고 이는 곧 기존 기법이 깊이 카메라의 특성이나 성능, 텍스처맵의 해상도에 따라 텍스처매핑 정확도에 큰 영향을 받음을 의미한다. 반면에 제안 기법은 두 영상의 공액점만을 이용한 상대표정기법을 수행하므로 외부표정요소를 산출하는 과정에서 깊이 카메라 잡음정보의 영향을 받지 않아 정확한 기하구조 추정이 가능하였다. 따라서 복합형 카메라 시스템을 구성하는 두 카메라간의 기하구조를 추정하는데 있어서 깊이 카메라의 잡음정보에 영향을 받지 않고 픽셀단위 이하의 정확도를 가진 제안 기법이 적합함을 알 수 있다.
최근 3D 객체 복원 및 실내 지도 작성과 관련된 3차원 컨텐츠 제작 수요가 증가하면서 ToF 깊이 카메라에 대한 개발이 활발히 이루어지고 있다. 제안한 기법이 색상 영상을 취득할 수 없는 ToF 깊이 카메라의 단점을 보완하는데 유용하게 사용되기를 기대한다.
BIO
김 수 현
- 2013년 2월 : 인하대학교 지리정보공학과 학사
- 2013년 3월 ~ 현재 : 인하대학교 지리정보공학과 석사과정
- 주관심분야 : 3D 객체 복원, 복합형 카메라 보정, ToF 깊이카메라 활용
김 재 인
- 2010년 8월 : 인하대학교 지리정보공학과 학사
- 2013년 2월 : 인하대학교 지리정보공학과 석사
- 2013년 3월 ~ 현재 : 인하대학교 지리정보공학과 박사과정
- 주관심분야 : 3D 입체영상 생성, 위성영상 품질분석, 위성영상 활용
김 태 정
- 1991년 8월 : 한국과학기술원 전자공학과 학사
- 1992년 10월 : University College London 석사(위성공학)
- 1996년 2월 : University College London 박사(원격탐사)
- 1995년 8월 ~ 2001년 3월 : KAIST 인공위성연구센터 선임연구원
- 2001년 4월 ~ 2003년 8월 : KAIST 인공위성연구센터 연구교수
- 2003년 9월 ~ 현재 : 인하대학교 지리정보공학과 정교수
- 주관심분야 : 영상정합, 3D 객체복원, 3D 입체영상 생성, 센서모델링, 자동 DEM 생성, 수치도화기 개발
References
Yoon S. , Hwang B. 2012 3D reconstruction Technologies using multi view images Electronics and Telecommunications Research Institute 136 - 145
Um G. , Ahn C. , Lee S. , Kim K. , Lee K. 2004 Multi-Depth Map Fusion Technique from Depth Camera and Multi-View Images Journal of broadcast engineering 9 (3) 185 - 195
Newcombe Richard A. , Izad S. , Hilliges O. , Molyneaux D. , Kim D. , Davison A. J. , Kohi P. , Shotton J. , Hodges S. , Fitzagibbon A. 2011 KinectFusion: Real-Time Dense Surface Mapping and Tracking Mixed and Augmented Reality (ISMAR), IEEE International Symposium on Oct 127 - 136
Lange S. , Sunderhauf N. , Neubert P. , Drews S. , Protzel P. 2012 Advances in Autonomous Mini Robots: Autonomous corridor flight of a UAV using a low-cost and light-weight rgb-d camera Springer Berlin Heidelberg 183 - 192
Cui Y. , Schuon S. , Chan D. , Thrun S. , Theobalt C. 2010 3D Shape Scanning with a Time-of-Flight Camera. Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on June 1173 - 1180
Yoon S. , Hwang B. , Kim K. , Lim S. , Choi J. , Koo B. 2012 A Survey and Trends on 3D Face Reconstruction Technologies 2012 Electronics and Telecommunications Trends 2012 (2) 12 - 21
Hansard M. , Lee S. , Choi O. , Horaud R. P. 2012 Time of Flight Cameras: Principles, Methods, and Applications Springer 95 -
Li X. , Guo W. , Li M. , Chen C. 2013 Generating Colored Pointcloud Under the Calibration between TOF and RGB Cameras Information and Automation (ICIA), 2013 IEEE International Conference on Aug 483 - 488
Jung H. , Kim T. , Lyou J. 2012 3D Image Construction Using Color and Depth Cameras Journal of the Institute of Electronics Engineers of Korea - System and Control 49 (1) 1 - 7
Kwon S. , Lee S. , Son K. , Jeong Y. , Lee S. 2013 High resolution 3D object generation with a DSLR and depth information by Kinect. Korean Society For Computer Game 26 (1) 221 - 227
Jorge J. 1978 The Levenberg-Marquardt Algorithm: Implementation and Theory Springer Berlin Heidelberg
Lee N. , Park S. , Lee S. 2010 Visualization of The Three Dimensional Information Using Stereo Camera The journal of Korea Institute of Electronics Engineers - System and Control 47 (4) 15 - 20
Zhang Z. 2000 A Flexible New Technique for Camera Calibration IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (11) 1330 - 1334    DOI : 10.1109/34.888718
Kim J. , Kim T. 2012 Precise Rectification of Misaligned Stereo Images for 3D Image Generation Journal of broadcast engineering 17 (2) 411 - 421    DOI : 10.5909/JEB.2012.17.2.411
Kim J. , Kim T. 2013 Development of Photogrammetric Rectification Method Applying Bayesian Approach for High Quality 3D Contents Production Journal of broadcast engineering 18 (1) 31 - 42    DOI : 10.5909/JBE.2013.18.1.31
Lee E. , Ho Y. 2011 Generation of high-quality depth maps using hybrid camera system for 3-D video Journal of Visual Communication and Image Representation 22 (1) 73 - 84    DOI : 10.1016/j.jvcir.2010.10.006