Advanced
User-Calibration Free Gaze Tracking System Model
User-Calibration Free Gaze Tracking System Model
Journal of the Korea Institute of Information and Communication Engineering. 2014. May, 18(5): 1096-1102
Copyright © 2014, The Korea Institute of Information and Commucation Engineering
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/li-censes/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
  • Received : April 09, 2014
  • Accepted : May 07, 2014
  • Published : May 31, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
은지 고
Division of Digital Media, Ewha Womans University, Seoul 120-750, Korea
명준 김
Division fo Digital Media, Ewha Womans University, Seoul 120-750, Korea
mjkim@ewha.ac.kr

Abstract
적외선 조명을 이용한 간접시선추적 시스템에서는 촬영된 이미지에서 동공에 반사된 조명의 위치에 대한 캘리브레이션이 필수적이다. 하지만 안구의 크기나 머리의 위치에 따라 달라질 수도 있는 변수가 캘리브레이션 과정에서 정의된 상수로 계산에 포함되어 있어 오차를 감소시키는데 한계가 있다. 본 논문은 적외선 조명을 사용하면서도, 사용자 캘리브레이션 과정을 생략할 수 있는 방법을 연구한다. 반사각에 의한 글린트(glint)위치 차이에 영향을 받지 않게 하면서, 시스템의 모델과 시선 계산은 단순하게 하여 실시간 연산이 가능하도록 하는 것이 목표이다.
Keywords
Ⅰ. 서 론
시선 추적 시스템은 눈의 움직임을 분석하여 시선의 방향을 예측하는 디바이스이다 [1] . 모든 시선 추적 시스템은 카메라의 intrinsic 파라미터, 유닛간의 위치 관계, 눈의 파라미터 등을 정의해 주는 여러 가지의 캘리브레이션을 반드시 수행해야만 한다. 이러한 캘리브레이션 중에는 사용자가 실험 전에 거쳐야만 하는 과정도 있는데, 사용자가 시선을 추적하기에 앞서 여러 구역으로 나눠진 화면을 응시하는 방식으로 이루어진다. 특히, 간접 시선 추적 시스템 중 카메라로 촬영한 사용자의 눈 이미지를 분석하여 시선을 계산하는 feature-based 방식은 이러한 사용자 캘리브레이션 단계가 필수적이다. 조명이 각막에 한 번 반사된 것을 카메라로 촬영한 이미지에서 조명이 반사된 글린트의 위치가 실제로 그 조명 위치를 바라보았을 때의 동공 중심 위치와 다르기 때문이다.
본 논문은 적외선 조명을 사용하면서도, 사용자 캘리브레이션 과정을 생략할 수 있는 방법을 연구한다. 반사각에 의한 글린트(glint)위치의 차이에 영향을 받지않게 하면서, 시스템의 모델과 시선 계산은 단순하게 하여 실시간 연산이 가능하도록 하는 것이 목표이다.
다음의 2장에서 간접시선추적 시스템들과 이에 따른 캘리브레이션을 자세하게 설명한 후, 3장에서 본 논문이 제시하는 모델과 시선 계산 방법, 시스템의 구축 환경에 대해서 설명한다. 4장에서는 여러 사람에 대한 실험 결과를 통해 본 논문이 제시하는 모델에 대해 분석해 본다. 마지막 5장에서 본 논문에서 제시하는 방식을 정리한 후, 차후의 연구방향에 대해서 논의한다.
Ⅱ. 관련 연구
- 2.1. 적외선 반사를 이용한 시선 추적 시스템
적외선 반사를 이용한 시선 추적 시스템은 HMD나 안경과 같은 얼굴에 착용하는 별도의 장치 없이 화면에 머무는 시선을 추적할 수 있기 때문에 사용자 입장에서 추적 과정이 자연스럽고 편안하다는 장점이 있다. 적외선 반사를 이용한 시선 추적 시스템 중 feature-based 방식은 카메라로 촬영한 사용자의 눈 이미지를 분석하여 동공의 경계, 조명이 반사된 위치 등을 추출해 시선을 계산한다 [1] . 시선을 예측하는 과정에서 동공과 글린트는 매우 유용한 정보가 될 수 있는데, feature-based 방식에서는 카메라로 촬영한 이미지를 통해 이들을 비교적 쉽게 추출할 수 있다.
적외선 조명을 동공에 비추었을 때 카메라와 조명이 같은 축에 있지 않으면 그림 1 과 같이 동공이 어두운 영역으로 확연히 드러나기 때문에 외관상 얼굴의 다른 부분과 구별된다 [2] . 따라서 이를 이용해 동공의 중심좌표를 쉽게 얻을 수 있다. 또한 동공 주변에 적외선 조명의 반사가 일어난 글린트 부분을 이미지에서 추출할 수 있기 때문에 조명을 카메라와 화면 주변에 의도적으로 설치하여 시선을 계산하는 데 이용할 수 있다.
PPT Slide
Lager Image
적외선 조명이 반사된 동공과 글린트 Fig. 1 Pupil Reflecting IR-LED Lights and Glints
- 2.2. 시선 추적 시스템에서의 사용자 캘리브레이션의 의미와 필요성
적외선을 이용한 시선 추적 시스템은 적외선 LED의 빛이 반사된 눈을 카메라로 촬영하여 얻은 정보로 시선을 계산하기 때문에 캘리브레이션이 필수적이다. 적외선 LED는 일반적으로 사용자가 바라보는 화면 주변과 카메라 내부 또는 렌즈 주변에 설치된다. 그림 2 에서 사용자가 LED를 응시했을 때의 카메라에 설치된 LED의 글린트와 응시한 LED 글린트와의 관계를 나타냈다. 사용자가 LED를 응시했을 때 동공 중심은 LED를 향하게 된다. 이때, 카메라 글린트로부터 동공의 중심까지의 거리는 카메라 글린트로부터 응시한 LED 글린트까지의 거리의 두 배가 된다. 이때의 동공의 위치, 즉 LED글린트의 거리를 두 배로 한 위치를 기준으로 다른 곳을 응시하였을 때의 동공의 위치에서 시선 좌표를 역산 할 수 있는 것이다. 하지만 이것은 매우 이상적인 계산법으로, 실제로는 사용자가 LED를 응시하고 있더라도, 각막의 중심으로부터 동공의 중심을 잇는 선의 방향이 LED를 향해 있지 않으며 안구의 위치, 카메라와 LED의 위치에 따라서도 동공 중심과 글린트간의 거리 비율이 달라진다. 또한 촬영된 동공은 카메라 평면에 투영된 영상이므로, 동공을 촬영한 이미지에서의 글린트 사이의 거리가 각막에서의 길이에 비례하지 않는다. 따라서 이러한 차이를 보상하기 위한 캘리브레이션이 필요하다.
PPT Slide
Lager Image
사용자가 LED를 응시했을 때 카메라와 글린트의 이상적인 관계 Fig. 2 Ideal Relationship Between Camera and Glints when user look at LED
그림 2 와 같이 글린트 사이의 거리가 이상적일 때 카메라와 조명의 글린트, 동공의 중심의 관계를 식 (1)과 같이 나타냈다. uc 는 이미지 상의 카메라 글린트, ul 은 조명의 글린트, up 는 동공의 위치이다.
PPT Slide
Lager Image
[3] 에서는 uc ul 의 거리가 uc up 의 거리에 두 배가 아닐 경우에 대한 보상을 위해 사용자가 시선 측정전에 모니터 모서리에 위치한 4개의 조명을 응시하여 얻은 상수값 α 로 글린트 위치를 보정하였다. ul 을 보정한 후의 위치를 uv 라고 할 때, 식은 다음과 같다.
PPT Slide
Lager Image
식 (1)에서의 α 는 화면의 모서리에 있는 4개의 LED에 대해 다음과 같이 구하였다.
PPT Slide
Lager Image
그 다음, 4개의 보정된 글린트로 이루어진 평면위에 시선좌표가 있다고 가정한 후 Cross-Ratio 방식으로 시선을 계산하였다. 하지만 [4] [5] [3] 의 문제점으로 4개의 보정된 글린트로 정의된 평면 위에 동공의 중심이 있지 않다는 점을 지적하였다. [4] 는 화면상의 여러위치에 대한 α 를 구하여 전체화면에 걸쳐 최대한 오차를 줄일 수 있는 α 를 정의하였다. [5] 는 사용자마다 눈의 파라미터인 동공의 중심과 각막과의 거리, 각막의 지름의 함수를 만들어서 글린트의 위치를 보정했다. 또한 [6] 은 화면의 위치마다 다른 α 값을 각각 구한 다음 이를 행렬로 정의하여 시선좌표를 보정하는 데 사용하였다.
기존의 연구들에서는 α 에 대한 캘리브레이션이 모델의 구조와 시선의 계산 방식상 불가피한 일이기 때문에 다양한 방법으로 수행되었다. 본 논문에서는 식 (2)에서 α 를 이용하여 보정한 후의 글린트 uv 의 위치가 여전히 카메라의 중심과 조명 글린트를 지나는 선 위에 있다는 점을 이용하여 굳이 α 를 알지 않아도 시선을 계산할 수 있도록 시스템의 모델을 고안하였다.
Ⅲ. 시스템 구현
각막에서의 적외선 반사를 이용한 시선 추적 방식에서는 2.2에서 설명하였듯이 α 의 캘리브레이션이 불가피하다. 하지만 α 는 사용자가 같은 곳을 바라보고있더라도 머리의 회전각도와 위치, 카메라의 위치 등의 요인과 각막의 반지름, 동공과 각막 사이의 거리 등의 눈 파라미터에 따라 조금씩 달라진다. 이러한 값 α 를 사전 캘리브레이션 과정을 통해 상수로 정한 후 시선계산에 적용하는 방식은 시스템에서 시선좌표에 대한 오차를 줄이는데 한계가 있다. 본 논문에서는 α 값을 시선을 계산하는데 사용하지 않도록 하기 위해, α 를 이용하여 보정한 후의 글린트 uv 의 위치가 여전히 카메라의 중심과 조명 글린트를 지나는 선 위에 있다는 점을 이용하였다. 두 개의 카메라로 각각의 이미지마다 카메라의 중심과 조명 글린트를 지나는 선을 얻은 후, 그 두 개의 선이 교차하는 지점을 구함으로써 시선좌표를 얻는다.
- 3.1. 배율α의 추정이 필요 없는 시선 추적 시스템 모델 설계
본 논문에서 제시하는 시선 추적 시스템은 그림 3 과 같이 두 개의 카메라와 카메라 중심을 표시하기 위한 조명 및 화면 테두리의 조명을 이용한다. 사용자의 동공의 중심 gp 와 왼쪽과 오른쪽의 카메라의 중심 cL , cR , 화면에서의 사용자의 시선으로 이루어진 두 평면은 동공의 중심과 화면의 시선을 지나는 선에서 교차한다. 각각의 카메라의 중심과 시선을 연결한 선을 화면의 끝까지 연장하여 화면의 테두리와 교차한 곳을 lL , lR 이라고 할 때, 선
PPT Slide
Lager Image
PPT Slide
Lager Image
의 교차점은 화면의 시선 gd 와 같다. 기존의 연구들은 이미지의 글린트의 위치를 보정하기 위해 캘리브레이션 과정을 통해 배율 α 를 구한 다음시선을 구했지만, 본 연구에서 제시하는 시스템에서는 두 개의 카메라를 사용하여 카메라의 중심에서 동공의 중심을 향하는 선
PPT Slide
Lager Image
PPT Slide
Lager Image
를 교차 시키기때문에 배율 α 값을 계산할 필요가 없다.
PPT Slide
Lager Image
시스템 모델 Fig. 3 System Model
따라서 시선 좌표를 구하기 위해서는 선
PPT Slide
Lager Image
PPT Slide
Lager Image
을 정의하기 위해 모니터 테두리와 교차하는 lL , lR 의 좌표를 알아야 한다. 이는 화면 테두리에 여러 개의 적외선 LED를 설치함으로써 얻을 수 있다. 적외선 조명은 이미지 상에서 점으로 보일 수 있도록 최소한의 간격을 두고 설치해야 한다. 화면 하단 테두리에는 카 메라 두 대가 위치하고 있으므로 조명이 필요 없다.
- 3.2. 시스템 구현
3.1에서 제시된 모델을 구현함에 있어서 먼저 정해야할 것은 모니터 테두리 조명의 개수이다. 촬영된 이미지에서 각각의 조명이 잘 구분되도록 하는 것이 중요하다. 본 논문에서는 Point Grey사의 Dragonfly2 카메라와 Computar사의 M1614-MP2 렌즈를 사용하였으며 적외선 LED는 파장 940nm, 화각 ±20°의 제품을 사용하였다. 실험적으로 조명의 개수를 조절하여 촬영해 본 결과, 총 11개의 조명이 적절하다고 판단하였다. 또한 카메라 위치를 이미지에서 알 수 있게 하기 위해 카메라 렌즈 주변을 따라 적외선 LED를 설치하였다. 실험에 사용된 모니터의 해상도는 1280×1024 pixel이다. 구현된 시스템의 실제 모습은 그림 4 와 같다.
PPT Slide
Lager Image
구현된 시스템 Fig. 4 Prototype System
모니터 테두리의 11개의 조명을 동공에 비춘 모습을 보면, 동공 위에 걸쳐진 글린트가 많기 때문에 동공의 중심을 인식하기가 어렵다. 따라서 마이크로컨트롤러를 이용하여 카메라와 동기화하여 카메라 조명과 모니터 테두리의 조명을 매 프레임마다 번갈아 점등하도록 하였다. 동공의 중심과 글린트들의 위치는 모두 서브픽셀 단위로 계산하였다. 촬영한 동공의 모습은 그림 5 와 같다.
PPT Slide
Lager Image
촬영한 동공 이미지 - 카메라 조명 글린트(위), 화면 조명 글린트(아래) Fig. 5 Captured Pupil Images - Glint of Camera LEDs(Up), Glint of Display LEDs(Bottom)
- 3.3. 시선의 좌표 계산 방법
- 3.3.1. 조명과 카메라 위치의 픽셀 단위 변환
최종 시선을 계산하기 위해, 시스템 구현 단계에서 정한 조명과 카메라의 위치를 실측하여 픽셀 단위로 나타낼 필요가 있다. 그림 6 은 실측 비율에 따른 픽셀 단위의 레퍼런스 좌표를 나타냈다.
PPT Slide
Lager Image
조명과 카메라위치의 레퍼런스 Fig. 6 Reference of Position of LEDs & Camera
- 3.3.2. 시선 좌표 계산
두 이미지 좌표계에서의 선
PPT Slide
Lager Image
PPT Slide
Lager Image
을 3.3.1에서 설명한 레퍼런스 좌표계로 변환하기 위해, 3.3.2의 과정으로 전처리된 글린트들을 이어 각각의 선으로 정의한 다음선
PPT Slide
Lager Image
PPT Slide
Lager Image
이 교차하는 점을 계산하였다. 이 점은 화면 테두리 LED와 LED 사이의 거리 비율로써 정의하였다. 각각의 이미지 좌표계였던 선
PPT Slide
Lager Image
PPT Slide
Lager Image
을 하나의 레퍼런스 좌표계로 변환하고 나면, 이 두 선의 교차점이 화면에서의 사용자의 시선이 된다.
실제 시선은 동공의 중심에서 관자놀이 방향으로 4에서 5°, 아래 방향으로 1.5°정도 차이가 있는 것으로 알려져 있는데 [7] , 양쪽 눈의 시선을 둘 다 구하면 가로방향의 차이를 보완할 수 있다. 한 이미지에 양쪽 두 눈이 다 보이도록 촬영했기 때문에, 왼쪽, 오른쪽 눈에 대하여 시선 좌표를 구한다음, 두 눈의 시선의 중간 좌표를 최종 시선으로 계산하였다.
Ⅳ. 실험 및 결과
- 4.1. 실험 환경 및 방법
본 연구에서 구현된 시스템으로 3명의 실험 참여자에 대하여 시선 추적을 수행해 보았다. 화면과 실험 참여자와의 거리는 약 50~60cm 사이이며, 사용자의 머리의 움직임에 제한을 두지는 않았다. 모니터 화면에 표시된 3×3 의 총 9개의 점을 각각 바라보는 상태에서 시선 좌표를 실시간으로 계산하여 기록하였다.
- 4.2. 실험 결과
실험 참여자 3명에 대한 결과 그래프는 그림 7 -10과 같다. 오차 계산을 위해 사용자에게 응시하도록 한 9개의 점의 위치와 시스템이 계산한 시선 값의 차이를 RMSE(Root-Mean Square Error)로 표현하였으며, 모든점에 대한 RMSE 평균값은 표 1 과 같다. [3] 의 실험에서는 실험 전 4개의 적외선 LED에 대하여 알파를 구하기 위한 캘리브레이션을 수행하였으며, Cross-Ratio 방식으로 시선을 추적 한 결과, RMSE는 약 11.21 mm 로, 본 논문의 시스템이 캘리브레이션 과정을 거치지 않았음에도 불구하고 비교적 작은 오차가 발생한 것으로 나타났다. 또한 논문 [8] 이 제시한 시스템은 캘리브레이션을 생략하는 대신 눈의 파라미터를 이용한 3차원 시선 추적 방식을 사용하였는데, RMSE 값은 사용자의 따라 8.40~16.55 mm 로, 본 논문은 3차원 모델의 RMSE 결과 값보다도 낮은 것으로 나타났다. 따라서 본 논문이 제시한 시선추적 시스템은 기존의 연구에 비하여 사용자 캘리브레이션을 수행하지 않으면서도, 기존의 시스템과 비슷하거나 더 높은 수준의 정확도를 가졌다고 볼 수 있다.
실험 참여자별 RMSETable. 1RMSE of each Participants
PPT Slide
Lager Image
실험 참여자별 RMSE Table. 1 RMSE of each Participants
PPT Slide
Lager Image
1번 실험 참여자의 결과 그래프 Fig. 7 Result Graph of Experiment Participant 1
PPT Slide
Lager Image
2번 실험 참여자의 결과 그래프 Fig. 8 Result Graph of Experiment Participant 2
PPT Slide
Lager Image
3번 실험 참여자의 결과 그래프 Fig. 9 Result Graph of Experiment Participant 3
Ⅴ. 결 론
적외선 조명을 이용한 간접시선추적 시스템에서는 촬영된 이미지에서 동공에 반사된 조명의 위치에 대한 캘리브레이션이 필수적이다. 시선 추적을 하기에 앞서, 사용자가 특정 지점 여러 개를 바라보도록 하여 시선 예측의 오차를 크게 보완할 수 있다. 하지만 이러한 과정은 사용자에게 불편을 줄 뿐만 아니라, 시선과 머리의 위치, 사용자의 눈 파라미터에 따라 달라질 수도 있는 변수가 고정된 값으로 계산에 포함되어 있기 때문에 오차를 감소시키는데 한계가 있다. 본 논문이 제시하는 모델은 사용자에 대해 캘리브레이션을 하지 않았음에도 불구하고, 기존의 연구들과 비슷한 정확도를 나타냈다는 점에서 유의미하다고 할 수 있다. 사용자 캘리브레이션 과정이 필요 없기 때문에 사용자와 실험자에게 추적과정이 수월하고, 고정된 상수 값이 계산에 포함되어 있지 않아 실시간 시스템에도 적합하다. 적외선 조명의 개수가 많아 동공인식에 어려움이 있기 때문에 2개의 프레임에 걸쳐 계산해야 한다는 단점이 있지만, 고속 또는 고해상도의 카메라를 사용하여 극복할 수 있다.
본 논문이 제시하는 모델에서 정확도에 영향을 미치는 가장 중요한 요인은 이미지에서의 동공의 중심과 글린트, 카메라의 위치의 정확도이다. 시선 좌표의 오차를 최소화시키기 위해서는 추후 연구에서 이러한 요소들의 정확도를 수치상으로 나타내 볼 필요가 있다. 또한, 두 눈 사이의 중간값을 시선으로 함으로써 동공의 중심과 실제 시선과의 차이를 줄였지만, 아래 방향으로의 차이는 여전히 남아 있어 이 점을 보완해야 할 것이다.
BIO
고은지(Eun-Ji Ko) 2007년 홍익대학교 전자전기공학 학사 2009년 이화여자대학교 디지털미디어학 석사 2013년 이화여자대학교 박사 수료 2007년 ~ 현재 이화여자대학교 디지털미디어학부 매체경험연구실 연구원 ※관심분야 : 머신비전
김명준(Myoung-Jun Kim) 1989년 한국과학기술대학 전산학과 학사 1991년 한국과학기술원 전산학과 석사 1996년 한국과학기술원 전산학과 박사 1996년 ~ 1997년 University of Washington Visiting scholar 1997년 ~ 2000년 한국 전자 통신 연구원 선임연구원 2001년 ~ 현재 이화여자대학교 디지털미디어학부 부교수 ※관심분야 : 컴퓨터그래픽스,영상처리,클라우드 컴퓨팅,어플리케이션개발
References
Hansen D.W. , Qiang Ji 2010 “In the Eye of the Beholder: A Survey of Models for Eyes and Gaze,” Pattern Analysis and Machine Intelligence, IEEE Transactions on http://dx.doi.org/10.1109/TPAMI.2009.30 32 (3) 478 - 500    DOI : 10.1109/TPAMI.2009.30
Park H. S. , Bae C. S. 2004 “Real-Time Eye Detection and Tracking Under Various Light Conditions” Journal of the Korea Institute of Information and Communication Engineering http://koix.ksci.re.kr/KISTI1.1003/JNL.JAKO200411922319988 8 (2) 456 - 463
Hyun Y. D. , Chung M. J. 2005 “A novel non-intrusive eye gaze estimation using cross-ratio under large head motion,” Computer Vision and Image Understanding http://dx.doi.org/10.1016/j.cviu.2004.07.011 98 (1) 25 - 51    DOI : 10.1016/j.cviu.2004.07.011
Coutinho Flavio L. , Morimoto Carlos H. 2013 “Improving Head Movement Tolerance of Cross-Ratio Based Eye Trackers,” International Journal of Computer Vision http://dx.doi.org/10.1007/s11263-012-0541-8 101 (3) 459 - 481    DOI : 10.1007/s11263-012-0541-8
Kang J.J. , Eizenman M. , Guestrin E.D. , Eizenman E. 2008 "Investigation of the Cross-Ratios Method for Pointof-Gaze Estimation," Biomedical Engineering, IEEE Transactions on http://dx.doi.org/10.1109/TBME.2008.919722 55 (9) 2293 - 2302    DOI : 10.1109/TBME.2008.919722
Han Kai , Wang Xuan , Zhang Zili , Zhao Hainan 2013 "A novel remote eye gaze tracking approach with dynamic calibration," 2013 IEEE 15th International Workshop on Multimedia Signal Processing Pula 111 - 116
Slater A.M , Findlay J.M 1972 “The measurement of fixation position in the newborn baby” Journal of Experimental Child Psychology http://dx.doi.org/10.1016/0022-0965(72)90056-2 14 (3) 349 - 364    DOI : 10.1016/0022-0965(72)90056-2
Ryuichi Sugano , Yukina Iwamoto , Junzo Kamahara , Naoki Tanaka 2010 "User-calibration-free gaze tracking with estimation of the horizontal angles between the visual and the optical axes of both eyes." in Proceedings of the 2010 Symposium on Eye-Tracking Research & ACM Proceedings of the 2010 Symposium on Eye-Tracking Research & Applications 251 - 254