Advanced
A Study on Quality Evaluation of Discovery Central Index - the Case of EDS(EDSCO Discovery Service) -
A Study on Quality Evaluation of Discovery Central Index - the Case of EDS(EDSCO Discovery Service) -
-- EDS를 사례로 하여 --
Journal of Korean Library and Information Science Society. 2014. Sep, 45(3): 415-440
Copyright © 2014, Korean Library and Information Science Society
  • Received : August 08, 2014
  • Accepted : September 09, 2014
  • Published : September 30, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
은주 이
경일대학교 문헌정보학과 특임교수(ejleelib@naver.com)
Abstract
이 연구에서는 빠르게 도입되고 있는 디스커버리에 대한 이해를 돕고, 통합탐색도구로서 우리 도서관목록의 유용성을 증대하는데 기여할 수 있는지 그 가능성과 한계를 가늠해 보고자 한다. 구체적으로, 이 연구는 관련 문헌에 대한 조사와 분석에 근거하여, (1) 디스커버리가 등장하게 된 배경과 개념 및 유형 등 디스커버리의 실체를 살펴보고, (2) 디스커버리 통합색인의 품질평가를 위한 기준과 지표를 개발하고, (3) 도출된 기준과 지표에 따라 디스커버리에서 제공하는 통합색인의 질적 수준을 평가한 뒤, (4) 디스커버리의 도입에 앞서 우리 학계와 도서관계가 고민해야 할 과제와 취해야 할 전략에 대해서 논의하고자 한다. 이를 위해, 이 연구에서는 EDS를 사용하는 P대학도서관을 사례로 하여 371건의 표본 레코드를 추출한 뒤, 이를 대상으로 디스커버리 통합색인의 품질평가를 수행하였다.
Keywords
Ⅰ. 서 론
- 1. 연구배경과 목적
‘차세대 통합검색시스템’, ‘차세대 도서관목록’이라 불리며 등장한 디스커버리(discovery)는 2000년대 중후반부터 북미 지역의 대학도서관에 폭 넓게 도입되고 있다. 미국 정보표준화기구(NISO)의 ODI(Open Discovery Initiative) 1) 가 2013년 1월에 조사한 바에 따르면 미국 대학도서관의 74%가 해당 서비스를 도입하여 운영 중이고, 17%가 향후 1-2년 안에 도입할 예정이라고 응답하여 이에 대한 높은 관심을 보여주고 있다(NISO ODI Working Group 2013, 7). 국내 도서관계도 예외는 아니어서, 2010년 말부터 디스커버리의 도입과 관련된 고민을 시작 하였고, 그 결과, 최근 2-3년 만에 약 50여 개의 기관에서 디스커버리를 도입하거나 적극적으로 도입을 검토하고 있다. 이처럼 디스커버리가 빠른 속도로 도입되는 이유는 전자책, 학술논문 등 여러 전자자원을 하나의 인터페이스에서 검색하기 위한 기존의 메타검색(meta search) 2) 이 제 역할을 다 하지 못 하는 상황과 밀접한 관련이 있다. 즉, 디스커버리를 통해 기존의 메타검색이 지니고 있는 한계를 극복하고 진정한 통합검색 환경을 만들어, 도서관목록이 ‘도서관의 다양한 정보자원에 대한 포괄적인 탐색도구’로 제 역할을 다할 수 있게 될 것으로 기대하고 있기 때문이다.
디스커버리에 대한 높은 관심은 비단 도서관계에서만 나타나는 것은 아니다. 북미의 문헌정보학계에서는 디스커버리의 개념에 대한 이해와 유용성에 대한 검증 작업이 매우 활발히 진행 중이다. 특히, 디스커버리를 둘러싼 다양한 각도의 논의가 활발하게 진행되고 있으며, 보다 객관적인 시각을 확보하고자 노력하고 있다. 가령, 디스커버리 이용자들의 만족도를 바탕으로 유용성을 피력하며 적극적인 도입의 필요성을 주장하는 논문이 있는 반면, 지각없는 도입에 염려를 표하며 도입에 있어 보다 신중해야 한다는 우려 섞인 목소리도 발견할 수 있다. 이렇듯 다양한 의견은 디스커버리를 둘러싼 균형 잡힌 시각을 갖게 해 준다.
그러나우리학계의상황은이와사뭇대조적이다. 국내문헌정보학계의경우, 디스커버리에 대한 제대로 된 이해나 철저한 검증을 시도한 흔적은 극히 소수에 불과하다. 이 또한 디스커버리의 개념을 소개하거나 도서관 실무자의 관점에서 디스커버리‘제품’을 선정하는 과정을 기술한 보고서 정도이다. 여기서 주목할 만한 사실은 관련 논의들이 디스커버리를 ‘새로운 인터페이스’로 보는 경향이 강하다는 것이다. 그 결과, 소수에 불과한 연구이지만 디스커버리의 통합검색 관련 ‘기능’에 초점이 맞춰져 논의가 진행되고 있다( <그림 1> 참조). 하지만 디스커버리의 핵심은 도서관 소장자료, 기관 리포지토리, 개별DB로부터 받은 메타데이터 등을 통합색인(central index)하여 이용자들이 통합검색할 수 있도록 하는 것이기에, 통합색인의 질적 수준이 담보되어야만 디스커버리가 제 역할을 다 할 수 있다.
PPT Slide
Lager Image
기존 연구의 주요 관점
이러한 상황에서, 이 연구는 디스커버리에 대한 철저한 이해를 바탕으로 도입시 다양한 정보자원, 특히 전자자원의 통합검색을 위한 도구로서 디스커버리가 어느 정도 효용성이 있는지 면밀히 평가해 보고자 하는데 목적을 두고 있다. 이 때, 통합검색 기능에 초점 맞추지 않고 통합색인의 질적 평가를 중심으로 논의해보고자 한다. 이에 더해, 유용성의 검증결과를 기반으로 한 의식 있는 도입을 위해 우리 학계와 도서관계가 고민해야 할 과제에 대해서 논의해 보고자 한다. 이처럼이 연구는 우리 도서관계에서 디스커버리를 질적 수준이 담보된 통합검색도구로 활용하는 데 도움을 되고자 그 유용성을 밝히는 것에 목적을 두고 있다.
- 2. 연구내용과 방법
이 연구에서는 빠르게 도입되고 있는 디스커버리에 대한 이해를 돕고, 통합검색도구로서 우리 도서관목록의 유용성을 증대하는데 기여할 수 있는지 그 가능성과 한계를 가늠해 보고자 한다. 이를 위해 구체적으로, 관련 문헌에 대한 조사와 분석에 근거하여, (1) 디스커버리가 등장하게 된 배경과 개념 및 유형 등 디스커버리의 실체를 살펴보고, (2) 디스커버리 통합색인의 품질평가를 위한 기준과 지표를 개발하고, (3) 도출된 기준과 지표에 따라 디스커버리에서 제공하는 통합색인의 질적 수준을 평가한 뒤, (4) 디스커버리의 도입에 앞서 우리 학계와 도서관계가 고민해야할 과제와 취해야 할 전략에 대해서 논의하고자 한다.
이러한 내용을 살펴보고자 이 연구에서는 현재 국내에 도입된 디스커버리 중 하나인 EDS(EBSCO Discovery Service)를 사용하는 P대학도서관을 사례로 하여 표본 레코드를 추출하였다. 추출 방법은 문헌정보학 분야의 키워드로 다양한 탐색을 시도한 뒤, 적절한 규모가 도출된 키워드를 선정하고 그 결과를 표본 레코드로 삼는 의도적 표집방법을 택하였다. 구체적으로, 이 연구에서 사용한 표본 레코드는 국외(영어)학술저널을 대상으로 ‘information ethics’과 ‘next generation catalog’로 표제검색한 결과이다. 결과적으로 P대학도서관의 디스커버리 통합색인 중에서 ‘information ethics’ 306건, ‘next generation catalog’ 65건, 총 371건의 표본 레코드를 추출하여 통합색인의 품질평가를 수행하였다. 이 표본 레코드는 비록 특정 주제 분야에 국한된 것에불과하지만 디스커버리 통합색인의 전반적인 모습을 확인하는데 무리가 없을 것이라 판단하였다.
Ⅱ. 이론적 배경
- 1. 디스커버리 개념과 의미
정보자원의 유형이 다양해지고, 특히, 온라인 형태의 전자자원이 급증하면서 도서관에서 접근 가능한 자원의 유형에도 커다란 변화가 생겼다. 그 결과, 도서관이용자들은 수많은 전자자원을 활용하여 정보요구를 해결하기 시작하였다. 그러나 기존의 도서관목록은 복잡한 검색 인터페이스와 접근 가능한 자료 유형의 한계로 인해 정보요구 해결을 위한 포괄적인 탐색도구로서 제 기능을 다하는 데에는 다소 제한이 있었다( OCLC 2005 ; 2010 ). 이에, 도서관에서도 1990년대 후반부터 단순하면서 다양한 자료 유형에 접근 가능하도록 2세대 검색방식인 ‘메타검색’을 제공하기 시작하였다. ‘메타검색’은 각 DB로부터 메타색인을 통합하지 않은 채 질의어 입력에 대한 검색처리만을 분산시켜 얻은 결과를 통합하여 보여주는 방식을 사용한다. 즉, 이용자들이 질의어를 입력하면 메타검색엔진이 질의어를 개별 DB에 전달하여 각 DB에서 검색결과를 도출한 뒤, 이를 통합검색 화면에 제시하는 방식이다. ( <그림 2> 참조)
PPT Slide
Lager Image
검색방식의 세대 변화
그러나 메타검색이 도서관자료에 대한 주된 접근방식이 아니었기 때문에 이용자들은 도서관 메인화면에서 몇 단계를 거쳐야 메타검색을 시작할 수 있다는 점을 지적하며 불편함을 토로하였다. 그리고 메타검색엔진이 여러 DB에 각각 접근하여 얻은 검색결과를 통합하는 방식이기 때문에, 이용자들은 검색결과를 얻기까지 시간이 오래 걸리며 검색결과가 중복적이고 신뢰성이 부족하다는 문제점을 지적하였다( 심경 2008 , 31-38; 남영준, 양지안 2010 , 310-311; Way 2010 , 215-216). 그 결과, 2000년대 중반부터 다양한 벤더들이 메타검색의 단점을 보완하기 위해 3세대 검색방식인 ‘디스커버리’를 출시하기 시작하였다. 디스커버리를 ‘메타검색의 진화’라 부르는 이유도 여기에 있다.
그렇다면 과연 디스커버리란 무엇인가? 먼저, 용어를 정립할 필요가 있어 보인다. 2000년대 중반부터 등장한 디스커버리는 다양한 명칭으로 불리어 왔기 때문이다. 초창기에는 가장 대표적인 용어로 ‘차세대 도서관목록(next generation library catalog)’으로 불리었는데, Breeding은 이에 대해 ‘차세대 도서관 인터페이스’라는 용어로 표현하면서 새로운 검색 인터페이스로 보아야 한다고 지적하였다( Breeding 2010 , 32). 이후 많은 학자들이 그의 의견에 동의하였고, 국내에서도 지금까지 ‘디스커버리는 인터페이스’라고 인식되어 왔다( 심경 2008 ; 윤정옥 2010 ). 그러나 최근 들어 디스커버리의 ‘통합색인’을 활용한 상호대차, 문헌복사, 컨소시엄 대출 등의 서비스를 위한 방안들이 속속 등장하면서 인터페이스가 아닌 통합색인에 관심이 쏠리고 있다( Clarke 2006 ). 이러한 관점에서 볼 때 디스커버리는 인터페이스라는 틀에 맞추어 용어를 제한시킬 필요가 없어 보인다. 최근 들어 국외논문들에서 ‘디스커버리 툴’, ‘디스커버리 서비스’, ‘디스커버리 플랫폼’, ‘디스커버리 표현층(layer)’ 등과 같이 기술하며 ‘디스커버리’라는 용어를 부각시켜 기술하는 것도 이와 같은 맥락이라 볼 수 있다( Fagan et al. 2012 ). 이에 이 연구에서는 관련 용어들을 통칭하여 ‘디스커버리’로 명명하고자 한다. 물론 ‘디스커버리’라는 용어 자체는 매우 광범위한 범주의 용어임에 분명하다. 하지만 최근 발표된 연구들에서 디스커버리를 설명하는 구체적인 용어들을 총칭하여 ‘디스커버리’로 표현하는 경우가 점점 증가하고 있어, 이 연구에서도 ‘디스커버리’라 칭함에 큰 무리가 없어 보인다.
이렇듯 다양한 용어로 표현되는 디스커버리는 개념에 있어서도 광의 그리고 협의로 나누어 설명할 수 있다. 먼저, 디스커버리의 광의의 개념을 알아보기 위해서 사전적 의미를 살펴보면 ‘디스커버리란 자료를 보고(see), 관련 정보를 얻고(get), 필요한 내용을 학습하고(learn), 유용한 것을 발견하고(find), 이해하는(find out) 것’을 의미한다(Webster’s dictionary). 즉, 이전에 보지 못했거나 알지 못한 것의 시각이나 지식을 얻는 총체적인 과정을 의미하는 것이다. 이러한 의미를 문헌정보학적 관점에 접목시켜보면 디스커버리란 이용자가 자신의 정보요구를 충족하기 위해 관련 정보를 얻고 이를 활용하여 궁극적으로 문제해결에 다다름을 의미한다. 그러나 그 범주가 매우 광범위하여 Babu와 Krishnamurthy 등은 문헌정보학에서 디스커버리란 ‘resource discovery’라는 보다 구체적인 용어로 표현해야 한다고 지적한다. 이 때, resource discovery란 이용자들이 ‘학습’과 관련하여 적절한 정보를 식별하고 접근하는 과정을 설명한다( Babu and Krishnamurthy 2013 , 433-435). 그러나 Nagy나 Pradhan 등은 이 또한 모호한 용어라 판단해, 디스커버리를 보다 구체적인 용어인 ‘resource discovery system’으로 설명해야 한다고 주장하는데, 가령, Nagy는 디스커버리를 이용자가 몰랐거나 새로운 자원의 발견을 시사하는 장치라고 설명한다. 또한 Pradhan 등은 이를 통해 도서관 내에서 이용가능한 자원에서 웹 자원으로 도서관 자원의 범위가 확대되었다고 설명한다( Nagy 2009 ; Pradhan, Trivedi and Arora 2011 , 133).
요컨대, 우리가 지금껏 논의했던 광의의 디스커버리란 ‘resource discovery system’으로 설명될 수 있으며, 이는 이용자들의 학습과 관련하여 필요한 자료를 탐색하고 식별하고 접근할 수있도록 도와주는 도구라는 것이다. 또한 이를 통해 도서관외부의 자원까지 접근할 수 있게 해줌으로써 보다 광범위한 자원의 탐색도구라 설명할 수 있다.
이러한 광의의 개념을 구체적으로 표현한 개념이 현재 우리가 사용하고 있는 디스커버리의 개념이다. 대표적으로 많이 활용되는 디스커버리의 개념은 ‘복수의 DB로부터 메타데이터를 수집하여 하나의 ‘통합색인’을 구축하고, 구축한 통합색인을 대상으로 ‘통합검색’을 수행하는 통합검색시스템’을 의미한다. 이렇듯, 협의의 개념은 <그림 3> 에서와 같이 ‘통합색인’과 ‘통합검색’이라는 두 가지 키워드를 중요시 하는데, 두 가지 키워드를 통해 상술한 디스커버리의 광의의 개념에 도달하고자 하는 것이 협의의 디스커버리의 궁극적인 목적이라고 할 수 있다. 즉, ‘통합색인’과 ‘통합검색’을 기반으로 도서관이용자들의 학습활동과 관련한 자료를 탐색하고 접근할 수 있도록 도와주는 것이 디스커버리의 목적이라 볼 수 있다.
PPT Slide
Lager Image
협의의 디스커버리 개념
한편, 디스커버리는 다양한 기준에 따라 여러 유형으로 구분할 수 있다. 가장 대표적으로 ‘개발 관점’에 따라 나눌 수 있다. 이 방식에 따르면 디스커버리를 ① 통합검색을 가능하게 할 수 있는 ‘기술’에 초점을 맞춘 초기의‘로컬(Local) 디스커버리’와 ②통합검색창을 통한 검색과 더불어‘통합색인’을 구축하는데 초점을 맞춘 ‘웹 스케일(Web-Scale) 디스커버리’로 나눌 수 있다 ( Vaughan 2011 , 6). 이 때, 전자는 통합검색을 위한 검색 기능을 강조하여, 기존의 도서관 관리시스템을 그대로 두되 하나의 창을 통해 검색할 수 있도록 하는데 초점을 맞춘 반면, 후자는 통합검색 기능뿐만 아니라 도서관 소장자료, 각종 출판사나 어그리게이터(aggregator)에 의해 통합색인 DB을 구축하는 것에 초점을 맞추고 있다. 현재는 대부분의 디스커버리가 웹 스케일 디스커버리이기 때문에, 다양한 문헌에서 디스커버리를 웹 스케일 디스커버리로 구체화시켜 부르는 경우도 빈번해지고 있다.
또한 디스커버리는 ‘개발주체’에 따라 ①상용패키지제품과 ②오픈 소스프로젝트개발 제품으로도 나눌 수 있다. 이 때, 전자는 처음부터 표준화된 기능을 구현하여 시판하는 제품이기 때문에 완전성이 높고 다양한 도서관에 적용가능성이 높다는 이점을, 후자는 개발 초기부터 현재까지 시간이 흐르는 동안 발생하는 변화를 직접 관찰할 수 있다는 이점을 가지고 있다( 윤정옥 2013 , 9).
이처럼 다양한 기준에 따라 <표 1> 과 같이 여러 제품들이 개발되어 제공되고 있는데, 이 중 국내에서는 Proquest의 Serials Solutions의 Summon, EBSCO의 EDS(EBSCO Discovery Service), ExLibris의 Primo Central 세 가지 상용제품을 도입하고 있다.
다양한 기준에 따른 디스커버리 유형
PPT Slide
Lager Image
다양한 기준에 따른 디스커버리 유형
- 2. 국내외 관련 연구 동향
주지하다시피 디스커버리는 2000년대 중반부터 미국의 많은 대학도서관에서 대대적으로 도입하기 시작하였다. 이러한 현장의 관심은 학계에 영향을 미쳐, 북미의 문헌정보학계에서는 짧은 기간 내에 다양한 논의를 수행해 왔다. 관련 연구들을 분석해보면 크게 네 가지의 세부주제로 나눌 수 있다.
먼저, 서비스의 도입 초기부터 최근에 이르기까지 디스커버리의 기본 개념에 대한 소개와 이를 도입해야 하는 당위성에 대한 논의가 진행되었다( Breeding 2007 , 2010 ; Emanuel and Columnist 2009 ; Vaughan 2011 ). 가령, Emanuel과 Columnist는 이용자들의 정보요구와 정보환경의 변화로 도서관에 대한 기대가 자연스럽게 변하였고, 디스커버리로 인해 이용자들은 도서관목록과 검색에 보다 높은 관심을 가지게 되었음을 소개하였다. 비록 짧은 논의에 불과하지만 새로운 기술의 도입에 대한 당위성을 이론적으로 검토한 연구들이라 할 수 있다.
둘째, 통합검색도구로서의 디스커버리에 대한 심도 깊은 이해를 돕고 그 효과를 검증하기 위해 이용자 친화적인 인터넷 검색엔진(특히, 구글)과 디스커버리를 비교하는 논의 역시 진행되었다( Grophy and Bawden 2005 ; Yang and Wagner 2010 ; Pradhan, Trivedi and Arora 2011 ). 이를 통해 차세대 통합검색으로 나아가기 위한 속성과 이를 구현하기 위한 기술적인 요소를 다루며, 도서관 현장에서 디스커버리를 도입하기 위해 어떠한 기반을 갖춰야 하는지에 대해 다양한 방식으로 논의가 진행되어 왔다.
셋째, 디스커버리를 실제로 도입하는 과정을 면밀히 살펴보면서 개별 도서관이 어떠한 단계를 겪었는지, 이 과정에서 발생할 수 있는 실질적인 문제점이나 어려움은 무엇이었는지에 대한 논의를 진행하였다( DeFelice et al. 2009 ; Vaughan 2011 ). 이를 테면 DeFelice 등은 디스커버리 도입을 위해 TF팀을 꾸리고 사서들을 대상으로 설문을 수행하며, 몇몇 시스템을 대상으로 탐색실험을 수행한 뒤, 벤더들과 어떠한 대화를 나누었는지 등의 자세한 기술을 통해 그 속에 녹아 있는 다양한 고민들을 공유하고자 하였다.
마지막으로, 도입한 이후 디스커버리가 이용자의 입장에서 얼마나 유용한지를 살펴보기 위해 사용성 평가를 시도한 연구들도 존재한다( Philip 2010 ; Williams and Foster 2011 ; Fagan et al. 2012 ; Foster and MacDonald 2013 ). 이연구들은 비교적 최근에 수행된 것들로, 디스커버리관련 연구 중 양적으로 가장 많은 부분을 차지하고 있다. 특히, EDS, Summon, Google Scholar 등을 대상으로 이용자들의 탐색실험을 진행한 후 이용자들이 디스커버리를 활용하여 어떻게 통합검색도구를 이용하는지 추적하는 방식을 취하고 있다. 이처럼 국외의 경우에는 디스커버리 도입 가능성에 대한 철저한 검증부터 실제 이용자들의 사용성에 대한 논의까지, 논의의 과정이 순차적으로 진행되면서 체계적으로 발전되어 왔음을 알 수 있다.
이와 대조적으로, 국내의 경우2011년 고려대를 필두로하여 불과 3년만에 50여 개의도서관이 디스커버리를 도입하였음에도 불구하고, 관련 연구는 손에 꼽힐 정도로 소수에 불과하다. 구체적으로, 국내에서의 논의는 크게 두 축으로 나뉘는데, 한 축은 차세대 도서관목록의 인터페이스나 기능, 요소 등에 대해 소개하며 향후 온라인목록의 방향성을 제시하고 있는 연구들이다(구 중억, 곽승진 2007; ; 심경 2008 ; 도태현, 정영미 2013 ). 또 하나의 논의의 축은 디스커버리에 초점을 맞추어 국내 도입 현황을 살펴보고 도입시 검토사항 등을 기술하며, 빠른 속도로 도입되고 있는 새로운 서비스에 대한 개념적 이해를 돕기 위한 연구들이다( 최성진, 김태수 2010 ; 조종민 2011 ; 윤정옥 2013 ). 이렇듯 국내에서도 다양한 연구들을 통해 디스커버리에 대한 논의를 이끌어 내고자하였으나 연구동향을 분석해 본 결과 아직 논의의 시작단계에 불과한 것을 알 수 있다.
이러한 점을 감안 한다면 디스커버리가 빠른 속도로 도입되고 있는 국내에서도 이에 대한 유용성 검증이나 이용자들의 디스커버리 행태 조사가 선결되어야 함은 자명한 일이다. 따라서 이번 연구에서는 디스커버리의 유용성을 검증하기 위한 단초를 제공하고자 한다. 이를 위해 이번 연구에서는 국내에 도입된 세 가지 디스커버리 중 P대학도서관이 제공하고 있는 EDS의 통합색인을 사례로 분석하여 통합탐색도구로서 디스커버리가 가지는 유용성에 대한 질적 평가를 시도해 보았다.
Ⅲ. 디스커버리 통합색인 품질평가를 위한 논리적 근거
주지하다시피 디스커버리는 여러 자원에 대한 메타데이터를 미리 수집·색인하여 통합색인을 구축한 뒤, 이를 기반으로 통합검색 환경을 구현하는 것이 첫 번째 목적이다. 따라서 디스커버리의 유용성을 따져보기 위해서는 통합색인의 유용성 평가 및 검증작업이 선행되어야 한다. 이러한 평가를 수행할 때는 객관적 기준과 지표 그리고 이를 수행하기 위한 절차와 방법을 마련하는 일이 매우 중요하다. 이에, 지금부터 디스커버리 통합색인의 유용성을 검증하기 위한 객관적인 기준 및 지표를 개발하는 작업을 수행하고자 한다.
- 1. 선행연구에서의 평가기준
디스커버리 통합색인의 유용성을 검증하기 위한 기준을 개발하기 위해 ‘디스커버리 평가’와 관련한 기존의 국내외 논문을 분석하였다. 먼저, 국외의 관련 연구를 살펴보면, 이용자의 관점에서 바라본 사용성 평가(usability test)와 보다 객관적인 관점에서 평가지표를 개발하고 디스커버리 품질을 평가하는 연구로 대별된다. 이 때, 이번 연구와 맥락을 같이 하는 후자를 보다 구체적으로 살펴보면 Sharon Q. Yang을 중심으로 한 연구가 전부라고 해도 과언이 아니다. 특히, <표 2> 를 살펴보면 기존에 진행되었던 세 연구가 거의 흡사한 검증기준을 사용하고 있음을 알 수 있다. 이 기준은 차세대 도서관목록이 가지는 ‘기능’을 준거로 삼아, 디스커버리가 차세대 도서관목록으로서 그 기능을 어느 정도 충족하는지를 확인하는 잣대로 사용되고 있다.
선행연구 분석을 통해 살펴본 디스커버리 평가기준
PPT Slide
Lager Image
선행연구 분석을 통해 살펴본 디스커버리 평가기준
이러한 경향은 국내에서도 마찬가지로 나타나는데, 국내에서 개발된 디스커버리 평가용 체크리스트 역시 차세대 도서관목록의 기능에 맞추어 개발되고 있다. 가령, 김예린, 정영미의 연구에서는 디스커버리 검색영역의 평가지표를 패싯 기능, 철자오류수정, 적합성순 정렬 등으로 제시하여 <표 2> 와 유사한 항목들로 구성되어 있음을 알 수 있다( 김예린, 정영미 2011 ).
이처럼 국내외를 막론하고 ‘디스커버리 평가’ 관련 연구들은 차세대 도서관목록의 ‘기능’을 중심으로 살펴보고 있어, 이번 연구에서 시도해보고자 하는 디스커버리 통합색인의 유용성 검증을 수행하기 위한 기준으로는 활용할 수 없는 상황이다. 따라서 ‘디스커버리 통합색인의 질적 평가’를 위해 ‘디스커버리의 평가’가 아닌 ‘통합색인의 평가’ 관련 연구를 살펴보고, 그 기준을 차용해 올 필요가 있다.
이러한 필요성에 따라 통합색인(혹은 통합데이터)의 검증에 관한 선행연구를 분석해 본 결과, 통합정보시스템, 공동목록, 데이터베이스를 대상으로 그들의 품질을 평가하기 위한 다양한 기준이 개발되어 있음을 확인할 수 있었다. 물론 통합정보시스템, 공동목록, 데이터베이스는 존재 목적 자체가 다르기 때문에 선행연구에서 보고자 하는 평가 기준 또한 다양할 수밖에 없다. 그러나 평가기준을 자세히 살펴보면 그 중심축이 ‘데이터 품질평가 + 서비스 품질평가’로 대변됨을 확인할 수 있다. 따라서 이번 연구에서 초점을 둔 통합색인의 질적 평가를 위해 ‘데이터 품질평가’ 기준을 중심으로 살펴보면 다음 <표 3> 과 같다.
통합색인(혹은 통합데이터, 통합시스템)의 데이터 품질평가 기준
PPT Slide
Lager Image
통합색인(혹은 통합데이터, 통합시스템)의 데이터 품질평가 기준
<표 3> 에서 기술된 선행연구 분석 결과, 데이터 품질평가시 특정 DB 혹은 복수의 DB를 대상으로 적게는 3개, 많게는 8개에 이르는 기준으로 검증을 시도하였음을 확인할 수 있다. 이러한 기준을 자세히 살펴보면 다양한 잣대가 존재하며 그 용어도 혼재되어 사용되고 있다. 가령, 배타성과 유일성의 경우, 용어는 다르지만 개념은 유사한 범주로 사용되고 있는 등, 연구의 목적이나 관점에 따라 평가기준의 선정에 있어 통일성이 결여되어 있다( 이제환 2002 , 65). 이처럼 기준의 의미와 범주에 있어 어느 정도 차이가 존재한다 할지라도 앞서 선행연구에서 도출된 평가기준은 통합색인의 평가기준을 세우는데 있어 시사하는 바가 크다.
- 2. 평가방법 및 대상
이번 연구에서는 <표 3> 에 기술한 기준 중 가장 많이 언급된 ‘최신성’, ‘정확성’, ‘완전성’을 차용하여 디스커버리의 통합색인을 평가하기 위한 기준으로 삼고자 한다. 한편, 디스커버리는 미리 구축한 통합색인을 바탕으로 단일의 검색창에서 해당 정보를 제공하는 것이기 때문에, 상술한 통합시스템 혹은 DB의 평가기준 중가장많이 사용된 기준만으로는 설명할 수 없는 부분이 분명존재한다. 이에 추가적인 요소를 좀 더 고민하기 위해 선행연구를 분석한 결과, 통합색인을 평가하기 위해 ‘중복성’을 추가할 필요가 있다고 판단하였다. 이는 디스커버리의 주된 핵심 축인 통합색인을 구축하는과정에서 통합시 발생할수 있는 ‘중복성’을 살펴볼 필요가있기 때문이다. 이에 더해, 통합색인을 바탕으로 포괄적인 데이터의 접근가능 여부도 우선적으로 파악해야 하기 때문에 ‘포괄성’ 역시 확인해 보아야 한다. 이러한 고민 끝에, 이번 연구에서 디스커버리 통합색인의 평가기준을 다음 <표 4> 와 같이 설정하였다.
디스커버리 통합색인 평가기준
PPT Slide
Lager Image
디스커버리 통합색인 평가기준
이에 더해 5개의 평가기준을 실질적으로 측정하기 위한 지표개발이 필요하다. 이번 연구에서는 기존에 수행된 품질평가 연구에서 사용되었던 ‘수치를 통한 절대적인 비교’ 뿐만 아니라 ‘사례를 통한 상대적인 비교’를 수행할 수 있는 지표를 개발하기 위해 노력하였다. 이번 연구에서 설정한 평가지표는 다음 <표 5> 와 같다.
기준별 평가지표와 평가방법
PPT Slide
Lager Image
기준별 평가지표와 평가방법
이 때, 평가방식은 상대평가와 절대평가 두 가지로 나누어 진행하였는데, 상대평가는 디스커버리 통합색인과 비교DB의 검색결과를 대상으로 규모 등을 상대적으로 평가하고 그 중 대표적인 사례를 보여주는 방식이다. 그리고 절대평가는 디스커버리 통합색인 자체를 대상으로 질적 분석을 통한 평가 방식을 뜻하며, 그 중 대표적인 사례를 보여주는 방식이다. 가령, 최신성의 경우‘탐색 질의에 해당하는 검색결과의 비교분석(디스커버리 vs. 개별DB)을 통한 최신성 비교’를 통해 살펴보았고, 중복성의 경우 ‘디스커버리 통합색인 내에서의 검색결과를 살펴보고 그 안에서의 중복성을 확인’하였다. 이러한 평가방식에 따라 포괄성, 최신성, 완전성은 상대평가, 중복성, 정확성은 절대평가를 수행하였다. 한편, 절대평가를 수행한 두 개의 기준도 ‘가능하다면’ 상대평가를 시도한 뒤, 표본 레코드 전체를 대상으로 살펴보았다. 이렇듯 평가방식을 두 가지로 나눈 까닭은 디스커버리의유용성을 평가함에 있어 모든 지표가 동일한 방식으로 평가 되었을 때 놓칠수 있는 부분을 최소화하기 위해서였다.
실제 디스커버리 평가를 수행하기 위해 EDS를 사용하는 P대학도서관을 사례로 삼았다. 또한 디스커버리와의 상대적인 비교를 위해 P대학도서관에서 계약하고 있는 총 3개의 개별DB를 비교 대상으로 선정하였다. 비교DB 선정시 서지DB, 원문DB, 인용색인DB를 고루 선정하여 보다 다양한 사례를 살펴보고자 하였으며, 탐색실험을 통해 적절한 규모가 도출된 DB를 선정하였다. 구체적으로 살펴보면 이번 연구에서 표본 레코드를 추출하기 위해 선정한 탐색질의어는 ‘information ethics’과 ‘next generation catalog’였다. 이 때, 자연스러운 평가를 위해 표제검색으로 검색필드를 제한하고 국외(영어)저널만을 검색 대상으로 한정한 것 외에는 검색조건을 통제하지 않았다. 조건과 필드를 제한하여 검색결과를 통제하는 것은 검색기능에 대한 평가시 유용한 방법이지만, 통합색인 품질평가 시에는 오히려 방해가 되리라 판단되었기 때문이다. 이러한 연유로 탐색실험을 진행한 결과, 비교DB는 탐색질의어에 따라 다르게 선정되었다. 결과적으로, ‘information ethics’의 경우 LISTA, ScienceDirect, SCOPUS를 비교분석DB로 선정하였고, ‘next generation catalog’의 경우 LISTA, EMERALD, SCOPUS를 비교분석 DB로 선정하였다.
Ⅳ. 디스커버리 통합색인의 평가 결과와 의미
- 1. 평가 결과
이 장에서는 앞서 살펴본 디스커버리 통합색인 품질평가 지표를 기준으로 삼아, P대학도서관 디스커버리의 유용성을 평가해보고자 하였다. 먼저, 앞선 제한사항을 유지하면서 두 질의어로 탐색을 수행한 결과, P대학도서관의 디스커버리에서 ‘information ethics’는 1,485건이었고, ‘next generation catalog’는 1,543건이었다 3) . 이 검색 결과 중 이번 연구에서는 전술한 비교 DB를 기준으로 디스커버리 내 해당 DB의 검색결과로 좁힌 후, 이를 표본 레코드로 삼았다. 결과적으로 ‘information ethics’의 경우 306건, ‘next generation catalog’의 경우65건, 총 371건을 표본레코드로 선정하였다. 이러한 결과를 디스커버리 내의 개별DB에 맞추어 기술하면 다음 <표 6> 과 같다.
표본 레코드 구성 통계
PPT Slide
Lager Image
표본 레코드 구성 통계
지금부터 앞서 살펴본 평가기준을 중심으로 디스커버리 통합색인의 평가 결과를 기술하되, 유의미한 결과를 중심으로 기술하고자 한다. 이 때, 디스커버리에서 검색하여 도출된 결과는 ‘D-’를 붙여서 표기한다. 가령, 디스커버리 내의 SCOPUS 결과는 ‘D-SCOPUS’로 표기한다.
- 가. 포괄성
먼저, 포괄성을 측정하기 위해 디스커버리와 개별DB를 대상으로 동일한 검색질의어, 동일한 검색조건으로 탐색을 수행하였다. 상대적 포괄성을 확인한 결과, ‘information ethics’로 검색했을 경우, 비교DB의 검색결과를 100%로 본다면 디스커버리는 평균 128.5%의 탐색결과가 도출되었다. 그리고 ‘next generation catalog’로 검색했을 경우, 디스커버리는 평균 124.6%의 탐색결과가 도출되었다( <표 7> 참조). 결과적으로, 개별DB보다는 디스커버리를 통한 검색시 보다 많은 검색결과가 도출되어, 디스커버리의 상대적 포괄성이 높음을 알 수 있었다.
표본 레코드를 이용하여 포괄성 측정 결과
PPT Slide
Lager Image
표본 레코드를 이용하여 포괄성 측정 결과
동일한 검색어와 동일한 검색조건으로 검색했음에도 불구하고, 이렇듯 DB별 포괄성의 차이가 존재하는 이유는 무엇일까? 차이를 확인하기 위해 표본 레코드를 살펴본 결과, LISTA/D-LISTA는 어떤 검색기법을 쓰느냐 혹은 어떤 서지요소를 검색어로 활용하느냐에 따라 검색결과의 수가 다르게 나타나는 현상이 발생하였다. 가령, D-LISTA는 검색어를 입력했을 때 두 단어의 거리에 상관없이 AND 결합되어 검색된 반면, LISTA는 두 개의 단어로 이루어진 검색어를 구문검색으로 인식하였다. 또한 D-LISTA는 본표제, 표제관련정보 등을 표제검색의 대상으로 취급하고 검색이 수행된 반면, LISTA는 본표제에서만 검색되었다. 이러한 이유로 D-LISTA는 LISTA보다 훨씬 많은 검색결과가 도출되었던 것이다. LISTA의 상황을 살펴본 결과, 이러한 차이는 단지 검색기법의 차이일 뿐이지 통합색인의 내용적 포괄성을 의미하는 것은 아니다.
그렇다면 디스커버리의 포괄성을 보다 정확하게 확인하기 위해 좀 더 정교하게 탐색실험을 수행할 필요가 있다. 따라서 검색기법과 색인추출방법을 동일하게 통제한 뒤 추가 검색을 실시한 결과, 여전히 D-LISTA의 검색결과가 많음을 확인할 수 있었다. 이는 기본 디폴트의 출판연도가 디스커버리가 훨씬 넓기 때문인데, 가령, D-LISTA는 1987-2014년으로 제한되어 있던 반면, LISTA는 2006-2013년으로 제한되어 있어 디스커버리가 훨씬 폭 넓은 범위의 자료를 제공하고 있음을알 수 있었다. 물론 동일한 연도로 수정하면 D-LISTA와 LISTA의 검색결과 수는 동일하게 바뀌었지만, LISTA에서 접근할 수 없는 이전자료가 D-LISTA에서는 접근할 수 있다는 측면에서는 디스커버리의 포괄성은 높은 점수를 줄 수 있으리라 판단되었다.
한편, ScienceDirect, EMERALD, SCOPUS 모두 디스커버리의 검색결과가 더 많거나 동일하였는데, 개별레코드를 확인해 본 결과, 적합한 논문이었음에도 불구하고 개별DB에서 누락되는 모습을 보였다. 결과적으로 포괄성에 있어서는 디스커버리가 통합탐색도구로서 제 역할을 다 하는 것을 알 수 있었다.
- 나. 최신성
통합색인의 가치를 평가하는데 중요한 기준인 최신성을 측정한 결과, 최신성에서도디스커버리 검색결과와 비교분석DB의 검색결과는 상이한 것으로 나타났다. 구체적으로, 최신성을 확인하기 위해 ‘2013·2014년에 출판된 학술논문’을 검색해 본 결과, <표 8> 에서 나타나듯이 최신성은 개별 DB에 따라 다름을 알 수 있었다. 가령, D-ScienceDirect, D-EMERALD의 상대적 최신성은 100%였던 반면, D-LISTA는 평균 180%, D-SCOPUS는 평균 61.2%였다. 즉, LISTA의 경우는 디스커버리에서, SCOPUS는 개별DB에서 최신 논문이 더 많이 검색된 것으로 나타났다.
‘2013·2014년 학술논문 검색’을 통한 최신성 측정 결과
PPT Slide
Lager Image
‘2013·2014년 학술논문 검색’을 통한 최신성 측정 결과
이러한 정반대의 원인을 살펴보기 위해 통합색인을 확인해 본 결과, D-LISTA는 여전히 검색기법에 따른 차이에서 기인한 현상이기에, 최신성 분석에 있어 논외로 두어야 함을 알 수 있었다. 따라서 최신성과 관련한 근원적인 문제를 확인하기 위해 SCOPUS의 결과를 좀 더 면밀히 살펴볼 필요가 있었다. 먼저, SCOPUS에서 ‘information ethics’(2014년)로 검색되는 16건의 검색결과는 모두 적합한 자료였는데 D-SCOPUS에서는 이 자료들이 누락되어 있음을 알 수 있었다. 특히, 실제 데이터를 하나하나 매칭해 본 결과 ‘Article in Press’와 같은 최신자료는 거의 누락되어 있어 디스커버리를 통해 ‘최신의 자료를 검색할 수 있는가’에 대해 근본적인 의문을 갖게 만들었다. 또한 ‘next generation catalog’(2013년)로 검색한 결과, SCOPUS에서 검색된 1건의 논문이 D-SCOPUS에서는 누락되어 있었다. 즉, 검색기법 문제인 LISTA를 논외로 한다면 디스커버리는 최신의 자료를 완전히 제공하는데는 한계가 있는 것으로 나타났다.
보다 정확한 최신성을 확인하기 위해, ‘최신의 서지정보를 제공하는가’를 살펴보았다. 이 때, 기본적인 서지정보는 흔히 1회성으로 입력되기 때문에 최신성을 확인하기 애매한 부분이 있다. 그래서 서지정보의 최신성을 확인하기 가장 좋은 사례인 인용색인DB를 살펴보기로 하였다. 인용색인DB에서 인용정보는 수시로 변화하는 정보인 만큼 최신성이 매우 중요하기 때문이다. 구체적으로 표본 레코드 중 D-Scopus와 개별 Scopus에서 제공하는 결과의 차이를 확인한 결과, 다음 <그림 4> 와 같은 사례들이 속속 등장하였다. 즉, D-Scopus에서 제공하는 인용정보가 업데이트 되지 않은 상태로 제공되고 있었다.
PPT Slide
Lager Image
SCOPUS에서 검색한 최신 인용정보 오류 사례
이러한 사례는 표본 레코드 중 D-SCOPUS의 총 230건(‘information ethics’ 203건, ‘next generation catalog’ 27건)의 탐색결과 중 124건에서 나타났다. 특히, 최대 인용횟수의 차이는 31회에 이르며, 평균 인용횟수의 차이는 2.7회였다. 이는 절반이 넘는 자료의 인용정보가 최신의 정보가 아니며 인용횟수의 차이가 예상보다 커, 디스커버리의 인용정보가 최신성이 담보되지 않음을 알 수 있었다.
- 다. 완전성
통합색인의 완전성을 확인하기 위해 디스커버리와 개별DB의 탐색결과에서의 ‘불완전한 통합색인’이 얼마나 되는지 확인해 보고자 하였다. 그런데 상대평가를 수행하기에 앞서 하나의 사례를 먼저 살펴보았다. 그 결과, 통합색인 구축시 어떤 DB에서 추출하느냐에 따라 ‘데이터 필드의 완전성’에 있어 큰 차이가 존재하였다. 가령, <그림 5> 는 (좌)D-ScienceDirect, (우)D-LISTA의 검색 결과이다. 이 때, D-ScienceDirect에서 추출한 데이터는 총 12개의 데이터 요소, 즉, ① 표제 , ② 저자 , ③ 소속기관 , ④ 수록출판물 , ⑤ 출판사, ⑥ 초록 , ⑦ 문서유형 , ⑧ ISSN , ⑨ DOI , ⑩ 등록번호 , ⑪저작권, ⑫ 데이터베이스 정보를 제공하였다. 그러나 D-LISTA에서 추출한 경우 총 14개의 데이터 요소, ① 표제 , ② 저자 , ③ 수록출판물 , ④ 문서유형 , ⑤ 주제어, ⑥ 저자 제공 키워드, ⑦NAICS/산업코드, ⑧ 초록 , ⑨ 저자 소속기관 , ⑩ ISSN , ⑪ DOI , ⑫ 등록번호 , ⑬ 데이터베이스 , ⑭출판사 로고 정보를 제공하였다. 결과적으로, D-ScienceDirect와 D-LISTA는 출판사, 저작권, 주제어, 저자 제공 키워드, NAICS/산업 코드, 출판사 로고 총 6개의 요소에 차이가 있었고, 이러한 결과는 하나의 디스커버리 안에서도 DB에 따라 ‘데이터 필드의 완전성’에 있어 큰 차이가 존재함을 확인할 수 있었다.
PPT Slide
Lager Image
데이터 필드의 완전성 오류 사례 (D-ScienceDirect vs. D-Lista)
또한 D-SCOPUS, D-LISTA를 살펴보아도 오류가 발생하는 모습은 대동소이하였다. D-SCOPUS에서 추출한 데이터는 총 13개의 데이터 요소, 즉, ① 표제 , ② 저자 , ③ 소속기관 , ④ 수록출판물 , ⑤ 출판물정보, ⑥ 출판연도, ⑦ Author Keywords , ⑧ 문서유형 , ⑨ 언어, ⑩ ISSN , ⑪ Rights , ⑫ 등록번호 , ⑬ 데이터베이스 정보로, 이 사례도 정도의 차이는 존재하지만 상술한 사례와 동일하게 요소의 차이가 존재하였다. 그러나 데이터 필드의 완전성은 단순히 요소의 차이에서만 문제가 되는 것은 아니었다. 앞의 <그림 5> 를 살펴보면 동일한 ‘저자 소속기관’ 정보라 할지라도 어느 DB에서 추출하느냐에 따라 서지요소의 기술 순서가 바뀌어 있는 것을 알 수 있었다. 또한 개별 DB에서 사용하던 용어인 ‘Author Keywords’와 ‘저자 제공 키워드’, ‘Rights’와 ‘저작권’, ‘출판사’와 ‘출판물정보’를 그대로 사용하고 있어, 용어의 통일성에 따른 통합색인의 완전성에도 문제가 발생하였다.
한편, 완전성을 보다 구체적으로 확인하기 위해 디스커버리의 통합색인과 개별DB의 데이터필드의 완전성을 비교분석해 보았다. 그 결과, 개별DB의 서지는 다양한 요소들이 매우 상세하게 기술되어 있었으나 디스커버리의 통합색인으로 변환되면서 요소가 생략되는 모습을 확인할 수 있었다. 가령, <그림 6> 에서 보여지듯이 ‘초록’, ‘관련 키워드’(indexed keywords) 등의 정보는 SCOPUS에서는 있었으나 D-SCOPUS에서는 생략된 채 제공되고 있었다. 결과적으로 통합색인을 구축함에 있어 개별DB의 상세서지를 요약할 때 디스커버리의 완전성에 대한 고려없이 일괄적으로 요소를 생략·축소하다 보니 디스커버리 통합색인의 완전성이 더욱 떨어지는 현상이 발생한 것이다.
PPT Slide
Lager Image
데이터 필드의 완전성 오류 사례 (D-SCOPUS vs. SCOPUS)
이러한 상황에서 표본 레코드를 대상으로 디스커버리와 개별DB 색인의 완전성에 대한 상대평가를 수행하는 것은 의미가 없어 보인다. 기존의 개별DB에 따라 디스커버리의 통합색인이 결정되는 상황에서 표본 레코드 307건을 대상으로 한 검색결과의 상대적 완전성을 비교하는 것은 DB별 추출건수를 조사하는 것에 불과하게 때문이다. 이에, 초기 계획은 상대평가를 통한 완전성 분석이었지만 실제 데이터를 확인한 결과 디스커버리 내의 데이터를 대상으로 한 절대평가가 오히려 유의미한 결과를 도출할 수 있음을 알 수 있었다.
- 라. 중복성
중복성은 디스커버리 통합색인의 구축을 위한 통합과정에서 중복현상이 발생하지 않았는가를 살펴보기 위함이다. 사실 디스커버리는 단일의 통합색인을 구축한 뒤 이를 제공하는 것이기에 디스커버리의 제공 전에 ‘단일’ 통합색인의 구축이 전제되어 있다. 이러한 상황에서 기본적으로 통합색인의 중복성은 크게 문제되지 않을 수도 있다. 실제 <그림 7> 에서 보듯이 디스커버리에서 자료를 검색하면 중복된 자료는 “결과에서 삭제된 100% 중복”이라는 안내와 함께 한 건으로 처리되고, 이미 통합한 색인들은 ‘수록DB’ 패싯에서 기술되고 있다. 즉, 디스커버리는 취합한 데이터 중 동일하다고 판단되는 데이터는 하나만을 보여주고 나머지는 ‘수록DB’를 클릭하여 접근할 수 있게 되어 있다 4) .
PPT Slide
Lager Image
디스커버리 내의 중복 데이터 처리 방식
그러나 디스커버리의 통합색인을 면밀히 살펴본 결과, 다양한 사례에서 중복성을 확인할 수 있었다. 그 중 가장 대표적인 중복성의 사례는 다음 <그림 8> 과 같다. <그림 8> 에 기술된 “Project Blacklight: a next generation library catalog at a first generation university”라는 학술논문은 실제 동일한 자료이지만 디스커버리에서는 상이한 자료로 인식되어 별개의 자료처럼 검색되었다. 이는 모태가 되는 개별DB에서 저자명을 기술한 방식의 차이 때문인데, Web of Science의 경우 ‘Sadler, Elizabeth(Bess)’로 기술한 반면, LISTA는 ‘Bess Sadler, Elizabeth’로 기술하고 있었다. 그 결과, 통합색인 구축시 저자명이 달라 상이한 자료로 인식되어 중복적으로 기술되었다.
PPT Slide
Lager Image
중복 데이터 처리 오류 사례 (Discovery vs. Web of Science & LISTA)
이러한 사례는 표본 레코드를 대상으로 검색했을 때 매우 흔히 발생하는 상황이었다. 가령, 저자명을 약자로 쓰거나, 관제를 포함해서 표제를 기술하는 등의 개별DB 입력방식이 달라 동일자료가 상이한 자료로 인식되는 일이 비일비재하게 발생하였다. 결과적으로 371건의 표본 레코드를 대상으로 디스커버리 중복성을 확인한 결과, 총 110건의 데이터(29.7%)가 중복되어 나타났다. 구체적으로는 ‘information ethics’의 경우 96건(31.4%), ‘next generation catalog’의 경우 14건(21.5%)으로 나타나, 탐색질의어에 따라 정도의 차이는 존재했지만 디스커버리 내의 중복률이 매우 높은 것을 확인할 수 있었다.
- 마. 정확성
앞서 기술한 중복성의 결과는 자연스럽게 마지막 기준인 정확성의 문제로 연결된다. 앞선 <그림 8> 의 경우, 개별DB에서는 정확한 데이터였지만 디스커버리 통합색인 내에서는 질적 수준을 떨어뜨리는 부정확한 데이터가 되는 것이다. 이와 유사하게, <그림 9> 의 왼쪽 결과를 살펴보면 ‘information ethics’로 디스커버리에서 검색하면 Project MUSE, CINAHL Plus with Full Text, SSCI라는 3개의 개별DB에서 추출된 결과가 검색된다. 그런데 그들은 동일한 자료에 대해 표제관련정보가 기술되기도 하고 생략되기도 하고, 저자명이 완전명(Full name)으로 기술되기도 하고 약어도 기술되기도 하며, 주제명도 매우 다양하게 입력되어 있었다. 또한 <그림 9> 의 오른쪽 검색결과를 살펴보면 표제의 언어에 대한 정확성에 있어서 문제가 생겨 동일자료 임에도 불구하고 두 레코드가 다른 레코드로 인식되어 있었다.
PPT Slide
Lager Image
정확성의 오류 사례
이처럼 정확성은 중복성과 동일하게 개별DB에서 메타데이터를 추출하여 통합색인을 구축할 때 공통의 규칙에 대한 고려없이 취합되어 나타난 결과로 보인다.
지금까지 P대학도서관의 EDS를 사례로 하여 5개의 평가지표를 기준삼아 디스커버리 통합색인의 품질평가를 시도해 보았다. 물론 하나의 디스커버리 제품을 사례로 하여 그 중 일부의 DB와 소수의 표본 레코드를 대상으로 살펴본 품질평가 결과이기에 일반화시켜 디스커버리의 유용성을 논하는 것은 매우 위험한 일이다. 하지만 현재 디스커버리 통합색인의 실태를 가감 없이 살펴보는데는 이번 연구의 결과가 시사하는 바가 크다고 하겠다.
- 2. 평가 의미
디스커버리를 통한 도서관자원의 검색은 도서관이 오랫동안 강구해 왔던 탐색도구의 또 하나의 진화이자 혁신이었다(Vaughan 2005, 5). 특히, 여러 유형의 자원에 대한 통합검색인 ‘메타검색’이 제 역할을 다하지 못하는 현실 속에서 디스커버리는 가히 불가능을 가능으로 만드는 역할을 수행하고 있었다. 그러나 문제는 ‘디스커버리, 특히 디스커버리의 통합색인이 얼마나 많은 정보를 제대로 제공하고 있는가’ 라는 점이다. 이러한 의문점을 해결하기 위해 이번 연구에서는 EDS를 사례로 하여 ‘information ethics’와 ‘next generation catalog’ 에 관한 307건의 표본레코드를 대상으로 탐색실험을 수행해 보았다. 그 결과, 디스커버리 통합색인의 품질을 둘러싼 다양한 논의거리를 발견할 수 있었다.
먼저, 도서관이 소장하고 있는 DB에 하나하나 접근하지 않더라도 단일의 검색창을 통해 개별 전자자원에 접근할 수 있다는 것은 통합검색도구로서 디스커버리에 대한 긍정적 평가를 가능하게 한다. 이는 “2억 건이 넘는 학술기사의 접근점을 마련해 준다는 점에서 디스커버리의 유용성을 매우 높게 평가하고 있다.”는 디스커버리 담당사서의 이야기와 맥락을 같이 한다. 나아가 사례로 살펴본 P대학도서관의 디스커버리 통합색인은 탐색질의어 혹은 개별DB에 따라 다소의 차이는 있었지만 개별 DB에서 접근했을때 보다 더 넓은 범위의 자원을 검색할 수 있다는 점, 즉 포괄성에 있어 높은 점수를 받았다는 점에서 진정한 통합검색도구로서의 가능성을 발견할 수 있다.
그러나 포괄성을 제외한 나머지 기준에서 디스커버리 통합색인의 품질은 열악하였다. 새로 출판된 논문은 누락되어 있고 인용정보는 업데이트 되어 있지 않는 등 최신성은 결여되어 있고, 동일한 자료를 상이하게 취급하면서 데이터의 중복률은 매우 높았다. 또한 개별DB에서 데이터를 그대로 혹은 잘못 요약해서 가지고 오면서 통합색인의 완전성을 위협했다. 나아가 이러한 데이터들이 모여 통합색인의 정확성에 악영향을 미치고 있었다. 이렇듯, 최신성, 중복성, 완전성, 정확성을 기준으로 살펴본 디스커버리의 품질은 기대 이하의 결과를 보였다.
그렇다면 통합색인의 조악한 품질 문제의 원인은 무엇일까? 이는 디스커버리의 통합색인 구축시 별다른 가공 없이 개별DB에서 서지정보를 그대로 가지고 왔기 때문으로 보여진다. 물론 일부 수정작업이 수행되어 요약 형태로 통합색인이 구축되는 경우도 있었지만, 이 경우 디스커버리의 품질에 대한 고려없이 요약되는 바람에 오히려 통합색인의 완전성이나 정확성에 문제를 일으키는 주범이 되기도 하였다. 이러한 문제는 디스커버리의 협의의 개념에 비춰보면 그 심각성을 알 수 있다. 즉, 디스커버리란 ‘단일의 통합색인을 구축하여 단일의 검색창에서 다양한 유형의 자료를 검색할 수 있는 통합검색도구’일진데, 개별DB에서 해당 데이터를 취합하여 통합색인을 구축할 때 제대로 된 단일의 통합색인을 가공하고자 하는 노력이 미진하였음을 이번 연구를 통해 알 수 있다.
물론 이번 연구에서 사례로 삼은 EDS의 경우, 국내에 도입된 두 가지 타상용 제품과는 다른 기능과 성능을 가지고 있다. 이렇듯 각 개별 디스커버리의 기술력의 차이는 디스커버리의 품질평가 결과에 직접적인 영향을 미치기 때문에, 사례로 삼은 디스커버리가 무엇인지에 따라 다른 결과가 나타날 수 있다. 그럼에도 불구하고 이번 연구에서 나타난 품질평가 결과가 의미있는 까닭은 빠른 속도로 도입되고 있는 디스커버리의 현 실태를 정확히 확인해 볼 필요가 있기 때문이다.
Ⅴ. 결 론
5개의 기준을 잣대로 디스커버리 통합색인의 품질을 들여 다 본 후 얻은 결론은 여러 자원의 유형, 특히 이번 연구에서 살펴본 전자자원의 통합탐색도구로서 디스커버리는 매우 유용하지만, 진정한 통합탐색도구로서 제 역할을 다하기에는 아직 부족함이 많다는 점이었다. 이 연구에서 평가기준으로 삼은 5개의 기준중 4개(최신성, 중복성, 완전성, 정확성)의 기준에서 EDS 통합색인의 문제점이 발견되었기 때문이다. 이러한 문제점을 전체 시스템으로 확장시켜 생각해 보면 디스커버리 탐색결과 내에는 많은 노이즈와 업데이트 되지 않은 이전 자료가 존재할 것이라 미루어 짐작할 수 있다.
물론 이번 연구에서 지적한 문제들은 정보기술의 발전으로 해결될 수도 있다. 그러나 근원적인 해결방법은 여러 주체의 의식 있는 변화에서부터 시작되어야 한다. 먼저, 사서들은 디스커버리가 만병통치약이 아님을 인지할 필요가 있다. 이번 연구를 진행하면서 만난 디스커버리 업무 담당사서의 이야기를 들어보자. 오래전부터 전자자원의 접근에 대한 이용자들의 요구가 있었어요. 요구를 알고 있었지만 그 많은 전자자원을 검색가능하게 만드는 것은 꽤 어려운 일이었지요. 그런데 이러한 접근을 가능하게 하는 것이 디스커버리예요. 디스커버리가 있었기 때문에 현재 가능한 것이지요. …(중략)… 성능이요? 디스커버리는 실시간으로 업데이트되기 때문에 신속성에 있어서 문제가 없을 것이라 생각해요.
그러나 이번 연구에서 밝혔듯이 디스커버리 통합색인은 최신성에 있어서 많은 문제가 있음을 알 수 있었다. 따라서 사서들은 디스커버리에 대한 맹신보다는 품질향상을 위한 개선 작업에 보다 많은 애를 써야 하며, 이 과정에서 벤더가 주체가 아닌 사서가 주도적 역할을 취할 필요가 있다.
또한 학계에서는 관련 연구와 조사를 기반으로 건설적인 논의들을 보다 풍성하게 진행하여 디스커버리를 도입하고자 하는 사서들에게 혹은 이미 도입한 시스템의 질적 향상을 위해 길을 보여줄 수 있어야 할 것이다. 지금까지 국내외에서 관련 연구들이 수행되었음에도 불구하고, 도서관별 협의체 게시판에는 디스커버리에 대한 기초적인 이해나 도입 시 고려해야 할 사항에 대한 실무자들의 문의 글이 여전히 쏟아져 나오고 있기 때문이다. 즉, 현재까지 진행된 디스커버리 관련 논의는 아직 부족한 상황인 것으로, 학계의 보다 적극적인 관심이 필요하리라 생각된다.
주지하다시피 디스커버리란 도서관 소장자료, 전자저널이나 데이터베이스, 기관 리포지토리 등 다양한 유형의 자료를 동시에 탐색하기 위함인데, 이번 연구에서는 그 중 일부분인 전자저널만을 집중적으로 살펴보았다. 뿐만 아니라 특정 디스커버리와 소수의 표본 레코드를 대상으로 품질평가를 수행했다는 점에서 분명한 제한점을 갖는다. 그러나 디스커버리 통합색인이 가지는 한계를 눈으로 확인하였다는 점만으로도 의의를 갖는다고 할 수 있다.
이어질 후속연구에서는 실제 이용자들의 입을 통한 디스커버리 평가를 수행함으로써 통합검색도구로서의 디스커버리 품질에 대해 종합적으로 접근해 보고자 한다. 이 관련 논의들은 국외의 경우 이미 한창 진행 중이기에 관련자료를 기초자료로 삼아 국내에 도입된 디스커버리의 전체적인 평가를 수행해 보고자 한다. 그러한 결과를 토대로 하여 도서관목록이 근원적인 존재 목적인 ‘도서관의 다양한 정보자원에 대한 포괄적인 탐색도구’로서 자리 잡을 수 있도록 발전전략을 모색해 볼 것이다.
NISO에서 운영하는 통합색인 기반 디스커버리와 관련된 실무 지침을 개발하기 위한 실무 그룹
메타검색은 강조하는 관점에 따라 연합검색(federated search), 통합검색(integrated search), 교차검색(cross search), 병행검색(parallel search) 등 다양한 방식으로 불린다. 이 연구에서는 이 중 통합검색의 개념을 가장 잘 표현한다고 판단되는 메타검색으로 칭하고자 한다.
이 연구에서 탐색실험을 수행한 결과는 2014년 7월 25일자 기준이다.
이때 더욱재밌는 사실은<그림 7>에서 ‘수록DB’ 패싯을 통해생략된4개의 데이터를 확인한결과, 모두개별DB에서 사용하는 요소를 유지하고 있었으며, 다양한 기술 수준으로 제공되고 있었다. 그런데 중복처리된 4개의 데이터가 훨씬 더 상세하게 기술되어있어, 어떤 기준으로 대표서지를 결정하는지 알고리즘을 추측하기 힘든 상황이었다.
References
구 중억 , 곽 승진 2007 차세대 OPAC의 인터페이스와 기능에 관한 연구 『한국비블리아학회지』 18 (2) 61 - 88
김 예린 , 정 영미 2011 대학도서관의 차세대 OPAC 체크리스트 개발 한국교육학술정보원 『한국정보관리학회 학술대회 논문집』 서울 011년 8월 26일 53 - 58
김 왕종 2004 『통합정보시스템의 품질평가』. 석사학위논문 부산대학교 대학원 문헌정보학과
남 영준 , 양 지안 2010 대학도서관 이용자의 메타서치시스템 이용행태 연구 『정보관리학회지』 27 (3) 307 - 323
도 태현 , 정 영미 2013 대학도서관의 차세대 OPAC 기능 채택과 확산 현황 『한국도서관·정보학회지』 44 (2) 197 - 215
심 경 2008 차세대 도서관 목록 『도서관문화』 49 (9) 22 - 28
심 경 2008 통합검색시스템 『도서관문화』 49 (12) 31 - 38
윤 정옥 2010 차세대 도서관 목록 사례의 고찰 『한국도서관·정보학회지』 41 (1) 5 - 28
윤 정옥 2013 차세대 도서관 목록의 제반 기능에 관한 분석 『한국문헌정보학회지』 47 (4) 5 - 23
이 제환 2002 공동목록 DB의 품질평가와 품질관리: KERIS의 종합목록 DB를 중심으로 『한국문헌정보학회지』 36 (1) 61 - 89
조 종민 2011 차세대 전자자료 통합검색 솔루션(discovery solution) 도입 검토 사례연구 『사대도협회지』 12 41 - 57
최 성진 , 김 태수 2010 연구도서관 디스커버리 환경에서의 MARC의 역할 연구 『지식처리연구』 11 (12) 33 - 47
홍 현진 2005 웹 기반 데이터베이스의 품질평가 기준 개발에 관한 연구 『한국문헌정보학회지』 39 (2) 211 - 235
Babu Preedip Balaji , Krishnamurthy M. 2013 “Library Automation to Resource Discovery: a Review of Emerging Challenges.” The Electronic Library 31 (4) 433 - 451
Breeding Marshall 2007 “Thinking about your next OPAC.” Computers in Libraries 27 (4) 28 - 30
Breeding Marshall 2010 “The State of the Art in Library Discovery 2010.” Computers in Libraries 30 (1) 31 - 34
Clarke Eddie 2006 Resource Discovery Tools Guide and Evaluation
Chickering F. William , Yang Sharon Q. 2014 “Evaluation and Comparison of Discovery Tools: An Update.” Information Technology and Libraries 33 (2) 5 - 30
DeFelice Barbara 2009 An Evaluation of Serials Solutions Summon As a Discovery Service for the Dartmouth College Library Dartmouth College Library
Delone William H. , McLean E. R. 2004 “Measuring e-commerce success: Applying the DeLone & McLean Information Systems Success Model.” International Journal of Electronic Comerce 9 (1) 31 - 47
Emanuel Jenny 2009 “Next Generation Catalogs : What do They do and Why Should We Care?” Reference & User Services Quarterly 49 (2) 117 - 120
Fagan Jody Condit 2012 “Usability Test Results for a Discovery Tool in an Academic Library.” Information technology and libraries 31 (1) 83 - 112
Foster Anita K. , MacDonald Jean B. 2013 “ATale of Two Discoveries : Comparing the usability of Summon and EBSCO Discovery Service.” Journal of Web Lirarianship 7 (1) 1 - 19
Granick Lois 1991 “Assuring the Quality of Information Dissemination.” Information Services and Use 11 (3) 117 - 136
Grophy Jan , Bawden David 2005 “Is Google enough? Comparison of an Internet Search Engine with Academic Library Resources.” Aslib Proceedings: New Information Perspectives 57 (6) 498 - 512
Nagy Andrew 2009 “A Conversation With Karen Schneider: VuFind and Summon.”
ODI Survey Report: Reflections and Perspectives on Discovery Services
2005 Perceptions of Libraries and Information Resources OCLC Online Computer Library Center, Inc. Dublin, Ohio
2010 Perceptions of Libraries, 2010: Context and Community OCLC Online Computer Library Center, Inc. Dublin, Ohio
Philip Martin 2010 Do Students Wants a One-stop-shop to Help Them Navigate Their Way Around the Maze of Library Resources? M. A. thesis The university of sheffield
Pradhan Dinesh R. , Trivedi Kruti , Arora Jagdish 2011 “Searching Online Resources in New Discovery Environment: A state-of-the-Art review.” Proceedings of the 8th International Caliber 132 - 145
Vaughan Jason 2011 “Web Scale Discovery: What and Why?” Library Technology Reports 47 (1) 5 - 11
Vaughan Jason 2012 “Investigations into Library Web Scale Discovery Service” Information Technology & Libraries 31 (1) 32 - 82
Way Dong 2010 “The Impact of Web-scale Discovery on the Use of a Library Collection.” Serials Review 36 (4) 214 - 220
Williams Sarah C. , Foster Anita K. 2011 “Promise Fulfilled? An EBSCO Discovery Service Usability Study.” Journal of Web Librarianship 5 (3) 179 - 198
Yang Sharon Q. , Wagner Kurt 2010 “Evaluating and Comparing Discovery Tools: How Close are We Towards Next Generation Catalog?” Library Hi Tech 28 (4) 690 - 709
Yang Sharon Q. , Hofmann Melissa A. 2010 “Evaluating and Comparing Discovery Tools: How Close AreWe Towards Next Generation Catalog?” Library Hi Tech 28 (4) 690 - 709
2014 A도서관 디스커버리 업무담당 사서, [인터뷰] 부산