Advanced
Review on Reliability and Validity of Questionnaire of Pattern Identification in Traditional Chinese Medicine -Using China National Knowledge Infrastructure-
Review on Reliability and Validity of Questionnaire of Pattern Identification in Traditional Chinese Medicine -Using China National Knowledge Infrastructure-
--China National Knowledge Infrastructure를 이용하여--
Journal of Physiology & Pathology in Korean Medicine. 2015. Jun, 29(3): 246-255
Copyright © 2015, The Korean Association of Oriental Medical Physiology
  • Received : March 20, 2015
  • Accepted : May 21, 2015
  • Published : June 25, 2015
Download
PDF
e-PUB
PubReader
PPT
Export by style
Article
Author
Metrics
Cited by
TagCloud
About the Authors
민경 여
상옥 동
영섭 이
rheey119@kiom.re.kr
은수 장
rheey119@kiom.re.kr

Abstract
The purpose of this study is to investigate the reliability and validity of the questionnaire of pattern identification (PI) in traditional chinese medicine (TCM), through the systematic review of china national knowledge infrastructure (CNKI) database. We searched the articles related with reliability and validity of the questionnaire of PI and published from January 1994 to December 2013. Seventeen questionnaires were analyzed in this study. The twelve (70.6%) questionnaires were developed on the base of specific disease, and five (29.4%) ones were developed on the base of non-specific disease. Three of PI questionnaires showed low inter-item consistency reliability. Exploratory factor analysis of construct validity, content validity, and criterion validity analysis were commonly used on the assessment of validity, but none of them was analysed at the same study. There was only one questionnaire of the ischemic stroke that examined the sensitivity and specificity of both training and test groups in spite of the absence of a gold standard.
Keywords
서 론
辨證은 동아시아 전통의학의 독특한 진단 방법으로 상대적이고 전체적인 사고를 통해 인체의 증상을 살필 수 있는 특징이 있다. 이러한 변증은 한의학의 진료 특색을 가장 잘 보여주는 것이지만 증을 통한 진단은 환자의 주관적인 표현이나 의사의 주관적 혹은 유도된 오감이 개재될 수 있어 객관적 진찰이 어려운 문제점이 있다 1) . 이에 따라 객관적이고 수치화된 통합적인 진단 기준을 만들기 위해 한중 양국에서는 많은 노력이 이루어지고 있다.
중국에서는 1990년대부터 증후의 개념, 분류, 명명 및 정량화된 진단 표준 등 다방면에 걸친 규범화 연구가 시작되었으며 지금까지 중의학의 현대화와 표준화에 대한 연구가 활발히 진행되고 있다 2) . 이를 통해 어느 정도의 성과는 이루었으나 표준화 형식과 제정 방법이 통일화 되지 않았으며 단일 증형의 표준이 실제 임상에서 활용되기 어렵다는 등, 몇몇 문제점이 지적되고 있다 3) . 설문지를 이용한 도구개발은 이러한 문제점을 보완하고 중의 변증을 규범화, 객관화하기 위한 새로운 사고와 방법으로 인식되고 있다 4) . 우리나라에서도 한의학적 진단과 변증의 객관적인 기준을 마련하기 위해 변증명에 대한 표준화 연구 5) 가 진행되었으며 지표를 정량화, 객관화 하려는 시도들이 있어왔다 6 , 7) .
표준화된 자기기입식 설문지는 신체적 활동 제한에 대한 정보를 수집하고 통합하는데 편리할 뿐만 아니라 8) , 치료효과에 대한 근거를 제시하고 신체활동의 변화를 검증하는데 필요한 정보를 제공하는데 효과적이다 9) . 그러나 우수한 변증 설문도구로 평가받기 위해서는 두 가지 핵심 조건을 만족시켜야 하는데 첫째는 의사가 변증하고자 하는 것을 타당하게 측정할 수 있어야 하고, 둘째는 동일한 조건 하에 반복적으로 측정하더라도 비슷한 결과를 도출할 수 있어야 한다 10) . 이것을 측정의 타당도(validity)와 신뢰도(reliability)라 하는데, 사용하고자 하는 변증 설문도구가 높은 타당도와 신뢰도를 보유하고 있는지를 검증하는 것은 올바른 변증을 내리기 위한 필수 과제라고 할 수 있다. 특히 타당도에서 진단의 참값(Gold Standard)을 바탕으로 알고리즘을 개발하고 분류의 정확도를 높이는 것은 현대의학의 추세인 맞춤‧예측의학에도 부합하는 것이다.
우리나라에서도 변증 설문도구의 개발에 관한 연구가 진행되어 임상 데이터를 기반으로 통계적 신뢰도 및 타당도 평가가 이루어진 연구 11 - 14) 들이 있기는 하나, 변증 설문도구 개발 시의 신뢰도 및 타당도 연구가 어떻게 이루어지고 있는지에 대한 동향 파악은 미비한 실정이다. 이에 본 연구에서는 중국에서 이루어지고 있는 변증 설문도구에 관한 연구에 대해 알아보고 신뢰도와 타당도를 중심으로 연구 동향을 살펴, 향후 한국 변증 설문도구 개발의 방향 설정에 도움을 주고자 하였다.
연구대상 및 방법
- 1. 논문 검색
중국 내 변증 설문도구의 연구 동향을 살펴보기 위해 대표적인 중국논문 검색 database인 CNKI(China National Knowledge Infrastructure, www.cnki.net)의 중국학술기간전문수거고(中國學術期刊全文數據庫)를 통해 검색하였다. 1994년 1월에서 2013년 12월까지, 최근 20년을 검색기간으로 설정하였으며 검색 영역으로는 제목, 키워드, 초록 등을 모두 포함하는 기본검색인 ‘주제’를 사용하였다. 검색어는 중국현지에서 공부한 중의사 2인의 도움을 받아 변증과 관련된 ‘辨證(bianzheng)’ 또는 ‘證候(zhenghou)’, 설문지를 뜻하는 ‘量表(liangbiao)’ 또는 ‘問卷(wenjuan)’, 신뢰도와 타당도를 뜻하는 ‘信度(xindu)’ 또는 ‘效度(xiaodu)’ 또는 ‘敏感性(minganxing)’ 또는 ‘特異性(teyixing)’을 조합하여 사용하였으며, 논문 검색은 2014년 8월에 시행하였다. 검색식은 다음과 같다.
( 辨证 OR 证候 ) AND ( 量表 OR 问卷 ) AND ( 信度 OR 效度 OR 敏感性 OR 特异性)
- 2. 연구 방법
상기 검색식으로 1994년부터 2013년까지 신뢰도와 타당도를 중심으로 중의 변증 설문도구에 관한 논문을 검색한 결과, 모두 89편의 논문이 검색되었다. 검색된 모든 논문의 제목, 키워드, 초록을 검토하여 중복 논문 2편을 배재시킨 후, 중의 변증 설문도구와 관련이 없는 논문 36편과 종설 논문 11편을 포함한 49편을 1차적으로 배제하였다. 1차 분류 결과 40편의 논문이 선정되었는데 이 후 논문 전문을 검토하여 증형으로 분류하지 않은 논문 14편과 변증 설문도구에 대한 신뢰도 및 타당도를 연구한 것이 아닌 논문 7편을 2차 제외하기로 하였다. 그 결과 중의 변증 설문도구 중 신뢰도 및 타당도를 연구한 논문 19편을 최종 선정하였다( Fig. 1 ). 논문 검색과 선별, 분석 과정은 한의학 전문가 2인의 합의에 의한 검수과정을 거쳤다.
PPT Slide
Lager Image
Flow chart diagram of eligibility criteria.
- 3. 분류 및 분석 방법
최종 선정된 변증 설문도구의 연도별 논문추이를 살펴보고, 특정 질병과 비특정 질병에 적용할 수 있는 설문도구로 분류하여 그 활용 범위를 조사하였으며, 중의 변증 설문도구의 신뢰도 및 타당도 평가 유형을 정리·분석하였다.
결 과
- 1. 연도별 추이
최종 선정된 중의 변증 설문도구의 신뢰도 및 타당도 연구 논문은 총 19편으로 2005년 1편, 2006-2009년 각 2편, 2010년-2012년 각 3편, 2013년 1편으로 나타났다( Fig. 2 ).
PPT Slide
Lager Image
The number of studies published per year.
- 2. 중의 변증 설문도구 유형 분석
19편의 중의 변증 설문도구 논문 중 중풍과 경추병에 관한 2편이 하나의 변증 설문도구에 대해 신뢰도와 타당도를 따로 검증 하였기에 실제 사용된 설문도구는 17개였다. 대략적인 설문지 개발과정을 살펴보면 문헌 고찰, 전문가 조사, 통계적 분석 방법이 각각 15개의 설문지 개발에서 사용되었으며 임상자료 분석은 11개의 설문도구 개발에서 이루어졌다. 개발된 변증 설문도구는 계통체계로 묶어 하나의 설문지로 구성한 경우가 11개, 특정변증마다 설문문항을 만든 것이 6개였으며, 문항 척도로는 리커트 척도(Likert Scale)가 가장 많은 설문도구(10개)에서 사용되었다. 또한 설문지를 통한 변증 진단은 중풍 변증 설문도구에서 Cut Off 방식으로 언급되었다(Appendix).
17개의 변증 설문도구는 특정 질병에 적용할 수 있는 설문도구와 비특정 질병에 활용할 수 있는 설문도구로 나눌 수 있는데, 질병에 따른 변증 설문도구는 12개(70.6%)이며 질병과 무관한 변증 설문도구는 5개(29.4%)로 나타났다( Fig. 3 ).
PPT Slide
Lager Image
Questionnaire of pattern identification in TCM.
- 1) 특정 질병의 중의 변증 설문도구
특정 질병에 따른 중의 변증 설문도구 12개는 『중의내과상견병증진료지남(中醫內科常見病診療指南)』의 분류 기준에 따라 중의병증과 서의질병으로 분류하였다. 중의병증에 관한 변증 설문도구는 4개로 해수 3개, 중풍 1개였는데 해수는 다시 원인 불명의 만성해수(1개) 15) 와 감기 후 해수(2개) 16 , 17) 에 관한 설문도구로 나눌 수 있다. 원인 불명의 만성해수는 6개(肺因子․咽因子․胃因子․鼻因子․心因子․腎因子), 감기 후 해수 설문도구 2개는 4개(痰濕阻肺․肺脾兩虛․肺腎陰虛․風燥犯肺/痰阻清竅․肺脾兩虛․心陰虧虛․風燥犯肺)의 유형으로 분류하지만 세부 유형에는 약간의 차이가 있으며 중풍 18 , 19) 은 6개(內風證․內火證․痰濕證․血瘀證․氣虛證․陰虛證)의 증형으로 분류하였다. 서의질병에 관한 변증 설문도구는 8개로 고혈압 20 , 21) , 만성B형 간염이 각 2개 22 , 23) , 경추병 24 , 25) , 골다공증 26) , 우울증 27) , 폐렴 28) 이 각 1개씩 있었다. 고혈압은 노년성 고혈압의 腎氣虧虛證과 본태성 고혈압의 肝陽上亢證에 관한 설문도구였으며, 만성 B형 간염은 肝膽濕熱證과 脾虛證에 대한 설문도구였다. 또한 神經根型 경추병은 4개(風寒濕燥, 瘀血阻滯, 肝腎虧虛, 氣血兩虛), 폐경 후의 골다공증도 4개(腎陽虛, 肝腎陰虛, 脾腎兩虛, 血瘀)의 증형으로 분류하였으며, 우울증은 5개(陰虛, 脾虛, 痰濁, 肝鬱, 心虛), 소아 폐렴은 8개(痰熱閉肺, 風熱閉肺, 氣陰兩虛, 陰虛肺熱, 痰濁未盡, 痰熱未淸, 風寒閉肺, 毒熱閉肺)의 증형으로 분류하는 설문도구였다. 이를 통해 질병에 따른 12개의 변증 설문도구는 8개의 중·서의 질병에 활용되고 있으며, 고혈압과 만성 B형 간염 설문도구는 그 질환의 환자 중 해당 증형인지 아닌지를 판단하는 설문도구임을 알 수 있다( Table 1 ).
Specific disease targeted questionnaire of pattern identification in TCM
PPT Slide
Lager Image
Specific disease targeted questionnaire of pattern identification in TCM
- 2) 비특정 질병의 중의 변증 설문도구
비특정 질병에 활용 가능한 중의 변증 설문도구는 5개로, 2개는 心 29) 과 肝 30) 의 장부에 나타나는 병리적 현상을 9개(心氣虛證, 心陽虛證, 痰濁證, 寒凝證, 心陰虛證, 心血虛證, 血瘀證, 氣滯證, 心火亢盛證), 4개(肝陽上亢證, 肝膽濕熱證, 肝火上炎證, 肝氣鬱結證)의 변증 유형으로 나눈 설문도구이며, 나머지 3개는 血瘀證 31) , 腎陽虛證 32) , 虛寒證 33) 등 하나의 변증 유형에 대한 설문도구였다( Table 2 ).
Non-specific disease targeted questionnaire of pattern identification in TCM
PPT Slide
Lager Image
Non-specific disease targeted questionnaire of pattern identification in TCM
- 3. 신뢰도 및 타당도 평가 유형 분석
17개의 중의 변증 설문도구의 신뢰도 및 타당도 평가에 참여한 대상자는 65-3,068명으로 다양하게 나타났다( Table 3 ).
Type of reliability and validity
PPT Slide
Lager Image
*ICC: Intra-class correlation coefficient, **: Pearson’s product moment correlation coefficient, ¶: Spearman correlation coefficient, †: Guttman‘s split-half reliability
- 1) 신뢰도 유형 분석
- (1) 내적 일치도
17개의 중의 변증 설문도구에서 내적 일치도를 평가하기 위한 방법으로 Cronbach’s α 계수, 급내상관계수(ICC), Kappa 계수를 사용하였다. Cronbach’s α 계수는 17개의 모든 변증 설문도구에서 공통적으로 사용한 것을 알 수 있는데, 그 중 전체 문항과 각 증형에 따른 Cronbach’s α 계수를 모두 언급한 설문도구는 10개(0.69-0.98), 둘 중 하나의 Cronbach’s α 계수를 언급한 설문도구는 7개(0.26-0.95)였다. ICC와 카파 계수는 4개의 설문도구에서 검정되었는데 ICC 값은 0.71-0.92, 카파 값은 0.28-0.87을 보이고 있다( Table 3 ).
- (2) 검사-재검사법, 동형검사법, 반분법
검사-재검사법, 동형검사법, 반분법을 통해 신뢰도를 평가하는 방법으로는 상관계수와 거트만 반분 신뢰도계수를 사용하였다. 상관계수는 상관되는 변수들의 성질에 따라 종류가 다양한데, 10개의 설문도구에서 두 변수가 수량(연속)변수일 때 사용하는 피어슨 적률상관계수를 사용하였으며 그 값은 0.76-0.99였다. 또한 스피어만 상관계수는 4개(0.86-0.99), 반분법에 의한 거트만 반분 신뢰도계수는 2개(0.70-0.86)의 설문도구에서 언급되었다.
- 2) 타당도 유형 분석
타당도 분석 방법으로는 내용 타당도, 준거 타당도, 구성 타당도가 있는데, 중의 변증 도구에서 가장 흔히 사용한 타당도 검정 방법은 13개의 변증 설문도구에서 활용한 구성 타당도의 일종인 요인분석이다. 요인에 대한 부하량 산출 값은 50.33-85.34(%)로 나타났다. 내용 타당도에 대한 검정은 8개의 설문도구에서 이루어졌으며, 준거 타당도는 1개의 설문도구에서 사용하였다. 그 밖에 민감도와 특이도를 측정하여 양성 예측도 값을 통해 타당도를 반영한 설문도구도 1개 있었는데 변증 정확률이 트레이닝 집단에서는 74.3-83.8(%), 테스트 집단에서는 75.5-85.8(%)임을 알 수 있다 19) ( Table 3 ).
고 찰
한의학에서는 환자를 진단함에 있어 진단의의 지식과 경험에 따라 환자의 증상에 대한 가중치가 달라지고 변증이 차이가 날 가능성이 높다 11) . 따라서 한의학의 진단 과정은 좀 더 객관화 되고 정량화 되어야할 필요가 있기에 표준화된 진단과 평가를 위한 설문도구들이 개발되고 있다. 이러한 변증 설문도구에 대한 신뢰도 및 타당도 검증은 하나의 진단기준으로 활용되기 위해 반드시 거치는 분석방법이다. 신뢰도와 타당도가 높게 나온다면 임상연구에서 분류기준으로 사용될 뿐 아니라 실제 임상에서 진단의 보조수단으로 활용되어 의료인의 판단을 돕는 역할을 하게 된다. 따라서 본 연구에서는 중국내 변증 연구의 현황을 살펴보고자 CNKI DB를 활용하여 중의 변증 설문도구에 대한 신뢰도 및 타당도의 연구 동향을 알아보았다.
1994년부터 2013년까지 중국의 변증 설문도구의 신뢰도 및 타당도 연구와 관련 있는 논문을 검색한 결과 총 19편의 논문이 최종 선정되었는데 2005년 1편, 2006-2009년 각 2편, 2010년-2012년 각 3편, 2013년 1편이었다. 이와 같은 연구 결과로 과거 중의 변증 설문 연구의 활성화 정도를 판단할 수는 없으나, 최근 중의변증 설문 연구 중 신뢰도 및 타당도 연구가 많다고 보기는 어렵다. 또한 張 등 34) 은 중의 변증 설문도구의 활용 현황에 대한 대략적인 통계로, 자체적으로 제작한 변증 설문도구를 사용하는 경우는 18%에 불과하다고 하였다. 이를 통해 중국에서는 변증 설문도구에 대한 연구의 중요성이 떨어지는 것으로 보이는데, 그 이유로 중의 변증 분류에 관한 국가주도의 표준화 사업이 지속적으로 진행되고 있기 때문에 실제 데이터 기반의 설문도구를 개발하는 것에 중요도를 낮게 두는 것으로 추정된다.
19편의 중의 변증 설문도구 논문 중 2편이 하나의 변증 설문도구에 대해 신뢰도와 타당도를 따로 검증 하였기에 실제 사용한 설문도구는 17개였다. 대략적으로 살펴본 설문지의 개발과정은 통상의 설문지 개발 과정과 같이 선행조사가 진행되었는데, 선정된 변증 설문지의 대부분은 문헌 고찰과 전문가 조사(설문조사, 델파이, 자문 회의 등) 및 통계적 분석(상관분석, 회귀분석, 요인분석, t검정 등)을 통해 개발되었음을 알 수 있었다. 그 중 특정 질병에 활용할 수 있는 변증 설문도구는 12개로 70.6%, 질병과 무관하게 활용하는 변증 설문도구는 5개로 29.4%를 차지하고 있다. 본 연구를 통해 전체적인 중의 변증 설문도구의 연구가 질병 위주의 연구라 단언할 순 없지만, 중의 변증 설문도구 중 신뢰도 및 타당도 연구는 질병에 따른 변증 설문도구가 전체의 2/3를 차지하여 질병 위주의 연구가 보다 활발히 진행되고 있음을 알 수 있었다.
특정 질병에 따른 중의 변증 설문도구 12개는 다시 중의병증(4개)과 서의질병(8개)에 활용한 것으로 분류할 수 있다. 중의병증에 관한 설문도구는 4개로 해수 3개, 중풍 1개이며 서의질병에 관한 설문도구는 8개로 고혈압, 만성 B형 간염이 각 2개, 경추병, 골다공증, 폐렴, 우울증이 각각 1개씩 있었는데, 질병에 따른 12개의 변증 설문도구는 2개의 중의병증과 6개의 서의질병에 관한 것임을 알 수 있다. 언급된 질병은 대부분 중국 정부에서 공표한 변증 유형에 관한 표준 진료 지침 35 , 36) 이 존재하고 있지만 설문도구의 증형과는 차이가 있다. 우울증을 예로 들면, 『中醫內科常見病診療指南』 35) 에서는 腎虛肝鬱, 肝鬱脾虛, 肝膽濕熱, 心腎不交, 心脾兩虛, 心膽氣虛의 6개의 증형으로 분류하고 있지만, 결과에서 기술했듯이 선정된 우울증 논문은 5개(陰虛, 脾虛, 痰濁, 肝鬱, 心虛)의 증형으로 나누고 있다. 이는 서론에서 표준화의 문제점으로 지적하였듯이 표준 진료 지침이 실제 임상에서의 활용은 어렵다는 것이 반영된 결과가 아닌가 사료된다. 중국의 변증 표준 제정 방법은 합의방식이 아닌 국가가 지정한 일부자문위원 등 특정 전문가들의 개인적인 임상 경험에 의존하는 경우가 많기 때문에 3) , 여기에 의견을 달리하는 전문가들이 본인들에게 맞는 또 다른 변증유형에 대한 연구를 하는 것으로 생각된다.
비특정 질병에 활용 가능한 변증 설문도구는 5개로, 2개는 心과 肝의 각 장부에 나타나는 병리적 현상을 9개, 4개의 변증 유형으로 나눈 설문도구이며 나머지 3개는 신양허증, 혈어증, 허한증 등 하나의 변증 유형에 대한 설문도구이다. 질병과 무관한 변증 설문도구 연구는 2010년 이후로는 이루어지지 않았는데, 앞서 기술했듯이 중국의 변증 설문도구 연구 추세가 질병 위주의 연구임을 짐작하게 한다.
다음으로 17개의 중의 변증 설문도구 중 신뢰도와 타당도 측정방법을 살펴보았다. 개발에 참가한 대상자는 65-3,068명으로 다양하게 나타났는데, 평균 581명으로 통상의 설문개발의 대상자 수에 비해 많은 편이었다.
신뢰도의 종류에는 문항 내적 일치도(inter-item consistency reliability), 검사-재검사법(test-retest method), 동형검사법(equivalent forms technique), 반분법(split-half method)이 있다. 내적 일치도를 알아보기 위한 방법으로는 Cronbach’s α 계수, 급내상관계수(ICC), Kappa 계수를 이용하며, 검사-재검사법, 동형검사법, 반분법의 신뢰도를 알아보기 위한 방법으로는 상관계수가 이용된다.
Cronbach’s α는 동일한 목적을 위하여 만들어진 설문 문항들의 응답패턴이 얼마나 일치하는지 여부를 측정하는 통계량으로써, 변화 패턴이 거의 일치하면 데이터의 내적 일치도가 높다고 할 수 있으며 37) 일반적으로 0.7이상이면 신뢰도를 만족한다고 한다 38 , 39) . 본 연구에서 살펴본 17개의 설문도구는 공통적으로 Cronbach’s α 계수를 측정하였는데, 그 중 전체 문항과 각 증형에 따른 Cronbach’s α 계수를 모두 언급한 설문도구는 10개(0.69-0.98), 둘 중 하나의 Cronbach’s α 계수를 언급한 설문도구는 7개(0.26-0.95)였다. 후자에 속하는 변증 설문도구 중 몇몇은 낮은 신뢰도를 보이고 있거나 일부 Cronbach’s α 계수만을 기재하고 있다. 예를 들어 소아폐렴의 변증 설문도구는 증형별 계수 범위가 0.26-0.86으로 낮은 신뢰도를 보이는 증형을 포함하고 있으며, 노년성 고혈압의 신기휴허증 설문도구는 하나의 증형에 대한 설문도구이지만 전체 문항에 대한 Cronbach’s α 계수는 언급하지 않고 신허와 기허, 신기허에 관한 설진 설문문항에 따라 Cronbach’s α 계수를 각각 언급하고 있다. 또한 심계 설문도구 역시 9개의 증형 중 3개의 증형에 대한 Cronbach’s α 계수만을 언급하고 있다. 따라서 이 세 변증 설문도구는 제대로 된 신뢰도 측정이 이루어졌다고 보기 어렵다. 고혈압의 신기휴허증 설문도구의 경우 설진은 본문에서 조사자 방문을 통해 조사되었다고만 기재되어 있을 뿐 별도의 설문지가 첨부되지 않아, 환자 기입식 문항인지 조사자 체크 문항인지에 대해서는 확인할 수 없었다.
내적 일치도를 알아보기 위한 또 다른 신뢰도 측정 방법으로는 급내상관계수(Intra-class Correlation Coefficient, ICC)와 Kappa 계수가 있다. ICC는 측정하고자 하는 관심변수와 자연발생적으로 형성된 집락 사이의 (상관)관계를 의미하는데 4개의 설문도구(노년성 고혈압의 신기휴허증, 혈어증, 신양허증, 허한증)에서의 ICC=0.71-0.92로 집락 내 문항들끼리 서로 관련성이 높다고 볼 수 있다. 카파 계수는 변수가 평가자일 때 2명의 평가자간의 일치도를 계산하기 위한 방법으로 4개의 설문도구(심계, 혈어증, 신양허증, 허한증)에서 언급하고 있는데 그 중 심계 설문도구는 K=0.28-0.80으로 몇몇 증형에 대한 평가자간의 일치도가 낮음을 알 수 있다. 이렇듯 17개의 중의 변증 설문도구 중 소아폐렴, 노년성 고혈압의 신기허증, 심계 변증 설문도구는 문항 내적 일치도의 신뢰도가 낮거나, 평가의 정밀성이 떨어짐을 알 수 있다.
검사-재검사법, 동형검사법, 반분법을 통한 신뢰도를 측정하는 방법인 상관계수는 상관되는 변수들의 성질에 따라 피어슨 적률상관계수, 스피어만 상관계수, 거트만 반분 신뢰도계수 등으로 측정한다. 일반적으로 특별한 조건 없이 상관계수라 할 때는 두 변수가 수량(연속)변수일 때 사용하는 피어슨 적률상관계수(Pearson’s product moment correlation coefficient)를 생각하는데 보편적으로 이용하는 상관계수라 할 수 있다. 따라서 17개의 중의 변증 설문도구 중 10개의 설문 도구(원인 불명의 만성해수, 감기 후 해수 ver1·ver2, 우울증, 본태성 고혈압의 간양상항증, 만성 B형 간염의 간담습열증·비허증, 간계 4증, 신양허증, 허한증)에서 피어슨 적률상관계수(0.76-0.99)을 언급하고 있으며 비교적 높은 신뢰도를 보이고 있다. 스피어만 상관계수(Spearman correlation coefficient)는 데이터가 서열척도인 경우, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관계수를 구하는 방법으로, 4개의 중의 변증 설문도구(신경근형 경추병, 우울증, 노년성 고혈압의 신기휴허증, 만성 B형 간염의 간담습열증)의 값은 0.86-0.99로 두 변수 안의 순위가 상당히 일치하고 있음을 알 수 있다. 거트만 반분 신뢰도계수(Guttman’s split-half reliability)은 리커트 스케일의 총 항목을 반으로 나누어 각각 절반의 항목에 대한 합계 스코어를 취해서 상관계수를 구하는 것을 말한다. 이 상관계수가 높을 때에는 각각의 항목이 같은 개념을 나타내고 있다고 생각하는데 2개의 설문도구(폐경 후 골다공증, 만성 B형 간염의 간담습열증)의 거트만 반분 신뢰도계수는 0.70-0.86으로 이 설문도구들은 신뢰도가 있다고 할 수 있다. 이와 같이 상관계수는 17개의 변증 설문도구 중 13개(원인 불명의 만성해수, 감기 후 해수 ver1·ver2, 신경근형 경추병, 폐경 후 골다공증, 우울증, 노년성 고혈압의 신기휴허증, 본태성 고혈압의 간양상항증, 만성 B형 간염의 간담습열증·비허증, 간계 4증, 신양허증, 허한증)에서 언급하고 있는데 그 값이 모두 유의한 것으로 나타났다.
타당도 분석방법은 일반적으로 크게 내용 타당도, 준거 타당도, 구성 타당도로 구분한다 40) . 그 중 구성 타당도를 검증하기 위해 가장 많이 쓰이는 요인분석은 문항들 간의 상관관계가 높은 것끼리 하나의 요인으로 묶어내고 요인들 간에는 상호 독립성을 유지하도록 하는 방법 41) 으로, 각 요인의 설명 분산 비율 및 누적 비율에 대한 기준은 하나의 요인이 실제적으로 중요한 의미를 가지기 위해서는 그 요인이 전체 변이에 대해 가지는 공헌도가 최소한 얼마 이상이 되어야 한다는 것을 규정하는 것이다 40) . Hair 등 42) 은 사회과학 분야에서 누적 설명 분산이 보통 50-60(%) 정도는 되어야 한다고 제시하고 있는데 17개의 중의 변증 설문도구 중 상관계수에서 언급한 13개의 설문도구의 누적 분산 설명량은 50.33-85.34(%)로 이 기준에 부합하고 있었다. 또한 측정하고자 하는 구성이나 개념의 모든 속성을 완벽하게 측정하고 있는지를 평가하는 내용 타당도의 검정은 8개의 설문도구(원인 불명의 만성해수, 감기 후 해수 ver2, 폐경 후 골다공증, 소아폐렴, 노년성 고혈압의 신기휴허증, 만성 B형 간염의 비허증, 심계, 신양허증)에서 이루어졌으며, 신뢰할만한 타당성이 입증된 측정도구를 기준으로 사용하고자 하는 측정도구들의 관계를 비교함으로써 타당도를 평가하는 방법인 준거 타당도는 우울증 변증 설문도구에서 사용하였다. 기타 타당도 연구로는 민감도와 특이도를 측정하여 양성 예측도 값을 구한, 허혈성 중풍을 진단하는 설문도구가 1개 있었는데 변증 정확률이 트레이닝 집단에서는 74.3-83.8(%), 테스트 집단에서는 75.5-85.8(%)로 나타났다. 이는 진단의 참값의 부재에서 설문지를 통한 Cut Off 방식의 변증 진단이 가능한, 트레이닝 집단과 테스트 집단을 각각 검증한 유일한 설문도구이지만 트레이닝과 테스트 집단의 할당에 대한 언급이 없는 등 기본적인 기술이 부족한 점은 아쉬운 부분이다.
이처럼 17개의 중의 변증 설문도구는 구조 타당도(탐색적 요인분석), 내용 타당도, 준거 타당도 순으로 많이 사용되고 있는데 이들 셋을 모두 보고한 연구는 없는 것으로 나타났다. 이 등 43) 은 논문에서 하나의 접근만으로 충분히 지지되는 강력한 타당도의 근거는 없으며 타당도가 수집된 모든 증거들이 도구의 점수에 대한 의도된 해석을 얼마나 지지하는지를 나타내는 통합된 개념으로 보아야 한다고 언급하고 있다. 이러한 관점에서 현재 개발된 중의 변증 설문도구가 정말로 타당한 분류도구인가에 대해 논란이 있을 수 있다.
이상의 연구결과를 통해 중국의 변증 설문도구에 대한 신뢰도 및 타당도 연구는 2000년대 중반부터 꾸준히 진행되고 있지만 그 수가 매우 적었고, 개발된 설문도구는 질병을 위주로 하여 증형을 나누는 형태로 개발되고 있음을 알 수 있었다. 또한 몇몇 변증 설문도구 20 , 28 , 29) 는 내적 일치도를 알아보기 위한 신뢰도 평가에 있어 낮은 값을 보이고 있거나 평가의 정밀성이 떨어지고 있으며, 특히 진단의 참값의 부재에 따른 제대로 된 타당도 검증이 이루어지지 않고 있어 객관화된 중의 변증 설문도구가 미비한 것으로 보인다.
본 연구는 전반적인 중의 변증 설문도구의 신뢰도 및 타당도 평가 연구를 CNKI라는 중국내 database에 한정지어 살펴본 단점이 있다. 하지만 한의 변증 설문도구의 연구 방향을 설정하기 위해 중의 변증 설문도구 연구를 정리한 예비연구 개념으로 향후 한국에서의 변증 설문도구에 대한 신뢰도 및 타당도 연구에 참고 자료가 될 것이라 사료된다. 즉 한의 변증 설문도구의 개발을 위해서는 우선적으로 한의 변증 동향 파악과 수요자가 필요로 하는 변증체계를 조사하여야 할 것이며 향후 신뢰도 검사에서 검사-재검사법을 통한 ICC와 Kappa 분석, 요인을 묶어서 살펴보는 요인분석과 타당도 확보를 위해 참값의 설정 및 참값과의 상관분석이 가능한 연구모델을 고려해야 할 것이라고 생각된다. 본 연구가 한의 변증 설문도구의 연구 방향 설정에 도움이 되길 희망한다.
결 론
중국 논문 검색 데이터베이스인 CNKI(China National Knowledge Infrastructure)를 통해 ‘辨證(bianzheng)’ 또는 ‘證候(zhenghou)’, 그리고 설문지를 뜻하는 ‘量表(liangbiao)’ 또는 ‘問卷(wenjuan)’, 그리고 신뢰도와 타당도를 뜻하는 ‘信度(xindu)’ 또는 ‘效度(xiaodu)’ 또는 ‘敏感性(minganxing)’ 또는 ‘特異性(teyixing)’을 검색어로 하여 검색된 논문 89편을 일정한 기준에 따라 분류하고 고찰한 결과, 다음과 같은 결론을 얻었다.
1994년부터 2013년까지 신뢰도와 타당도를 중심으로 선정된 중의 변증 설문도구의 논문은 총 19편으로, 2005년부터 차츰 이루어지기 시작하여 현재까지 꾸준히 진행되고 있으나 그 수가 많지 않음을 알 수 있다.
19편의 중의 변증 설문도구 논문 중 실제 사용된 설문도구는 17개로, 그 중 특정 질병에 활용할 수 있는 설문도구 12개(70.6%), 비특정 질병에 활용할 수 있는 설문도구 5개(29.4%)였다. 이를 통해 질병에 따른 변증 설문도구가 전체의 2/3를 차지하고 있으며 질병 위주의 연구가 보다 활발히 진행되고 있음을 알 수 있다.
중의 변증 설문도구의 신뢰도 평가는 내적 일치도를 알아보기 위한 방법으로 Cronbach’s α 계수, 급내상관계수(ICC), Kappa 계수를 이용하고, 검사-재검사법, 동형검사법, 반분법의 신뢰도를 알아보기 위한 방법으로 상관계수를 사용한 것을 알 수 있는데, 몇몇 분류도구에서는 내적 일치도가 낮거나 평가의 정밀성이 떨어짐을 알 수 있다.
중의 변증 설문도구의 타당도 평가는 구조 타당도(탐색적 요인분석), 내용 타당도, 준거 타당도 순으로 많이 사용되고 있는데 이들 셋을 모두 보고한 타당도 연구는 없는 것으로 나타났다. 그 밖에 민감도와 특이도를 측정하여 양성 예측도 값을 구한, 허혈성 중풍을 진단하는 설문도구가 1개 있었는데 진단의 참값의 부재에서 설문지를 통한 Cut Off 방식의 변증 진단이 가능한, 트레이닝 집단과 테스트 집단을 각각 검증한 유일한 분류도구였다.
이상의 연구결과를 통해 중국의 변증 설문도구에 대한 신뢰도 및 타당도 연구는 질병을 위주로 하여 증형을 나누는 형태로 개발되고 있음을 알 수 있었다. 하지만 그 수가 매우 적었고, 일부 설문도구에서는 신뢰도가 낮은 경향이 있으며, 특히 제대로 된 타당도 검증이 이루어지지 않았다. 이러한 현황을 참고하여 한국의 변증 설문도구 연구는 임상수요자의 니즈를 반영하여 진행될 수 있기를 희망한다.
Acknowledgements
본 연구는 한국한의학연구원 기관주요사업인 ‘증의 실질 및 변증 분류도구 개발’(K15100) 과제의 지원을 받아 수행되었음.
References
Bae N.S. , Park Y.J. , Oh H.S. , Park Y.B. 2005 Preceding Studies for Questionnaires on Han-Yol Patternization. The Journal of the Korea Institute of Oriental Medical Diagnostics. 9 (1) 98 - 111
Gu Z.H. , Wu X.F. , Wu Y.L. 2007 Review and Outlook on Standardization Study of Pattern in Traditional Chinese Medicine. Journal of Traditional Chinese Medicine. 48 (8) 751 - 754
Yu W.Y. , Lu A.P. , Han X.J. , Shi N.N. , Wang L.Y. , Wang Y.P. , Wang Y.Y. 2011 Exploration on Syndrome Differentiation Standardization of Chinese Medicine Diagnosis and Treatment Technologies. Chinese Journal of Integrated Traditional and Western Medicine. 31 (10) 1419 - 1421
Huang C. , Song W.X. 2011 Study on Questionnaire and Scale of Pattern Identification in Traditional Chinese Medicine. Chinese Archives of Traditional Chinese Medicine. 29 (4) 889 - 891
Yang K.S. , Choi S.H. , Choi S.M. , Park K.M. , Jeong W.Y. , Ahn K.S. , Eom H.S. , Kim S.H. , Jeon B.H. , Kim J.B. , Kwon Y.K. , Park J.H. , Kim D.H. , Jang H.O. , Kim S.W. , Shin S.H. , Shin S.W. , Ko H. 1996 Standardization and Unification of the Terms and Conditions Used for Diagnosis in Oriental Medicine Ⅱ. Korean Journal of Oriental Medicine. 2 (1) 381 - 401
Park Y.J. , Park Y.B. 2001 A Study on Standardization of Bian Zheng by Some Statistical Methods. The Journal of the Korea Institute of Oriental Medical Diagnostics. 5 (2) 306 - 330
Song N.K. , Kim J.K. , Shin S.H. , Kim Y.H. , Hwang G.D. , Ahn K.S. , Choi S.M. 2005 A Study for the Objective Diagnosis by Statistical Analysis to the Bian Zheng Questionnaire. Korean Journal of Oriental Medicine. 11 (1) 127 - 138
Beattie P. , Maher C. 1997 The Role of Functional Status Questionnaires for Low Back Pain. Aust J Physiother. 43 (1) 29 - 38    DOI : 10.1016/S0004-9514(14)60400-1
Haywood K.L. 2006 Patient Reported OutcomeⅠ:Measuring What Matters in Musculoskeletal Care. Musculoskeletal Care. 4 (4) 187 - 203    DOI : 10.1002/msc.94
Hu S.Y. , Jin Y.Q. 2005 Thinking on the Assessment of Clinical Therapeutic Effectiveness of TCM. Chinese Journal of Integrated Traditional and Western Medicine. 25 (1) 72 - 75
Kim K.K. , Seo B.N. , Kang W.C. , Jung I.C. 2013 Guidelines for the Reliability and Validity of the Instrument on Pattern Identifications for Hwa-byung. Journal of Oriental Neuropsychiatry. 24 (4) 331 - 342    DOI : 10.7231/jon.2013.24.4.331
Koo B.S. , Lee S.J. , Han C.H. , Kim H.J. , Park S.H. 2009 The Basic Study for Building the Depression Prescription Guideline of Gamiguibi-Tang -The Evaluation of Reliability and Validity of the Depression Pattern-Identification Questionnaire-. Journal of Oriental Neuropsychiatry. 20 (4) 1 - 13
Lee S.J. , Park J.B. , Lee S.S. , Kim K.H. 2004 Development of Yin-Deficiency Questionnaire and Examine the Reliability and Validity. Korean Journal of Oriental Physiology & Pathology. 18 (2) 376 - 380
Lee I.S. , Kim J.W. , Chi G.Y. , Lee Y.T. , Kim K.K. 2012 Reliability Study for Upgrade of Diagnosis System of Oriental Medicine DSOM(r) S.1.1. Korean Journal of Oriental Physiology & Pathology. 26 (1) 88 - 97
Zhang T.S. , Tang B.Q. , Zhang S. , LI X.J. , Yang K.M. , Wu Y.G. 2010 Development and Evaluation of TCM Syndrome Measuring Scale Based on Patient Reported Outcome Instrument for Chronic Cough with Unknown Causes. Journal of Liaoning University of TCM. 12 (8) 113 - 115
Tang B.Q. , Zhang T.S. , Huang H.Y. , Shi K.H. , Wang L.X. , Yu X. , Fang H. , Wu Y.G. 2012 Establishment of TCM Syndrome Measuring Scale Based on Patient Reported Outcome of Refractory Post-infectious Cough. Shanghai Journal of Traditional Chinese Medicine. 46 (4) 13 - 15
Tang B.Q. , Zhang T.S. , Huang H.Y. , Shi K.H. , Wang L.X. , Yu X. , Liu F. , Fang H. , Wu Y.G. 2013 Preliminary Construction of TCM Syndrome Measuring Scale Based on Patient Reported Outcome Instrument for Post-infectious Cough. Liaoning Journal of Traditional Chinese Medicine. 40 (6) 1103 - 1105
Gao Y. , Ma B. , Liu Q. , Wang Y.Y. 2011 Methodological Study and Establishment of the Diagnostic Scale for TCM Syndromes of Ischemic Stroke. Journal of Traditional Chinese Medicine. 52 (24) 2097 - 2101
Gao Y. , Ma B. , Liu Q. , Zhong H. , Huang Y. 2012 Clinical Validation of the Diagnostic Scale for TCM Syndromes of Ischemic Stroke. Journal of Traditional Chinese Medicine. 51 (1) 23 - 25
Dai X. , Guo W. 2010 Analysis of Reliability and Validity of Deficiency of Kidney “QI” Identification Scale for Elderly Hypertention. Lishizhen Medicine and Materia Medica Research. 21 (9) 2324 - 2326
Guo Q. , Chen Z.Q. , Liu X.Z. , Shen D.Z. 2006 Preliminary Development and Evaluation of the Scale for Primary Hypertension with Excessive Rise of Liver-yang. Chinese Journal of Clinical Rehabilitation. 10 (43) 20 - 23
Guo Q. , Chen Z.Q. , Liu X.Z. , Shen D.Z. 2007 Preliminary Development and Evaluation of Scale for Chronic Hepatitis B with Type of Damp-Heat in Liver and Gallbladder. Chinese Journal of Information on TCM. 14 (7) 9 - 12
Le M. , Huang X. , Gao Y.Q. 2008 Establishment of Measurement Scale for Spleen Deficiency Syndrome in Chronic Hepatitis B. Shanghai Journal of Traditional Chinese Medicine. 42 (3) 6 - 9
Tian F. , Xie Y.M. , Yi D.H. , Wu K. , Li J.P. , Cui Q.R. 2012 Reliability and Validity Analysis on Risk Factor and Syndrome Questionnaire of Postmenopausal Osteoporosis in 40~65 Years’ Old Women. Chinese Journal of Basic Medicine in Traditional Chinese Medicine. 18 (6) 609 - 611
Zhou J.W. , Zhang F. , Li C.Y. , Wang M. 2006 Development and Evaluation of Reliability of the Disease and Pattern Combined Scale on Nerve-root Cervical Spondylosis. Journal of Sichuan of Traditional Chinese Medicine. 24 (8) 31 - 33
Zhou J.W. , Zhang F. , Li C.Y. , Wang M. 2006 Development and Evaluation of Validity of the Disease and Pattern Combined Scale on Nerve-root Cervical Spondylosis. Sichuan Medical Journal. 27 (8) 777 - 779
Wang Z. , Hu S.Y. , Chen Z.Q. , Chen Z.G. 2005 Preliminary Development of the Concision Depression Symptoms Rating Scale of Traditional Chinese Medicine. Chinese Journal of Behavioral Medical Science. 14 (10) 945 - 947
Wang X.F. , Dong D. , Linag M.X. , Zhang B. , Lv Y.X. , Jiang Z.Y. , Cui Z.Z. , Li Y.N. , Liu X.F. , Xu Y.J. , Huang Y. , Zhang M.W. 2010 Reliability and Validity Study on the Scale of Differentiation of Symptoms and Specification of Traditional Chinese Medicine in Children Pneumonia by Data Excavation Technique. Chinese Journal of Evidence-Based Pediatrics. 5 (1) 15 - 24
Liu G.P. , Wang Y.Q. , Dong Y. , Zhao N.Q. , Xu Z.X. , Li F.F. , Yan H.X. , Qian P. , Guo R. , Zhang X.D. , Di D. 2009 Development and Evaluation of an Inquiry Scale for Diagnosis of Heart System Syndromes in Traditional Chinese Medicine. Journal of Chinese Integrative Medicine. 7 (1) 20 - 24    DOI : 10.3736/jcim20090103
Chen Z.Q. , Guo Q. , Liu X.Z. , Fu Q.Y. 2007 Preliminary Development and Evaluation of Scales for the Four Mainly Syndromes in Liver Disease of Traditional Chinese Medicine. China Medical Engineering. 15 (8) 660 - 664
Lu M. , Ding W.J. , Yan S.L. , Wang M.Q. , Chen W. 2006 Reliability and Validity Study on the Scale of Deficiency of Kidney-Yang in Traditional Chinese Medicine. Liaoning Journal of Traditional Chinese Medicine. 33 (10) 1220 - 1222
Wang J. , Yao K.W. , Zhong J.B. , Wu J.T. , Fang J.Z. , Zhu C.L. , Wang Q.R. , Wang Z.Y. 2008 Study of the Scale Based on Clinical Epidemiology for Blood Stasis Pattern. Journal of Traditional Chinese Medicine. 49 (3) 270 - 272
Lu M. , Wang M.Q. 2009 Analysis on Reliability and Validity of Deficiency-Cold Questionnaire. Journal of Liaoning University of TCM. 11 (12) 53 - 55
Zhang F.R. , Zhao P. 2005 Process in Scale Research of Traditional Chinese Medicine. Chinese Archives of Traditional Chinese Medicine. 23 (10) 1812 - 1815
China Association of Chinese Medicine 2012 Guidelines for Diagnosis and Treatment of Common Internal Diseases in Chinese Medicine Symptoms in Chinese Medicine. China Press of Traditional Chinese Medicine Beijing
China Association of Chinese Medicine 2012 Guidelines for Diagnosis and Treatment of Common Internal Diseases of Modem Medicine. China Press of Traditional Chinese Medicine Beijing
Kim G.G. , Kim J.W. , Lee E.J. , Choi S.M. , Cho M.H. , Kim D.J. , Lee S.Y. 2004 Study on the Development of Sasang Constitutional Classification Function using Discriminant Analysis Model, I: Variable Selection in Cronbach Alpha Coefficient. Journal of the Korean Data Analysis Society. 6 (2) 493 - 504
Jang W.W. , Jung K.L. , Jan Y.S. , Soo Y.K. , Woo S.S. , Park H.K. 2000 The Development of Korean Health Related Quality of Life Scale(KQUOLS)-Testing Reliability and Validity-. Journal of Korean Academy of Family Medicine. 21 (3) 382 - 394
Hwang I.H. 1994 Research Methods of Questionaries. Journal of Korean Academy of Family Medicine. 15 (1) 30 - 35
Kang H.C. 2013 A Guide on the Use of Factor Analysis in the Assessment of Construct Validity. Korean Society of Nursing Science. 43 (5) 587 - 594
Cha Y.J. , Kim K. 2011 Reliability and Validity of the Korean Version of the Fear of Daily Activities Questionnaire for Patients with Low Back Pain. Journal of the Korea Contents Association. 11 (5) 224 - 232    DOI : 10.5392/JKCA.2011.11.5.224
Hair J.F. , Anderson R.E. , Tatham R.L. , Black W.C. 1995 Multivariate Data Analysis. 4th ed. Prentice Hall Upper Saddle River, NJ
Lee K.H. , Shin S.J. 2013 Validity of Instrument Development Research in Korean Nursing Research. Korean Society of Nursing Science. 43 (6) 697 - 703