Advanced
Design of Big Data Preference Analysis System
Design of Big Data Preference Analysis System
Journal of Korea Multimedia Society. 2014. Nov, 17(11): 1286-1295
Copyright © 2014, Korea Multimedia Society
  • Received : July 16, 2014
  • Accepted : October 02, 2014
  • Published : November 30, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
성일 손
Department of Computer & Information Engineering Graduate School, Cheongju University
찬곤 박
Department of Computer & Information Engineering Graduate School, Cheongju University
parkck@cju.ac.kr

Abstract
This paper suggests the way that it could improve the reliability about preference of user's feedback by adding weighting factor on sentiment analysis, and efficiently make a sentiment analysis of users' emotional perspective on the big data massively generated on twitter. To solve errors on earlier studies, this paper has improved recall and precision of sensibility determination by using sensibility dictionary subdivided sentiment polarity based on the level of sensibility and given impotance to sensibility determination by populating slang, new words, emoticons and idiomatic expressions not in the system dictionary. It has considered the context through conjunctive adverbs fixed in korean characteristics which are free to the word order. It also recognize sensibility words such as TF(Term Frequency), RT(Retweet), Follower which are weighting factors of preference and has increased reliability of preference analysis considering weight on 'a very emotional tweet', 'a recognised tweet from users' and 'a tweeter influencer'
Keywords
1. 서 론
스마트 모바일 기기의 확산과 SNS(Social Networking Service)의 활성화로 인해 데이터의 양이 기하급수적으로 증가하고 있다. 방대한 양의 데이터와 정보를 효율적으로 관리하고 활용할 수 있는 방안에 대한 논의가 활발하게 이루어지고 있고, 그 과정에서 생성되는 것이 빅데이터(Big Data)다.
생성되는 트윗의 방대한 데이터 또한 빅데이터의 일부로 트윗(Tweet)으로부터 가치 있는 패턴을 찾아내려는 연구가 많이 진행되고 있고, 이러한 연구를 통하여 빅데이터는 단순한 스토리지(Storage) 서비스나 데이터 분석만을 요구하는 것이 아니라, 분석된 정보를 통해 의미 있는 결과를 생성하여 새롭게 창조되는 경제적 가치를 찾아내려는데 그 의미를 두고있다 [1] .
트위터 사용자는 개인의 의견을 업로드하기 때문에 그 내용이 대표성도 없고 지극히 주관적이다. 개인적인 트윗 하나만 볼 때는 가치 없는 정보일 수 있지만, 여럿이 모여 일정한 패턴을 나타낸다면 가치있는 정보가 될 수 있고 시대적 의미를 반영하기 때문에 미래를 예측하기 위한 연구가 활발히 진행되고 있다. 실제로 트위터 분석 중 선호도 분석 기술은 이미 진행되고 있고, 트위터가 거대한 선호도 분석의 소스 역할을 담당함에 따라 온라인에서 좋은 선호도를 획득하려는 기업이나 공급자의 주기적인 모니터링과 동향 예측 등의 상용 서비스가 발표되고 있다. 그러나 끊임없이 제기되는 문제는 신뢰도이다 [2] .
본 연구는 트위터 상에서 발생하는 대량의 빅데이터 분석에 사용자의 감성적 관점을 보다 효율적으로 감성분석하고, 감성분석의 결과에 가중치 요소를 추가하여 사용자 의견에 대한 선호도에 신뢰도를 높이는 새로운 방법을 제시하였다. 특히 기존 연구에서의 단점인 단순 감성을 보다 세밀하게 분류하는 감성사전 설계와 감성분석 단계에서 접속부사의 사용으로 문맥의 반전 상황에 대한 대처를 하고, 선호도 등급을 분류할 때 가중치 요소를 부여하여 신뢰도 높은 선호도 분석을 목적으로 한다.
2. 관련연구
- 2.1 빅데이터
빅데이터에 대해 구체적이고 정량적인 합의가 이루어진 바는 없지만, McKinsey와 IDC(International Data Corporation)에서는 빅데이터에 대해 각각 다음과 같이 정의하였다.
  • - McKinsey : 기존 데이터베이스 처리 방식의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터 세트.
  • - IDC : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐.
즉, 빅데이터란 많은 데이터에 대한 수집, 저장뿐만 아니라 데이터의 분석, 의미 있는 데이터로의 가공, 시각화까지 포함하고 있다. [3]
- 2.2 감성사전
트위터의 의견을 분석하는 방법 중 필수적인 것이 감성사전이다. 일반적으로 사전은 두 가지로 전자 사전 등 범용으로 사용이 가능한 사전과 특정 자료에 맞게 구축된 사용자 사전이 있다 [4] . 한국어의 경우 대량의 한국어 말뭉치(corpus)가 수록된 ‘21세기 세종계획’의 세종전자사전이 범용으로 사용 가능하다. 그러나 자연어는 매우 빠르게 생성되고 소멸되며 동일한 의미를 갖는 다양한 파생어가 존재한다는 점에서 기존 범용사전을 통한 트위터의 의견분석은 부적합하다. 따라서 트위터의 의견 분석에 필요한 감성사전은 사용자가 직접 사용자 사전을 설계하는 것이 분석의 효율을 높이는 방법이다.
트위터의 의견 분석에 감성사전을 구축하는 방법으로는 텍스트 기반 데이터베이스에 대한 사전 정보의 유무에 따라 두 가지 접근 방법이 있다. 첫째, 사전정보가 있는 경우에는 자료 분석 전에 감성사전을 미리 구축하여 이에 따라 진행할 수 있다. 둘째, 사전정보가 없는 경우에는 원시 자료를 가공 절차 없이 바로 빈도 분석한 후에 일정 빈도수 이상으로 추출된 이상 결과를 보고 감성사전을 구축하는 것이다. 즉 빈도 분석의 이상 결과를 사후 정보로 판단하여 이를 보정하기 위한 감성사전을 구축하는 것이다.
트위터 감성분석 오피니언마이닝(Opinion Mining)에서 감성사전의 역할은 매우 중요하다. 특히 트위터 사용자의 의견 극성을 판단하기 위해서는 각 어휘의 긍/부정 영향에 대한 판단이 반드시 필요하다. 명확한 극성판단을 위해서 수집된 언어 자원과 감성분류, 즉 감성말뭉치 또는 감성사전이라고 하는 감성어휘 집합은 중요한 요소 중 하나이다. 감성어휘의 감성을 명확하게 분류한다면 텍스트의 감성판별 정확도는 확연히 높아지겠지만, 한국어의 특성상 발생하는 다양한 문맥적 의미 변화와 동태적 활용, 유사어, 동음이의어 등 텍스트의 감성을 판별하기 위해서는 여러 가지 한국어적 상황에 대한 고려가 반드시 필요하다.
- 2.3 트위터 감성분석 오피니언마이닝
오피니언마이닝(Opinion mining)은 사용자가 여러 매체를 통해 표현한 의견을 추출하고 분류하는 과정을 의미한다 [5] . 기본적인 수준의 오피니언마이닝은 문서 단위로 이루어지며, 이차원적인 연구는 하나의 문서는 하나의 개체에 대한 하나의 감성을 표현한다는 가정으로 수행된다. 세부적인 연구는 각 문장을 분석 대상으로 간주하며 주관성 구분(Subjectivity Classification)과 구와 절 단위의 분석을 주요 이슈로 다루고 있다. 가장 세분화된 연구는 각 개체 및 개체의 속성을 분석 단위로 한다. 이 수준의 분석은 개체의 속성에 대한 감성까지 파악할 수 있다는 장점을 갖고 있지만 개체 인식, 개체의 부분적 요소 및 속성 파악 등 많은 어려움을 포함하고 있어서 다른 수준의 분석보다 난해하다.
오피니언은 좋다, 싫다, 기쁘다, 슬프다 등의 감성적 표현으로 자주 나타나기도 한다. 특히 영화, 음악, SNS 등의 분야에서는 의견 극성 분석보다는 소비자의 감성을 중요하게 생각하기 때문에 감성분석(Sentiment Analysis)이라는 용어를 자주 사용한다. 감성분석 연구도 오피니언마이닝 연구와 함께 진행되었으며, 2000년 초기에 시장 감성분석을 위한 자동도구로서 제안된 경우가 있다. 감성분석 시스템은 주로 사용자들의 이용후기나 상품평 등 사용자의 의견이 긍정적인지 부정적인지를 판별하는 것에 주로 사용되며, 자연어처리 분야에서 많은 접근이 이루어졌지만 최근에는 오피니언마이닝과 감성분석을 나누어 구분하지는 않는다.
3. 빅데이터 선호도 분석 시스템(PAS; Preference Analysis System) 설계 및 처리 과정
본 논문에서 제안한 빅데이터 선호도 분석을 위한 시스템(PAS; Preference Analysis System)의 구조는 Fig. 1 과 같다.
PPT Slide
Lager Image
PAS Processing.
PAS의 전체 처리과정은 Module 1 : Big Data Storage Management, Module 2 : Sentiment Analysis, Module 3 : Preference Analysis로 구분하여 처리하였다.
- 3.1 Big Data Storage Management Module
빅데이터 저장 관리(Big Data Storage Management)에서는 5단계의 Data Crawling, Twitter Crawling DB, Data Preprocessing, Data Filtering, DB For Sentiment Analysis의 과정을 거쳐 처리된다.
- (1) Data Crawling
입력된 키워드에 해당하는 트윗 데이터를 트위터로부터 수집하는 과정
- (2) Twitter Crawling DB
트위터로부터 수집한 트윗 데이터를 DB에 저장
- (3) Data Preprocessing
저장된 트윗(Tweet) 데이터를 전처리(Preprocessing)시키며 전처리 과정은 형태소 분석을 한 후 품사별로 태깅(Tagging)
- (4) Data Filtering
형태소 분석 과정을 거친 데이터는 감성분석을 위해 필요 없는 트위터 ID, 작성일자, 문장부호 등을 제거
- (5) DB for Sentiment Analysis
필터링 과정을 거친 데이터는 감성분석용 DB에 저장
- 3.2 Sentiment Analysis Module
감성분석(Sentiment Analysis)에서는 Feature Extraction, Weight Calculation, Sentiment Analysis DB, Sentiment Dictionary의 과정을 거쳐 처리된다.
- (1) Feature Extraction
감성분석을 하기 위해 감성분석용 DB에서 감탄사, 부사(접속부사), 연어(관용적 표현), 용언을 추출
- (2) Weight Calculation
추출된 품사의 단어는 Sentiment Dictionary와 비교하여 감성 단어가 존재하고, 또 접속부사가 존재하는지를 판별하여 감성 단어별 극성값 계산
- (3) Sentiment Analysis DB
계산된 극성값을 감성분석 DB에 저장
- 3.3 Preference Analysis Module
감성분석(Preference Analysis)에서는 4단계인 Preference Weight Calculation, Preference Grade Analysis, Preference Result DB, Visualization의 과정을 거쳐 처리된다.
- (1) Preference Weight Calculation
감성분석이 된 데이터는 선호도 분석 가중치 요소인 TF(Term Frequency), RT(Retweet), 팔로워(Follower)에 가중치를 부여하여 계산
- (2) Preference Grade Analysis
가중치가 부여된 값은 긍/부정을 세분화하여 매우 긍정, 긍정, 부정, 매우 부정의 4단계의 등급으로 분류
- (3) Preference Result DB
선호도 분석이 완료되면 선호도 분석 결과 DB에 저장
- (4) Visualization
최종 결과값을 사용자에게 출력
4. 감성사전 설계
트위터는 온라인상에서 140자 이내의 단문 메시지만을 보낼 수 있는 서비스이다. 트윗에는 규칙이 정해져 있지 않기 때문에 사용자가 트윗을 작성할 때 기존 시스템 사전에 없는 단어를 사용하는 경우가 많다. 온라인의 특성상 한글의 형식이 변형된 단어들이 많고 신조어, 축약어, 비속어 등 한국어 사전에는 포함되지 않은 단어들이 자주 사용된다. 특히 사용자들이 트윗을 작성할 때 140자라는 글자 수 제약 때문에 단어나 문장 구조가 정상적인 문법의 범위를 벗어나는 경우가 많다. 따라서 감성사전에 등록되는 단어는 형태소 단위가 아니거나 문법에 맞지 않는 단어가 문법적으로 변형하지 않고 그대로 사용하였다.
감성사전의 설계를 위하여 전산 처리가 용이한 온라인 사전을 조사한 결과 국립국어원의 ‘세종전자사전’이 적절하다는 것을 알 수 있었다. ‘세종전자사전’을 채택한 이유는 첫째, mdb파일 제공으로 감성사전 DB를 구축하는데 용이하고 둘째, 평가하기에 적절한 규모를 제공한다는 점이다. ‘세종전자사전’은 품사별 ‘기초’DB와 ‘상세’DB 두 가지로 나누어 제공하고 있다.
Fig. 2 는 mdb형식의 ‘세종전자사전’을 편집하여 본 논문을 위해 설계한 감성사전이다.
PPT Slide
Lager Image
Sentiment dictionary file.
감성사전 설계는 주석자(Annotator)가 긍/부정을 분류하고, 각 단어별 극성값을 부여하여 설계하였다. 감탄사, 부사, 용언, 연어로 구성된 4개의 품사를 긍/부정을 분류하여 총 8개의 테이블로 구성하였다. ‘세종전자사전’의 4개의 해당 품사의 기초 표제어 69,002개의 단어 중에서 극성 단어의 비중이 높다고 판단되는 단어와 신조어, 은어, 관용표현을 포함하여 8,441개를 추출하였다. 감성 정도에 따라 극성은 Positive는 (1∼3), Negative는 (-1∼-3)로 설정하였고, Table 1 은 감성사전의 구성요소이다.
Sentiment dictionary construction
PPT Slide
Lager Image
Sentiment dictionary construction
5. PAS 세부 설계
- 5.1 빅데이터 저장 관리 설계
본 논문에서 구현한 PAS의 Big Data Storage Management 단계는 Fig. 3 과 같다.
PPT Slide
Lager Image
Big Data storage management phases.
- (1) 트윗 데이터 수집
트윗 데이터를 수집하기 위해 Search API를 이용한 키워드 검색을 실시하였다. Search API는 검색키워드, 사용자, 장소, 일시 등의 검색조건을 이용하여 해당 조건에 해당하는 트윗을 반환한다. 응답 결과에는 트윗의 본문을 포함하여 작성자, 작성시간, 받는 사람, 작성언어, 리트윗 여부, 리트윗 횟수, 사용자의 위치정보 등이 포함되어 있어 다양한 방식의 분석에 활용할 수 있다.
- (2) 데이터 전처리(Data Preprocessing)
- 1) 트윗 데이터 전처리
수집된 트윗 데이터에서는 구어체를 포함하여 우리가 일상생활에서 사용하는 자연어 형태로 되어있다. 따라서 트윗의 텍스트 데이터를 감성분석에 사용하려면 형태소 분석이 필요하다.
본 논문에서는 ‘한나눔 한국어 형태소 분석기(KAIST Semantic Web Research Center 개발)’를 사용하여 자연어 처리의 첫 단계인 형태소 분석을 수행하였다.
- 2) 데이터 필터링(Data Filtering)
형태소 분석과 품사 태깅을 수행한 후 감성분석에서 필요 없는 형태의 단어들은 일정한 규칙을 이용하여 필터링한다. 감성분석에 따라서 필터링하는 방법들은 여러 가지가 제시되었다. 본 논문에서는 트위터에서 다른 사용자에게 메시지를 보내는 개념인 @ID, 일시, 이미지, URL 등은 감성분석에 있어 불필요하기 때문에 제거하였다.
트윗 데이터를 분석할 때 그 목적에 맞는 데이터 필터링은 크게 두 가지 장점을 갖는다. 첫째, 감성분석 판단에 불필요한 내용들을 제거함으로써 감성분석의 정확도를 높일 수 있다. 둘째, 분석 DB의 양도 줄여주고 분석 시간도 줄여줌으로써 효율성을 높일 수 있다.
- 5.2 빅데이터 감성분석 설계
Sentiment Analysis 단계는 트윗 데이터 중에서 감성분석을 위한 감성 요소를 추출하고, 추출된 감성 트윗 데이터의 감성을 판단하는 과정으로 Fig. 4 는 감성분석 단계를 보여주고 있다.
PPT Slide
Lager Image
Sentiment analysis.
- (1) 감성분석 알고리즘
감성분석을 위한 알고리즘으로 Fig. 5 와 같다.
PPT Slide
Lager Image
Sentiment analysis flow.
단계 1은 형태소 분석을 통해 태깅된 감성분석용 DB에서 감성 특징을 나타내는 특징을 추출하는 과정이다. 감성 특징을 가지는 태깅 요소는 형태소 분석을 통해 나타나는 품사에서 찾을 수 있다. 한국어 특성상 감성 요소는 주로 동사, 형용사, 부사, 감탄사에서 나타나므로 이에 해당하는 품사로 감성분석을 진행한다. 또한, 접속부사를 고려한다. 접속부사는 초기 감성을 반전시키는 요소를 가지고 있으므로 접속부사를 특징요소로 추출하여 감성의 반전을 위하여 사용한다.
단계 2는 추출된 동사, 형용사, 부사, 감탄사에서 감성 표현 요소의 유무를 판별한다. 감성 요소의 판별 여부에 따라서 감성 요소가 없으면 감성 특징 추출 단계로 분기한다.
단계 3은 감성 추출이 된 트윗에서 접속부사의 유무를 판별한다. 접속부사의 역할은 접속부사가 나오기까지의 감성 정보를 반전시키는 역할을 수행하므로 접속부사의 유무를 판별한다.
단계 4는 접속부사가 없을 경우 단어별 극성값을 고려하여 계산 후 감성분석 DB에 저장하고, 접속부사가 있을 경우 접속부사가 나오기까지 단어 극성값에 반전 요소를 가미한다. 예를 들면, 긍정단어 + 접속부사 출현 = 최종 부정으로 판정되므로 ‘접속부사가 나오기 전까지의 단어별 가중치 * (-1)’을 하여 단어별 가중치를 반전시킨 후 감성분석 DB에 저장한다.
- (2) 접속부사의 활용
한국어를 통사론적 관점에서 분석했을 때 문장과 문장 간의 관계는 매우 중요한 고려 대상이다. 또한 한국어는 유형론적 관점에서 교착어에 속하기 때문에 문법적 관계를 나타내는 요소들은 조사, 어미, 접속부사와 같은 허사이다. 따라서 문장의 감성을 판별하기 위해서는 이에 대한 고려가 반드시 수반되어야 한다 [6] .
접속부사는 일반적으로 단어나 구 또는 문장을 접속시켜 주는 역할을 하며, 선행하는 문장이나 문단을 요약하여 후행하는 문장에 연결시켜 주는 역할을 한다. 문장과 문장을 이어주는 역할을 하므로 문장의 구조를 파악하는데 굉장히 중요한 역할을 한다. 또한 접속부사는 이중주어 현상을 자주 수반하며 한국어의 특징에서 자주 나타나는 문장 구조의 가변성에 대해서도 크게 영향을 받지 않는다. 따라서 문서 내특정 접속부사들은 문장 내 역학 관계를 쉽게 정의할 수 있는 중요한 요소로 작용할 수 있으므로 이를 고려한 처리 과정이 반드시 필요하다.
Table 2 는 접속부사의 종류와 역할에 대해 설명한다. 접속부사의 경우 두 가지 이상의 감성 특징이 나타날 때 앞선 가정을 반전시키는 역할을 하므로 감성특징 중 문맥에 대해 고려할 때 가치 있는 감성 특징이라 할 수 있다 [7] .
The role of reverse conjunctions
PPT Slide
Lager Image
The role of reverse conjunctions
또한 접속부사는 앞선 문장의 감성 특징을 반드시 반전시킬 수 있으므로 감성분석에 있어 여러 가지 고려대상이 될 수 있다.
접속부사를 통한 문장의 대표 감성의 특징 선정은 다음과 같은 과정을 따른다. 키워드 검색을 통해 추출된 트윗에는 키워드가 반드시 포함되어 있다. 키워드를 기준으로 문장을 나눈 후 두 문장의 감성 특징들을 서로 비교하는 과정을 거친다. 그 후 두 문장의 감성 특징을 비교하였을 때 서로 상충되는 경우는 접속부사 뒤의 특징들을 문장의 대표 감성 특징으로 삼는다. 접속부사의 앞의 문장에서만 감성 특징이 검출되었을 경우는 감성 특징을 반전시켜서 점수를 조정하는 과정을 거친다. 만약 접속부사 앞의 문장에서 감성 특징이 검출되지 않는 경우는 접속부사의 특성상 뒤의 감성 특징이 중요하므로 뒤의 감성특징을 처리하면 된다. 또한 앞뒤 문장에서 모두 감성 특징이 검출되지 않는 경우는 감성사전 자체의 문제가 발생한 경우이므로 고려 대상에서 제외한다.
- (3) 감성 극성 판단 방법
본 논문에서는 감성 극성 판단 단계를 4단계로 세분화하였다.
단계 1은 감성사전 설계를 통해 감성 극성 판단의 기준을 제시한다. 감탄사, 부사, 연어, 용언에 감성의 긍/부정을 분류하여 감성 사전을 설계하였고, Weight값이라는 단어별 극성값을 포함하여 단어별 감성 강도를 구분하였다.
단계 2는 1차 분석으로 트윗 데이터가 감성 요소를 포함하고 있는지의 유무만 판별한다. 감성 요소의 유무는 감성 요소가 없는 트윗 제거가 주목적이므로 감성 판단의 근거가 되며 감성사전과 비교하여 감성유무를 판단한다.
단계 3은 2차 분석으로 1차 분석의 결과로 감성요소를 가지고 있는 트윗에 대해 접속부사를 추출하여 문맥의 상황을 분석한다. 키워드를 중심으로 앞뒤문맥을 고려하여 감성 극성 판단의 반전을 고려하였다.
단계 4는 3차 분석으로사전에 있는 극성값을 대입함으로써 문맥의 전체적인 극성을 판단한다. 극성의 Weight는Positive(1∼2), Negative(-1∼-2)로 구분하였다. 단, 신조어, 이모티콘, 관용어의 Weight는 (+3∼-3)까지의 극성을 부여하여 일반적인 감성과는 차별을 두었다. Table 3 은 극성값 (+3∼-3) 사이의 예이다.
Weight (+3~-3) example
PPT Slide
Lager Image
Weight (+3~-3) example
140자 이내의 단문 메시지인 트윗에서 추출한 감성 요소들은 해당 트윗의 극성을 판단하는 극성값을 가지고 있다. 트윗의 감성분석을 통해 얻은 극성값으로부터 계산된 값으로 추정하며 선택된 감성 요소들의 집합 I = {i 1 , i 2 , i 3 , ... i n }의 각 원소에 대한 트윗 T의 감성 추정값 SENTIMENT 는 식(1)과 같이 정의한다.
PPT Slide
Lager Image
추정된 트윗의 극성값인 SENTIMENT(T)는 각 감성 어휘들의 극성값을 합산하여 계산된다. 계산된 트윗의 최종 극성값으로 감성의 극성을 나누는 기준은 ‘0’으로 지정하여 0보다 크면 긍정의 극성, 0보다 작으면 부정의 극성을 가진다고 판단하였다.
- 5.3 선호도 분석 설계
- (1) 가중치 요소 선정
PAS의 마지막 단계인 Preference Analysis 단계에서는 감성분석 단계에서 감성 극성을 판단한 후 가중치 부여 방식에 따라 트윗에 대한 최종 선호도를 판정한다. Fig. 6 은 선호도 분석 과정을 보여주고 있다. 선호도 분석의 첫 단계는 감성분석과 연계하여 선호도 분석에 필요한 3가지의 요소가 있으며 3가지 요소는 TF(Term Frquency), RT(Retweet), FO(Follower)이다.
PPT Slide
Lager Image
Preference Analysis phases.
- 1) 감성 단어 TF(Term Frequency)
감성분석은 트윗 의견의 긍/부정 여부를 판별하는데 그 목적이 있다. 140자 이내의 텍스트에서 감성단어가 많이 나오지 않을 수도 있다. 이는 극성값이 부여된 단어의 빈도가 적게 나와도 감성을 판단하는 큰 판단기준이 된다. 극성값이 높은 ‘매우’, ‘대박’, ‘완전실망’의 단어처럼 긍정 빈도와 부정 빈도가 동시에 높아 긍/부정 판단에 도움이 되지 못하고 오히려 역효과를 가져올 수 있다. 감성 단어가 많이 나오는 것만으로도 그 사람의 감성을 파악할 수 있다는 전제조건으로 보완할 수 있다. 실험 데이터 트위터 데이터 1만 개 중에 감성사전에 포함된 감성 단어는 전체 5~10% 이하로 나타났다. 적은 수의 감성 단어들이 나오기 때문에 감성 단어 TF의 가중치는 감성분석결과 ‘긍정 점수 + ( - (부정 점수))’의 합이 14 이상이면 1.5의 가중치를, 14미만∼7이상이면 1.2의 가중치를, 나머지는 가중치가 없는 것으로 한다. 기준치 14와 7의 선정 이유는 트윗 하나당 최대 140글자 중 감성단어가 나올 평균 확률 10%와 5%의 글자 수로 산정하였다.
- 2) RT(Retweet) 수
리트윗(Retweet)이란 “다른 사람의 트윗 의견을 자신의 계정으로 그대로 복사해 오는 것이다. 팔로잉(Following)하는 사용자의 트윗에 공감한 내용이 있을 때 그것을 자신의 팔로워(Follower)에게 전달할 때 사용한다. 다시 말해, 사용자가 그 트윗을 읽고 다른 사람에게 추천해주는 것으로 대부분 내용에 대한 이해도가 높을 때 사용한다 [8] . 추천이란 주로 이성적인 정보도 있지만 감성적인 정보가 더 많이 담겨있기 때문에 리트윗에 대한 가중치 또한 고려하였다.
리트윗에 대한 가중치는 RT가 1,000회 이상이면 1.5의 가중치를, 1,000회 미만∼200회 이상이면 1.2의 가중치를, 나머지는 가중치가 없는 것으로 한다. 기준치 1.5, 1.2의 선정 이유는 누적 실험 결과 PAS와 주석자간의 판단 결과가 가장 근사치에 해당하는 것으로 판별되어 산정하였다.
- 3) 팔로워(Follower) 수
트위터 뿐만 아니라 다른 SNS에서 영향력을 행사하는 사람을 ‘인플루언서(Influencer)’라고 한다. 이 인플루언서는 타 SNS 사용자에게 적지 않은 영향을 미치고 있다. 마케팅 측면에서는 인플루언서 마케팅 영역이 한부분을 차지하고 있을 정도로 그 영향력을 높이 평가하고 있다.
사회적으로 관련성을 맺고 있는 군집 내에서는 분명히 인플루언서가 존재하고 이러한 인플루언서의 영향력은 사회 곳곳에 나타난다. 따라서 이들의 감성은 일반 트위터 입장에서 볼 때 의견의 대표성을 나타내기도 하고, 이에 많은 사람들의 감성을 대변하기 하기 때문에 팔로워에 대한 가중치를 부여한다. 팔로워에 대한 가중치는 팔로워가 100만 명 이상이면 2.0의 가중치를, 100만 명 미만∼10만 명 이상이면 1.5의 가중치를, 10만 명 미만∼1천 명 이상이면 1.2의 가중치를, 나머지는 가중치가 없는 것으로 한다. 기준치 2.0, 1.5, 1.2의 선정 이유는 누적 실험 결과 PAS와 주석자간의 인플루언서에 대한 영향력이 가장 잘 반영되는 것으로 확인하여 산정하였다.
6. PAS 분석 결과
Table 4 Fig. 7 은 ‘아이패드’ 키워드를 사용하여 트윗 1만 개를 선호도 분석한 PAS의 분석 결과이다. 감성분석 결과 긍/부정 트윗은 긍정 6,597개, 부정 3,403개로 분석되었다. 선호도 분석 결과 매우 긍정: 37.56%, 긍정 : 28.44%, 부정 : 27.42%, 매우 부정: 6.59%의 분석결과를 보였다.
PAS Analysis results
PPT Slide
Lager Image
PAS Analysis results
PPT Slide
Lager Image
Preference Analysis phases.
7. 결 론
주관적인 트윗 하나하나가 모여 일정한 패턴을 드러낸다는 것은 시대적 흐름을 반영하고 가치 있는 정보로서 탈바꿈하게 되어 미래를 예측하기 위한 수단으로 사용될 수 있을 것이다. 최근 대기업을 중심으로 소셜 미디어를 분석하여 경제적 목적으로 이용하고, 선거철이 되면 사용자들의 정치적 성향을 파악하는데 사용하는 등 주기적인 모니터링과 동향 예측등의 상용 서비스로 사용되고 있지만 끊임없이 신뢰도의 문제가 제기 되고 있다.
본 논문에서는 트위터를 중심으로 사용자들의 의견을 효율적으로 감성분석하고, 감성분석 결과에 여러 가지 선호도 가중치 요소를 추가하여 신뢰도를 높이는 방법 세 가지를 제시하였다.
첫째, 감성사전을 설계하여 감성 판단의 정확도와 재현율을 높이고자 하였다. 감성사전에는 연어(관용적 표현)를 추가하여 트윗에서 발생되고 있는 다양한 유희적 표현과 정제되지 않은 표현들을 감성사전에 그대로 등록시켜 사용자의 감성 판단에 비중을 두었다.
둘째, 감성 강도에 따른 감성 극성을 세분화하고 접속부사를 활용한 문맥을 고려하였다. 감성 강도에 따른 이분법적 감성분석에서 감성을 세밀하게 분류하고 극성값을 달리하여 감성 판단의 세분화에 좋은 성능을 나타내었다. 주어와 목적어의 어순이 자유로운 한국어의 특성에도 고정되어 있는 접속부사를 기준으로 키워드에 대하여 종속적일 수밖에 없는 오피니언마이닝의 특성과 감성 특징이 다른 주어와 매칭될 수 있는 약점을 고려하였다.
셋째, 선호도의 가중치 요소인 감성어 TF(Term frequency), RT(Retweet), Follower 수를 고려하여, 감성이 풍부한 트윗, 사용자들로부터 인정받은 트윗, 트위터 인플루언서에 대한 가중치를 부여하여 가중치를 통한 신뢰도를 향상하고자 하였다.
이 세 가지를 고려한 빅데이터 선호도 분석 시스템(PAS)은 주석자가 분류한 감성분석 결과에 많이 근접하는 결과가 예상되며 트윗의 의견을 판별하는 오피니언마이닝의 특성과 목적에 부합하고 선호도 분석 기법으로 살펴보았을 때 의미 있는 결과라 할 수 있다.
BIO
손 성 일
1999년 청주대학교 컴퓨터정보공학과 공학사
2001년 청주대학교 대학원 전자계산학과 공학석사
2014년 청주대학교 대학원 컴퓨터정보공학과 공학박사
현재 청주대학교 겸임교수
관심분야 : 빅데이터, 감성분석, 오피니언마이닝
박 찬 곤
1973년 인하대학교 전자공학과 공학사
1975년 인하대학교 대학원 전자공학과 공학석사
1989년 인하대학교 대학원 전자공학과 공학박사
현재 청주대학교 컴퓨터정보공학과 교수
관심분야: 빅데이터, 자연어처리, 인공지능, 멀티미디어
References
Yoon S.C. , Namgung H. , Yang S.K. , Kim H.K. 2013 "Big Data Driven Semantic Web Technology Trends large," The Korean Institute of Communications and Information Sciences 29 (11) 24 - 29
Lee C.H. , Her J. , Oh H.J. , Kim H.J. , Ryu B.M. , Kim H.K. 2012 "Technology Trends of Issue Detection and Predictive Analysis on Social," Korean Institute of Information Scientists and Engineers 30 (6) 47 - 58
Im S.J. , Min O.K. 2012 "Machine Learning Technology Trends for Big Data Processing," Electronics and Telecommunications Trends 2012 (4) 55 - 63
Kim Y.S. , Ph.D. Thesis of Kookmin University 2012 News Big Data Opinion MiningModel for Predicting KOSPI Movement Ph.D. Thesis of Kookmin University
Dave Kushal , Lawrence Steve , Pennock David M. “Mining the Peanut Gallery : Opinion Extraction and Semantic Classification of Product Reviews,” Proceedings of International Conference on World Wide Web 2003 519 - 523
Han J.H. 2013 "How Do We Define Korean Subject: a Typological Perspective, Focusing on Predicate Type-centered Definition of Korean Subject," The Association for Korean Linguistics 60 189 - 225
Han S.H. 2013 "Study on Use of Korean Conjunctive adverbs," Institute of Language and Information Studies, Yonsei University Language Facts and Perspectives 31 139 - 169
Seo T.W. , Park M.G. , Kim C.S. 2013 "Design and Implementation of the Extraction Mashup for Reported Disaster Information on SNSs," Journal of Korea Multimedia Society 16 (1) 1297 - 1304    DOI : 10.9717/kmms.2013.16.11.1297