Advanced
Propensity Analysis of Political Attitude of Twitter Users by Extracting Sentiment from Timeline
Propensity Analysis of Political Attitude of Twitter Users by Extracting Sentiment from Timeline
Journal of Korea Multimedia Society. 2014. Jan, 17(1): 43-51
Copyright © 2014, Korea Multimedia Society
  • Received : February 01, 2013
  • Accepted : November 15, 2013
  • Published : January 30, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
석중 김
준회원, 가톨릭대학교 컴퓨터공학과
병연 황
종신회원, 가톨릭대학교 컴퓨터정보공학부

Abstract
소셜 네트워크 서비스는 편리한 접근성과 뚜렷한 사용자 주관 점에서 사회 여러 분야에서 폭 넓고 유용하게 사용될 충분한 가능성을 가지고 있다. 그 중에서도 트위터는 사용자간의 네트워크 형성이 간단하고 개방적이며 실시간 전파력이 뛰어난 특징을 가지고 있다. 그러나 140글자로 제한된 글에서 의미 분석을 시도해야 한다는 점과 한글 자연어처리의 한계, 트위터 자체의 제약과 기술적 문제들로 실제 분석에는 많은 어려움이 따른다. 본 논문은 특정 계정이나 키워드에 의존하여 개별 트윗을 분석한 기존의 방법 대신 항구성을 띄는 인간의 정치적 성향을 분석에 적용할 경우 정확도 향상에 기여할 수 있음을 가정하고 2012년 4월 11일 제19대 국회의원선거 기간 동안 수집한 트윗 코퍼스에 적용한 실험을 통해 보였다. 실험 결과는 실제 선거 결과와 정확히 일치하였으며, 75.4%의 정확도와 34.8%의 재현율을 보인 개별 트윗 분석보다 사용자의 타임라인별 정치 성향 분석이 약 8%의 정확도와 5%의 재현율 향상을 가져옴을 보였다.
Keywords
1. 서 론
소셜 네트워크 서비스는 기존 블로그 등의 서비스와 달리 모바일 기반의 다양한 기술들이 활용되어 독특하고 유용한 응용을 만들어내며 전 세계 수억 명의 사용자를 보유한 대표적인 소셜 미디어로 자리잡고 있다. 특히 사용자 개개인이 정보를 생산하고 전파하며 소비하는 소셜 저널리즘의 특징은 생산자와 소비자간 양방향 소통을 가능하게 함으로서 일방적으로 정보를 전달하는 기존의 매스미디어와 달리 점차 그 영향력이 증대되고 있다. 이에 소셜 네트워크 서비스를 이용한 효과적인 분석에 대한 관심과 요구의 목소리가 높아지고 있다.
페이스북과 트위터는 전 세계 각각 9억 명과 6억 명의 사용자를 보유한 대표적인 소셜 네트워크 서비스이다. 이들은 PC 기반의 기존 서비스들과 달리 사용자가 보고 듣고 느낀 것들을 그 자리에서 바로 공유할 수 있는 모바일 기반의 접근성과 다양한 어플리케이션으로 응용될 수 있는 플랫폼 개방성을 갖추어 피처 폰(Feature Phone)에서 스마트 폰(Smart Phone)으로의 패러다임 전환과 맞물려 폭발적인 사용자의 증가를 이루었다. 그중에서도 트위터는 사용자간의 일방적인 네트워크 형성으로 인한 막강한 실시간 전파력으로 소셜 분석에 가장 적합한 환경을 갖추고 있다 [1] . 비록 140글자의 짧은 내용에서 의미 분석을 시도해야 한다는 점, 한글 자연어처리의 한계, 트위터 공개 API가 갖는 시간당 질의 개수나 결과 트윗 개수의 제한 등 여러 가지 제약과 기술적 문제로 실제 분석에는 많은 어려움이 따르지만 사용자가 의견을 표출하고 공론을 형성하기에 용이한 특징을 가지고 있다. 이에 최근에는 트위터를 통해 선거를 분석하고 예측하기 위한 연구가 활발하다.
이미 각 나라에서는 소셜 네트워크 서비스를 통하여 사회 문제 및 정치 전반에 대한 여론을 분석하려는 시도가 활발하게 이루어지고 있다. 2008년 버락 오바마 미국 대통령의 승리요인 중 하나로 소셜 네트워크 서비스가 제시된 이래로 사회연구기관들은 ‘아랍의 봄’, ‘영국 폭동’ 등의 굵직한 정치적 사안뿐만 아니라 일상에서 소셜 네트워크 서비스가 끼치는 영향력을 분석하고 그에 따른 예측 지표를 세우려는 노력이 부단하다.
이에 본 논문은 데이터가 풍부하고 결과가 명확하여 분석에 가장 적합한 도메인 중 하나인 선거를 통해 예측지표를 작성하는 과정 전반을 설계하고 실험하였다. 이를 위해 2012년 4월 11일 제19대 국회의원 선거 전 2주간 발생한 약 110만개 트윗(Tweet)으로 코퍼스를 구성하고 자연어 처리를 통해 형태소를 분석하여 도메인과 관련된 트윗을 선별하는 검색 키워드와 해당 트윗의 긍정 및 부정을 판별하는 극성 키워드로 분류하였다. 각각의 키워드는 검색 레이블과 극성 레이블을 부여한 후 극성을 분류하였다. 또한 개별 트윗 단위의 분석결과와 이들을 타임라인(Timeline)별로 클러스터링 한 사용자 단위 분석결과를 비교하였다. 이로써 인간의 정치적 성향의 항구성을 반영한 사용자 히스토리 분석이 개별 트윗 단위의 분석보다 우수함을 가정하고 실험을 통해 보였다.
본 논문 구성은 다음과 같다. 2장에서 본 연구와 관련된 지난 연구 성과들을 살펴보고 3장에서 시스템을 구성하는 각각의 요소들을 설명한다. 4장에서 실제 분석에서 고려하고 정의해야 할 사항들을 과정 순으로 소개하고 5장에서는 타임라인에 존재하는 각각의 트윗의 극성을 분류하고 사용자의 타임라인별 정치 성향을 도출한 뒤 시스템의 성능을 평가한다. 끝으로 6장에서 결론 및 향후 연구 방향에 대해서 기술한다.
2. 관련연구
최근 트위터를 이용하여 사회 문제 및 정치 전반에 대한 여론을 분석하려는 시도가 전 세계적으로 이루어지고 있다. 특히 데이터가 풍부하고 결과가 명확하여 분석에 적합한 도메인으로 여겨지는 선거는 소셜 네트워크 서비스를 이용한 연구에서 가장 활발한 분야 중 하나이다. 하지만 기존의 연구들은 대부분 140글자의 짧은 텍스트에서 오는 분석의 한계를 극복하지 못하고 특정 키워드의 언급 횟수와 같은 기본적인 수준의 텍스트 분석에 의존하곤 했다. 또한 리트윗을 통한 전파력, 해시태그의 군집성, 특정 계정의 팔로어(Follower) 수, 멘션(Mention) 수 등 트위터의 기능적 요소에만 의존하여 실세계와 인간의 특질이 반영된 소셜 네트워크 서비스의 장점을 효과적으로 이용하지 못했다 [2] . 즉, 언어학적 분석 모델 적용, 의미 분석 등 많은 과정이 생략되었을 뿐만 아니라, 도메인에 따른 인간의 대응 형태도 무시되었기 때문에 신뢰성에 의문이 제시되기도 하였다.
독일 뮌헨공과대학 연구진은 트위터를 이용하여 2009년 독일 연방 총선을 분석하였다 [3] . 이들은 각 정당의 실제 지지율이 트위터 분석을 통한 예측결과와 일치했음을 보였으며 공인된 6개의 조사기관과 유사한 평균 절대 오차 값을 통해 전통적인 분석방법에 버금가는 수준의 분석이 가능함을 증명했다. 보다 최근에는 네덜란드 흐로닝언대학 연구진의 2011년 네덜란드 상원 선거 분석이 있다 [4] . 이들은 각 정당이 트위터에서 언급되는 횟수에 해당 트윗에 포함된 긍정 및 부정 단어의 개수로 얻은 가중치를 적용하여 의석수를 분석하였고, 전문 조사기관의 예상결과 및 실제 선거결과와 유사한 결과를 보임으로서 사회적 여론의 분석대상으로서 소셜 네트워크 서비스의 유효성을 설명하였다.
그러나 곧 트위터가 만능지표가 아니라는 다양한 연구 결과들이 반례로서 제시되었다. Daniel Gayo-Avello 등은 2010년 미국 예비 선거 분석에 실패한 이유를 밝혀내는 과정에서 트위터를 사용한 선거 예측의 한계와 기존 연구 결과들의 문제점을 언급했다 [5] . 그는 트윗을 작성한 사용자의 영향력이 클수록 넓은 전파범위를 갖게 됨으로써 발생하는 오차와 분석과정의 불투명성, 짧은 역사의 트위터 분석 연구가 가져오는 신뢰도 등의 문제들이 존재한다고 주장했다. 이에 트위터 데이터를 이용한 선거 예측 시 해결해야 할 문제들을 균형 잡힌 관점에서 제시하기도 했다 [6] .
David M Amodio 등은 뇌파 측정을 통해 정치적으로 보수적인 사람과 진보적인 사람 뇌의 작동방식의 차이점을 연구하면서 인간의 정치적 성향이 신경인지적 구조에 의해서 결정됨을 밝혔다 [7] . 정치적 성향이 유전에 의해서 형성됨을 밝혀낸 John Alford등과, 20년에 걸친 관찰을 통해 인간의 성격이 형성되는 유아기에 보수 혹은 진보적 성향도 결정되며 일생 동안 잘 변하지 않는다는 정치적 성향의 항구성을 밝혀낸 Jack Block과 Jeanne H. Block이 이러한 주장을 뒷받침하고 있다 [8 - 9] . 이렇듯 분석 과정에서 정치참여에 대한 인간의 특징을 고려하지 못한 점도 기존 연구의 한계라고 할 수 있다.
3. 시스템 구성
트위터를 이용한 정치적 성향 분석 시스템은 그림 1 과 같이 데이터베이스와 트윗 수집기, 형태소 분석기, 극성 분류기로 구성된다.
PPT Slide
Lager Image
트위터 사용자의 정치적 성향 분석 시스템 구성
각 컴포넌트를 분석과정의 순서대로 살펴보면 다음과 같다.
  • ① 시스템은 데이터베이스의 계정 테이블에 미리 정의된 사용자의 계정 정보 중 ID를 검색 API의 조건으로 하여 타임라인에 존재하는 모든 트윗을 수집한다. 여기서 타임라인이란 사용자 본인이나 팔로이(Followee)의 글을 모아서 보여주는 목록을 말한다. 트위터에서 사용자간 네트워크는 특정 사용자를 팔로우(Follow)함으로써 형성되며, 팔로우 되는 사용자는 팔로이, 팔로우 하는 사용자는 팔로어가 된다.
  • ② 타임라인을 구성하는 모든 트윗의 텍스트는 형태소 분석을 거쳐 품사 단위로 분리된다.
  • ③ 모든 트윗은 데이터베이스의 검색 키워드 테이블에 정의된 키워드와 비교하여 분석 대상으로 판별되면 검색 레이블을 부여하고 만약 검색 키워드의 전·후 후보 키워드에 극성 키워드가 존재하면 극성 레이블을 부여한다.
  • ④ 하나의 트윗에 존재하는 모든 검색 레이블과 극성 레이블의 조합을 통해 최종 레이블을 구성한다. 각각의 트윗에는 최종 레이블에 따른 극성점수PolarityScore가 부여된다.
  • ⑤ 극성점수의 합산을 통해 계정의 성향점수AttitudeScore를 도출하고 해당 사용자의 성향을 데이터베이스에 반영한다.
- 3.1 형태소 분석기와 데이터베이스
정치적 성향 분석의 핵심은 트윗에서 정확한 검색 키워드를 발췌하고 올바른 의미 극성을 적용하는 것이다. 과거에는 문장의 의미 극성을 ‘긍정’ 또는 ‘부정’으로 결정하는 기존 연구들의 대부분은 ‘좋다’, ‘나쁘다’ 등과 같이 형용사 어휘 자체에 의미 극성을 부여하는 절대적 극성의 오피니언 어휘에 의존했다. 그러나 ‘무겁다’라는 표현이 사람에게 적용될 때와 음식이나 분위기에 적용될 때 긍정·부정의 의미가 다른 것과 같이 실제 트윗 코퍼스에서도 도메인이나 공기(共起)하는 명사어휘에 따라 문장의 오피니언 극성이 상이한 경우가 빈번하다 [10] . 이에 본 논문에서는 KAIST의 한나눔 형태소 분석기 [11] 를 통해 트윗 각각의 형태소를 분석하였다. 표 1 은 수집된 트윗에 태그를 부여한 형태소 분석의 예를 보인다.
트윗의 형태소 분석 및 태그 부여
PPT Slide
Lager Image
트윗의 형태소 분석 및 태그 부여
데이터베이스는 계정 테이블과 검색 키워드 테이블, 극성 키워드 테이블로 구성된다. 계정 테이블은 타임라인 분석을 위해 트윗을 취득할 사용자들의 정보로 구성되어 있다. 검색 키워드 테이블은 타임라인에서 도메인과 관련된 트윗을 선별하기 위한 검색 키워드들과 해당 키워드의 레이블로 구성되어 있으며, 극성 키워드 테이블은 검색 키워드의 극성을 판단할 수 있는 키워드들과 해당 키워드의 레이블로 구성되어 있다.
- 3.2 극성 분류기
형태소 분석을 거쳐 품사 단위로 분리된 모든 트윗은 데이터베이스의 검색 키워드 테이블에 정의된 키워드와의 비교를 통해 분석 대상 여부가 판별된다. 만약 검색 키워드 전·후에 위치한 후보 키워드에 극성 키워드가 존재하면 극성 분류를 시도한다.
분석에 고려할 트윗은 도메인과 연관된 검색 키워드를 포함하고 있는지 여부를 통해 선별한다. 제19대 국회의원선거와 연관된 트윗을 탐지하기 위해 일반적으로 정의할 수 있는 검색 키워드는 표 2 와 같다. 그러나 특정 시점에 정의한 키워드로서 현실세계의 현안에 따라 새롭게 등장하는 키워드를 적절히 반영하지 못하는 단점이 있다. 이를 해결하기 위해서는 표 2 의 검색 키워드가 존재하는 트윗에 함께 등장하는 연관 키워드들을 고려하여 검색 키워드를 확장할 필요가 있다.
일반적인 검색 키워드 집합
PPT Slide
Lager Image
일반적인 검색 키워드 집합
표 3 표 2 를 포함한 트윗에 나타나는 연관 키워드들을 발생 빈도순으로 나열한 결과의 일부로, 표 2 보다 현 시점의 이슈들을 더 잘 반영하고 있음을 알 수 있다. 확장된 검색 키워드 집합은 표 2 표 3 의 키워드 집합을 추가하여 확장한 100개의 검색 키워드로 구성되어 있으며 성향 분석을 수행할 때 참조될 수 있도록 데이터베이스의 검색 키워드 테이블에 존재한다. 검색 키워드의 레이블은 검색 키워드 각각의 보수나 진보와의 관련성에 따라 C ( Conservatism )와 P ( Progressivity )로 레이블을 구성하고 표 4 와 같이 분류하였다.
연관 키워드 집합
PPT Slide
Lager Image
연관 키워드 집합
검색 레이블 구성
PPT Slide
Lager Image
검색 레이블 구성
검색 키워드가 사용자 성향 판단의 주체가 되는 주어라면 극성 키워드는 주어를 설명하는 서술어와 같고, 그 중 극성을 갖는 품사는 대부분 상태성명사와 성상형용사이다. 다만 주의할 것은 모든 키워드가 의미 극성을 갖는 것은 아니며, 도메인에 따라 긍정과 부정의 의미가 뒤바뀔 수도 있다. 이에 본 논문에서는 극성을 분류할 수 없거나 도메인에 따라 극성이 바뀌는 키워드를 제외한 나머지 키워드에 P ( Positive )와 N ( Negative )로 레이블을 구성하였다. 트윗 코퍼스에서 상태성명사와 성상형용사로 분류된 키워드 1,438개 중 레이블이 구성된 키워드는 738개로 표 5 와 같다. 극성 키워드는 검색 키워드와 마찬가지로 데이터베이스의 극성 키워드 테이블에 존재한다.
극성 레이블 구성
PPT Slide
Lager Image
극성 레이블 구성
4. 성향 분석
사용자 타임라인은 twitter4j 라이브러리 [12] 의 검색 API를 통해 미리 수집된 15,000개 계정을 이용하여 취득하였다. 표 6 은 이들 계정의 ID를 검색 API의 검색 조건으로 하여 수집한 타임라인의 트윗 중 일부이다. 분석 대상은 2011년 10월 26일 재보궐 선거 이후부터 2012년 4월 11일까지 발생한 트윗으로, 작성 일자를 기준으로 총 840,565개의 트윗 중 434,348개의 트윗을 발췌하였다.
타임라인에서 취득한 트윗 구성
PPT Slide
Lager Image
타임라인에서 취득한 트윗 구성
정치와 관련된 트윗을 발췌하기 위해 표 2 표 3 에서 정의한 검색 키워드의 포함 여부를 검사하여 전체 434,348개 트윗에서 44,824개 트윗을 분리하였다. 극성 분류를 위해서는 이 트윗들의 검색 키워드를 수식하거나 서술하는 위치의 후보 키워드들이 극성 키워드인지를 가려내고 극성 레이블을 부여해야 한다. 후보 키워드는 한나눔 형태소 분석기의 분류 순서를 기준으로 검색 키워드 전·후에 나타난 2개의 키워드로 정의한다. 이는 한글에서 명사가 수식받는 경우 “멋진 자동차”처럼 형용사가 직접 수식할 수도 있지만 “멋진 클래식 자동차” 등과 같이 수식어와 피수식어 사이에 다른 용어가 삽입될 수 있기 때문이다. “자동차가 너무 좋다”처럼 서술어와 피서술어 사이의 용어 또한 같은 이유라 할 수 있다. 표 7 표 1 을 예로 선정된 후보 키워드를 보인다.
후보 키워드 선정
PPT Slide
Lager Image
후보 키워드 선정
다음으로 검색 키워드와 후보 키워드 각각에 대해 표 5 표 6 의 검색 및 극성 키워드 포함 여부를 검사하여 레이블을 부여한다. 표 8 표 7 의 후보 키워드를 데이터베이스의 극성 키워드 테이블에 조회한 결과로, 해당 레이블을 부여한 예다. 트윗의 극성 점수 PolarityScore ( ti )는 검색 레이블과 극성 레이블을 결합한 표 9 의 최종 레이블을 기준으로 계산된다.
극성 레이블 부여
PPT Slide
Lager Image
극성 레이블 부여
트윗의 최종 레이블
PPT Slide
Lager Image
트윗의 최종 레이블
전체 사용자 집합 U ={ u 1 , u 2 , ⋯, un }이고, 임의의 한 사용자 ui 의 타임라인에 존재하는 트윗의 집합 Tui ={ t 1 , t 2 , ⋯, tn }이라 할 때, 임의의 한 트윗 ti 의 극성 점수 PolarityScore ( ti )는 다음과 같이 정의한다.
PolarityScore ( ti ) = { CP ( ti )+ PN ( ti )} – { PP ( ti )+ CN ( ti )}
이 때, CP ( ti )와 PN ( ti ), PP ( ti )), CN ( ti )는 ti 에 존재하는 CP PN , PP , CN 의 개수를 의미하며, 임의의 한 트윗 ti 의 극성 점수 PolarityScore ( ti )>0이면 해당 트윗은 보수적 성향을, PolarityScore ( ti )<0이면 진보적 성향을, PolarityScore ( ti )=0이면 중립을 띄고 있다고 판단한다. 하지만 실제 극성 레이블을 도출할 때는 몇 가지 고려해야할 사항이 있는데 이는 다음과 같다. 첫째, 후보 키워드에 복수개의 극성 키워드가 존재하는 경우는 각 후보 키워드의 극성 레이블 중 더 많이 등장한 극성 레이블을 따른다. 따라서 표 8 의 경우는 후보 키워드 3과 4가 각각 극성 레이블 P 를 갖기 때문에 이 검색 키워드는 최종 레이블로 P 를 갖는다. 트윗에는 1개 검색 키워드만 존재하며, 최종 레이블이 CP 이므로 CP ( ti )=1이고, PolarityScore ( ti )=1이 된다. 둘째, 후보 키워드에 극성 키워드가 없을 경우는 PolarityScore ( ti )를 계산하는데 고려되지는 않지만, 정확도와 재현율을 통한 검증에 집계할 목적으로 검색 키워드에 따라 각각 CC PC 로 분류하였다.
실험에 이용한 사용자들의 정치적 성향은 트윗의 극성 점수를 타임라인별로 합산하여 AttitudeScore ( Tui )로 판단하였다. 앞에서 정의한 대로 임의의 한 사용자 ui 의 타임라인 Tui 에 존재하는 트윗 t n 개일 때 AttitudeScore ( Tui )는 다음과 같이 정의하였다.
  • AttitudeScore(Tui) =PolarityScore(ti)
5. 성능 평가
개별 트윗과 타임라인 분석의 성능은 식 (1)과 (2)의 정확도와 재현율로 평가하였다.
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 A는 각각 극성을 갖는 트윗 또는 성향을 갖는 계정의 수를 의미하고 B는 극성이 분류된 트윗 또는 성향이 분류된 계정의 수를 의미한다.
- 5.1 개별 트윗과 타임라인별 분석
개별 트윗 분석의 성능은 트윗 코퍼스에서 임의의 계정 150개의 트윗 5,673개를 극성 분류하고 실제 트윗과 대조하였다. 실험 결과는 표 10 과 같다. 타임라인별 성향 분석의 성능은 전체 계정 588개의 타임라인에 존재하는 트윗의 PolarityScore ( ti )를 합산한 AttitudeScore ( Tui )를 구하고 실제 트윗과 비교하였다. 이 때 한 계정에 존재하는 모든 트윗의 극성이 상쇄되고 남은 1개의 트윗이 특정 사용자를 보수와 진보성향으로 결정하는 것이 합리적이지 않기 때문에 -1≤ AttitudeScore ( Tui )≤1인 계정은 분류계정으로 취급하지 않도록 보정하였다. 실험 결과는 표 11 과 같다.
개별 트윗 분석의 정확도와 재현율
PPT Slide
Lager Image
개별 트윗 분석의 정확도와 재현율
타임라인 분석의 정확도와 재현율
PPT Slide
Lager Image
타임라인 분석의 정확도와 재현율
실험 결과, 개별 트윗 단위의 분석에 비해 계정 단위의 타임라인별 분석을 수행했을 때 정확도와 재현율에서 각각 8%와 5%의 향상 효과를 보였다. 성능 향상의 이유는 다음과 같이 유추할 수 있다. 개별 트윗 분석은 트윗 각각의 분석결과가 정확도에 그대로 반영되기 때문에 형태소 분석이나 극성 분류 등의 성능에 민감하게 반응한다. 반면 타임라인 분석은 사용자의 전체 트윗을 고려하기 때문에 몇몇의 트윗이 잘못 분류되어도 다수의 트윗이 특정 성향으로 수렴하고 있다면 결과에 미치는 영향이 작다. 따라서 타임라인 단위의 분석이 개별 트윗을 분석하는 것 보다 좋은 성능을 보인다.
- 5.2 성향 분석의 성능
타임라인별 정치 성향 분석의 성능을 알아보기 위해 2012년 4월 11일 제19대 국회의원선거기간동안 15,000개 사용자 계정을 통해 수집한 44,824개 트윗을 실험 결과, 극성이 분류된 트윗을 하나라도 포함하는 계정은 1,614개였으며 보수 성향으로 분류된 계정은 295개, 진보 성향으로 분류된 계정은 293개, 보수 성향과 진보 성향이 동등하게 나타나 상쇄된 계정은 1,026개였다. 그림 2 는 본 논문의 분석 결과와 중앙 선거 관리 위원회 홈페이지에서 확보한 제19대 국회의원선거 결과 자료 [13] 에서 각 진영의 지역구 국회의원 당선인 수와 비례대표 국회의원 당선 수를 비교한 결과이다. 여기서 보수당은 새누리당과 자유선진당, 진보당은 민주통합당과 통합진보당을 포함하며 전체 득표율 2%미만의 창조한국당, 국민생각당, 진보신당 등과 무소속은 배제했다. 그림 2 와 같이 타임라인 분석결과가 비례대표 선거 결과와 일치하는 양상을 나타내는 것은 본 논문이 사용자의 성향을 효과적으로 분석하고 있음을 보여준다.
PPT Slide
Lager Image
정치적 성향 분석 결과와 실제 선거 결과 비교
6. 결론 및 향후 연구계획
본 논문에서는 개별 트윗과 타임라인을 통해 트위터 사용자의 정치적 성향을 판단하고 분석하였다. 실험 결과, 개별 트윗 분석의 경우는 75.4%의 정확도와 34.8%의 재현율, 타임라인별 정치 성향 분석을 시도한 결과는 83.3%의 정확도와 39.3%의 재현율을 보이며 타임라인을 통한 사용자 단위의 분석이 개별 트윗 단위의 분석보다 정확도와 재현율에서 각각 8%와 5%의 향상 효과가 있음을 밝혔다. 이러한 결과를 뒷받침하기 위해 정치와 관련된 트윗을 작성한 사용자 계정 1,614개의 성향을 타임라인을 통해 분석한 결과 50.1%는 보수적, 49.9%는 진보적 성향을 띄고 있는 것으로 분류되어 실제 선거 결과와 일치했다.
향후에는 언어 분석 모델의 정밀도를 높여 제한된 텍스트에서 정확도와 재현율 향상에 기여할 수 있는 성능 측면의 연구와 사용자 계정이나 트윗에 나타나는 위치정보를 이용하여 지역별 정치 성향 분석을 가능하게 하는 기능 측면의 연구가 필요하다.
BIO
김 석 중
2011년 가톨릭대학교 컴퓨터공학과 학사
2013년 가톨릭대학교 컴퓨터공학과 석사
2013년~현재 NAVER I&S
관심분야 : 소셜 네트워크 분석, 데이터마이닝, 오피니언마이닝, 데이터베이스, 정보검색
황 병 연
1986년 서울대학교 컴퓨터공학과 학사
1989년 한국과학기술원 전산학과 석사
1994년 한국과학기술원 전산학과 박사
1994년~현재 가톨릭대학교 컴퓨터정보공학부 교수
1999년 University of Minnesota Visiting Scholar
2007년 California State University, Sacramento Visiting Scholar
관심분야 : 소셜 네트워크 분석, XML 데이터베이스, 데이터마이닝, 정보검색, 지리정보시스템
References
윤 진영 , 김 석중 , 이 범석 , 황 병연 2013 멀티미디어학회논문지 16 (6) 667 - 677
Chung Jessica Elan , Mustafaraj Eni 2011 “Can Collective Sentiment Expressed on Twitter Predict Political Elections?” Proc. of the Twenty-Fifth AAAI Conf. on Artificial Intelligence 1770 - 1771
Tumasjan Andranik , Sprenger Timm O. , Sandner Philipp G. , Welpe Isabell M. 2010 “Predicting Election with Tiwtter: What 140 Characters Reveal about Political Sentiment” Proc. the Fourth Int’l AAAI Conf. on Weblogs and Social Media 178 - 185
Tjong Erick , Kim Sang , Bos Johan 2012 “Predicting the 2011 Dutch Senate Election Results with Twitter” Proc. the EACL Workshop on Semantic Analysis in Social Networks 53 - 60
Gayo-Avello Daniel , Metaxas Panagiotis T. , Mustafaraj Eni 2011 “Limits of Electional Predictions Using Twitter” Proc. the Fifth Int’l AAAI Conf. on Weblogs and Social Media 490 - 493
2012 ‘I Wanted to Predict Elections with Twitter and all I got was this Lousy Paper’ - A Balanced Survey on Election Prediction using Twitter Data http://arxiv.org/abs/1204.6441v1
Amodio David M , Jost John T , Master Sarah L , Yee Cindy M 2007 “Neurocognitive Correlates of Liberalism and Conservatism” Nature Neuroscience 10 (10) 1246 - 1247    DOI : 10.1038/nn1979
Alford John R. , Funk Carolyn L. , Hibbing John R. 2005 “Are Political Orientations Genetically Trasmitted?” American Political Science Review 99 (2) 153 - 167    DOI : 10.1017/S0003055405051579
Block Jack , Block Jeanne H. 2006 “Nursery School Personality and Political Orientation Two Decades Later” J. of Research in Personality 40 (5) 734 - 749    DOI : 10.1016/j.jrp.2005.09.005
안 애림 , 한 용진 , 박 세영 , 남 지순 2012 정보과학회논문지 18 (2) 158 - 162
2012 http://kldp.net/projects/hannanum/forum/316173
2013 Twitter4J http://twitter4j.org
중앙선거관리위원회 2012 http://www.nec.go.kr