한국조사기자협회(회장 유영식)와 한국언론진흥재단(이사장 김병호)은 어제(21일) 프레스센터 12층 중강의실에서 ‘빅카인즈(BIG KINDS)-Pro’ 언론사 정보전문가 교육을 협회 소속 조사기자 20여 명을 대상으로 진행했다.

 

 

       

<교육에 참석한 한국조사기자협회 회원들>

 

오전에는 언론재단의 뉴스빅데이터팀 김수지 연구원이 지난 4월 공식 출범한 빅카인즈의 전문가 분석서비스인 ‘빅카인즈-Pro’의 분석 및 시각화 도구를 시연 및 설명을 하였다. 또한 기사 기획안 예제를 토대로 다양한 분석데이터 추출, 시각화 기능에 대해 심도있는 교육이 진행되었다. 역대 국회 개원 당시 국회의장 발언 인용문 분석, 뉴스 검색을 통한 언론의 관심분야 추이 분석, 반기문 UN사무총장의 인물네트워크 분석, 텍사노미 기반과 구문패턴 검색을 통한 분석데이터 추출 등 전문가 수준의 교육이 이뤄졌다.

 

 

 

<김수지 언론재단 뉴스빅데이터팀 연구원>

 

오후에는 배여운 서울정보디자인연구소 기획팀장이 오전 교육에서 빅카인즈에서 추출한 뉴스 분석데이터를 다양한 형태로 시각화하는 교육을 진행했다. 배 팀장은 데이터 시각화를 위한 데이터와 정보의 이해, 뉴스 분석데이터를 정제·활용하기 위한 ‘R’ 프로그램 시각화 기능, 인포그래픽 툴 사이트 ‘인포그램(infogr.am) 등을 시연하고 실제로 교육 참석자들이 직접 실습을 하는 시간을 가졌다. 또한 조사기자들이 빅카인즈가 아니더라도 각 언론사의 DB를 목적에 맞게 데이터를 보관하는 습관도 중요하다고 강조했다.

 

 

 

<배여운 서울정보디자인연구소 기획팀장>

 

 

교육을 마치며 언론재단 조영현 뉴스빅데이터팀장은 앞으로 조사기자들이 언론사 정보전문가로서 ‘빅카인즈-Pro’의 분석과 활용을 적극적으로 해주길 바라며, 이와 관련된 교육이 필요하다면 적극 지원을 하겠다고 했다. 협회 또한 빅카인즈 고도화 작업에 전문사용가의 의견이 반영되고, 조사기자들이 언론사내 빅카인즈 활용을 확산시키는데 적극 협력할 것을 약속했다.

 

 

 

<조영현 언론재단 뉴스빅데이터팀장>

 

 

 

끝으로 협회는 교육 참가자를 중심으로 향후 빅카인즈를 비롯한 데이터저널리즘 확산과 연구를 위한 (가칭)데이터저널리즘 연구회를 협회 산하 공식모임으로 발족시키면서 김두호 부회장을 대표로 추대하였다. <>

(취재/사진=한국조사기자협회 취재팀 press@josa.or.kr)

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

한국조사기자협회와 한국언론진흥재단 공동으로 데이터저널리즘의 한 축으로 급부상한 전문가 분석도구인 ‘BIG KINDS-Pro’(빅카인즈-Pro)를 활용한 데이터 분석을 주제별/사례별 실습을 통해 분석데이터를 추출하고, 뉴스분석 데이터를 활용한 시각화 방법까지 체계적으로 교육하고자 합니다.

 

이 교육을 통해 조사기자가 언론사내 정보전문가로서 빅카인즈를 자유자재로 분석하는 능력을 키워, 취재기자가 요구하는 뉴스분석 데이터를 정확히 추출하고,

조사기자가 역으로 뉴스분석 데이터를 편집국/보도국에 데이터 기사로 활용토록 제공할 수 있기를 기대하고 있습니다.

 

끝으로 교육수료후 참석자를 중심으로 연구모임으로 (가칭)빅데이터 저널리즘 연구회를 발족할 예정이니, 많은 관심과 교육 참석을 요청드립니다.

자세한 교육 신청과 교육과정은 아래 첨부파일을 확인하시면 됩니다.

 

[공문] 뉴스빅데이터 빅카인즈-PRO 언론사 전문가 교육 요청.docx

[공문] 뉴스빅데이터 빅카인즈-PRO 언론사 전문가 교육 요청.pdf

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

빅데이터 시대 조사기자의 역할 : 경향신문 유기정 DB팀장

 

 

지난 19일부터 20일까지 전주 르윈호텔에서 제50회 한국조사기자협회 정기세미나가 ‘뉴스 빅데이터 활용과 에버그린 콘텐츠 전망’을 주제로 열렸다. 문화일보 박현수 조사팀장이 ‘뉴스 빅데이터 빅 카인즈(BIG KINDS) 활용과 전망’, 경향신문 유기정 DB관리팀장이 ‘빅데이터 시대 조사기자의 역할’에 대해서 주제발표를 했다. 최근 자연스레 화두가 된 ‘뉴스 빅데이터’, ‘데이터 저널리즘’과 ‘DB에디터’ 등 조사기자의 역할론에 대해 심도있는 토론도 함께 진행되었다.
SK브로드밴드 장정익 VoD사업팀장이 ‘New Content Marketing : 방송사 아카이브 활용 전략’, 제머나이소프트 정상호 부장이 ‘디지털 아카이브를 위한 콘텐츠 관리’를 발표했다. VoD 서비스가 점차 성장하고 있는 방송환경 속에서 아카이브를 활용한 에버그린 콘텐츠 제작과 유통 전략을 콘텐츠 소비자 입장에서 데이터로 정밀 분석한 결과를 발표하여 참석자의 관심을 끌었다. 본 협회는 제50차 정기세미나 발표 내용을 4편으로 요약해 소개한다.<편집자 주>

 

 

 

<경향신문 유기정 DB팀장>

 

 

요즘 데이터저널리즘과 DB저널리즘이 혼용이 되고 있다. 데이터저널리즘은 데이터의 수집, 정리, 분석, 시각화후 스토리화 등의 과정을 통한 탐사보도의 시각화 저널리즘이다. DB저널리즘은 구조화된 데이터베이스를 활용한 심층 취재 보도를 하는 일종의 큐레이션을 의미한다. 중요한 건 데이터를 가지고 의미있는 정보와 이를 통해 심층 보도를 한다는 점이 같다는 것이다.

 

웹 창시자 팀 버너스 리가 ‘Data-driven Journalism is the Future (=저널리즘의 미래가 데이터 저널리즘이다)‘라고 언급한 후 데이터저널리즘에 더 관심을 두고 있다.


이미 세계 유력 언론사들은 독자 충성도를 높이기 위해 관련 투자를 확대하고 있다. 뉴욕타임스는 데이터 기반으로 장엄한 영상과 서사 구조를 제시한 스노폴(snowfall)로 조사기자를 포함해 퓰리처상을 받은바 있다.

 

“조사기자는 DB저널리즘에 입각한 DB에디터의 역할을 해야“
“조사기자가 바라보는 데이터저널리즘은 사실에 바탕을 둔 새로운 주장, 팩트(fact)다”

 

 

큐레이션, 큐레이터, 정보 큐레이터 혼재된 명칭이 존재하는데, ‘DB에디터’를 지향하고자 제안한다. DB에디터는 연대별 큐레이션, 이슈별 큐레이션, 독자에 맞는 스토리텔링을 하는 것이다. 기존의 조사파트에서 데이터를 수집하고 분석하는 역할의 확장이 요구되며 명칭과 인력의 변화가 요구되고 있다. 

 

조사기자가 바라보는 데이터저널리즘은 ‘사실에 바탕을 둔 새로운 주장, 팩트(fact)’여야 한다. 곧 뉴스는 팩트에서 시작하고, 팩트는 곧 데이터인 것이다. 국내 언론은 사실의 전달보다 주장이 더 많은 비중을 차지하고 있는데, 외국의 주요 신문보다 주장이 많고, “전망 된다”, “예측 된다”, “어떻게 해야 한다”류가 많다. 이러한 언론의 보도방식은 사실상 데이터저널리즘이 국내에서 적합한 분야인지 그런 문제를 보완할 수 있는 분석방법이 있는지 고민해 봐야한다.

 

뉴스 큐레이션은 필요한 뉴스만 골라 모아서 제공하는 개별화된 뉴스라고 정의한다. 한겨레, 허핑턴포스트, 카카오토픽, 피키캐스트 등은 이용자의 선호도에 따라 맞춤형으로 콘텐츠를 제공하고 있다. 전반적인 트렌드가 시각화되고 뉴스를 짧고 간결하게 제공하는 맞춤형이 많아진 것이 특징이다.

 

조사파트에 속한 조사기자는 더 부지런해져야 할 것이다. 변화하는 두려움에 안주하려는 부분이 떨쳐내야 한다. 그렇지 않다면 2000년 “네이버 치면 다나와”란 틀에서 벗어날 수 없을 것이다.


큐레이션의 불편한 진실 … ‘뉴스인가 vs 복제인가’

조선닷컴의 주간큐레이션, 국민일보도 큐레이션 페이지를 제공하고, 경향신문 또한 ‘향이네’ 큐레이션 페이지가 있다. 과거 신문을 이용한 DB의 영역에서 큐레이션을 하고 있으며, DB를 가지고 이러한 온라인 플랫폼에 맞게 서비스 하고 있다.
인터넷매체 중에 여러 신문 내용을 큐레이션하는 뉴스서비스 매체가 있다. 기존 미디어나 창작자들의 정보를 대가없이 활용해 수익을 얻는 형태는 저작권 침해 책임에서 자유로울 수 없다. 바쁜 현대인들에게 원 매체의 대체가 될 수 있기 때문이다.

 

<경향신문 큐레이션 ‘향이네‘, 자료집 중>

 

 

“조사기자가 보는 뉴스큐레이션은 DB구축의 강화이자 활용”

 

조사기자가 보는 뉴스큐레이션은 DB구축의 강화이자 활용이다. 한국일보 사설 큐레이션 블로그, 경향신문 아카이브 블로그에서 단계적으로 서비스의 향상을 구현하고자 한다. 각각의 콘텐츠를 유형별로 추출하고 시각적으로 구성하려면 DB의 구조가 세분되어야 한다. 특정 주제의 관련 콘텐츠를 총망라하여 큐레이션을 구성하면 어떨까. 

 

데이터저널리즘은 어렵고 멀게 느껴지는 게 사실이다. DB파트에서 먼저 이러한 동기 부여가 되어야 할 것이다. 온라인에서는 큐레이션이 더 중요해질 것이며, 국내 언론사에 DB에디터가 생겨나고, DB에서 의미있는 새로운 뉴스서비스를 제공할 수 있는 사람은 언론사내 조사기자가 해야 할 몫이다. 그러한 DB저널리즘에 대한 노동의 대가에 대한 보상이 분명 있어야 할 것이다.

 

<경향신문 큐레이션 블로그, 자료집 중>

 

 

최근 한국일보 지면의 ‘역대 미스코리아’ 뉴스분석에도 자료조사의 바이라인을 게재한바 있지만, 언론사내 조사기자라면 지속가능하게 그 일을 담당해 나가는 것이 중요하다. 시작보다 더 중요한 것이 ‘지속가능’이다. DB에디터로서 지속적으로 새로운 뉴스서비스를 갖춰 놓는다면 새롭게 요구되는 영역으로 역할을 확장할 수 있을 것이다. <끝>


 

(정리/편집=한국조사기자협회 취재팀 press@josa.or.kr)

 

 

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

지난주 아침 협회 단톡방에 한 장의 사진이 ‘신문 배달’ 같이 올라왔다. 다름 아닌 한국일보 기획면 ‘데이터로 읽는 미스코리아’의 데이터 조사·분석 역할을 담당했던 박서영 회원을 자랑하기 위해 최종욱 DB컨텐츠부장이 흥분을  감추지 못하고 신문지면 캡쳐 이미지를 서둘러 올렸던 것이다.


 

<박서영 회원이 자료조사 바이라인으로 참여한 한국일보 view& 미스코리아 특집기사>

 

관련기사보기

 

아침부터 단톡방에선 한국일보에 대한 격려와 지지, 최국장의 리더십에 탄복을, 후속타를 기대한다 등 훈훈한 분위기가 연출되었다. 신문을 펼쳐놓고 읽어보면 알겠지만 ‘데이터로 읽는 미스코리아’의 기사는 박서영 회원의 자료제공이 밑바탕이 되었다는 것을 한눈에 알 수 있다. 이런 일을 접하는 협회의 역할은 우리 협회원들의 활약을 널리널리 퍼트리는 것이다. 그러기 위해 곧바로 전화 취재에 나섰다.

 

=어떻게 기획기사에 참여하게 되었나.
회사가 미스코리아 60주년을 맞이해 기획 기사를 아이템을 준비하던 중, 사업팀에서 보유하고 있는 본선진출자 신청서를 토대로 데이터 분석을 하면 좋겠다는 의견을 냈다. 편집국은 긍정적으로 데이터분석 협업을 요청을 했고, 2주에 걸친 자료분석을 정리해 넘겼다.

 

=어떤 것을 분석했나.
대회 첫해 1957년부터 2015년까지 본선진출 미스코리아의 체형(키, 몸무게), 장래희망, 좋아하는 음식과 영화, 출신학교, 학과, 취미, 특기 등을 전체, 역대 진(眞)별, 10년 구간별로 빈도수와 평균을 분석 정리하였다.

 

=데이터 분석은 어떻게 했나
사전 회의를 통해 데이터 분석 항목을 미리 선정했다. 본선진출자 신청서를 보고 데이터를 엑셀 시트에 입력했다. 입력된 미가공 데이터(raw data)를 평균분석과 R통계분석 프로그램을 통한 빈도수 측정으로 분석을 할 수 있었다.

 

=앞으로 편집국과의 협업이 계속될 것 같은가. 협업을 위한 조건이 있겠는가.
도움을 주고 싶은데 대상이 없으면 DB컨텐츠부는 편집국에 큰 의미가 없겠죠. 기획이나 취재에 필요한 정보를 제공하는 일을 하려면 그 상대와 원활한 커뮤니케이션이 필요하다. 편집국과 원할한 소통창구가 마련되어야하고 그것이 자연스러워야겠죠.

 

=끝으로 한국일보는 ‘조사기자’를 당당히 밝히고 일을 한다. 조사기자로서 앞으로 포부가 있다면.
조사기자라는 신문을 만드는 기자들에게 필요한 자료를 조사하거나 데이터를 분석해 신문제작에 필요한 기초를 탄탄하게해주는 일이라 생각한다. 우선 기본은 편집국과 원활한 소통이며  그 기초를 튼튼히 하기 위해 많이 고민과 노력을 하고 싶다.

 

<한국일보 DB컨텐츠부 한켠 최신 발행신문 보관함>

 

한국일보 회원들의 노력이 지면으로 결실을 맺기까지 밤낮으로 고생을 했을 모습이 상상된다. 이러한 노력은 인터뷰에서 늘 강조했듯 편집국과 원활한 소통을 하는 것, 신문 제작에 도움이 될 만한 부분을 미리 파악하는 것이 선행되어야 할 점이다.

 

전화 인터뷰를 끝내고, 며칠 전 “영화 스포트라이트를 협회가 단체관람하면 좋겠다”는 연배 있는 선배의 제안이 떠올랐다. 그 영화 주요장면에 2000년대 미국 신문사내 조사부와 조사기자가 일하는 모습이 나온다고 했다. 곧장 집에서 영화클립을 다운로드 받아 PC앞에서 보았다. 올해 아카데미 작품상을 수상한 이 영화는 보스턴 글로브 내 ‘스포트라이트’팀의 가톨릭 보스턴교구 사제들의 아동 성추행 사건을 취재하는 내용이다. 일반인은 성역이었던 가톨릭교회를 고발했다는 사회정의에 박수를 보냈겠지만, 영화속 15분간 나오는 조사부와 조사기자의 좁거나 너른 역할과 과거, 현재, 미래를 나름 가늠해 볼 수 있었다.

 

가장 협소해 보였던 역할은 기자가 요청하는 자료 리스트를 받아 관련 자료를 검색하고 출력하거나 복사해서 한꺼번에 북트럭에 담아 전달하는 것이었다. ‘소극적’인 영역이며, ‘익숙한’ 영역이다.

 

<장면1 . ‘스포트라이트’팀 맷 캐롤 기자가 조사부 자료실로 자료 리스트를 들고 와 관련 자료 수집을 요청하고 있다. 출처: 영화캡쳐>

 

 

<장면2 . 자료담당 직원이 신문 스크랩함에서 관련 기사를 손으로 직접 찾고 있다. 기사DB가 없던 시절에는 신문사의 조사기자는 ‘칼’과 ‘자’로 스크랩을 해왔었다. 일종의 아날로그식 주제별 클러스터링인 것이다. 출처: 영화캡쳐>

 

 

<장면3 . 기자의 의뢰로 관련 자료를 기사 주제별 스크랩함에서 수집하는 과정. 출처: 영화캡쳐>

 

<장면4 . 마이크로필름으로 보관된 신문지면 속 관련 기사를 찾는 모습. 요즘 PDF로 저장이 전부라고 할지 모르지만 마이크로필름으로 보관의 장점은 아직도 유효하다. 출처: 영화캡쳐>

 

<장면5. 자료실에서 찾은 방대한 관련 자료를 북트럭에 모아 한꺼번에 전달하는 모습. 출처: 영화캡쳐>

 

다음에 설명할 장면은 조사기자로선 변곡점이다. 보스턴교구 내 성추행·성폭행으로 문제가 된 사제를 찾아내는 결정적 단서를 조사기자와 함께 찾아가는 과정이다. 인터넷으로 전혀 공개되지 않는 데이터를 문헌자료실 내 보관된 ‘교구청 발행 연감’을 통해 찾는 모습이다.
인터넷으로 공개된 데이터는 전체 데이터의 일부에 불과하다. 나머지는 ‘눈에 보이지 않는’ 인비저블(invisible) 데이터로 출판물이나 전문DB를 통해 찾아야 한다. 언론사내 정보전문가인 조사기자가 이 분야에선 최고로서 전문가 역할을 해야 한다.

 

<장면6. 이 장면은 보스턴교구 내 문제의 사제를 찾아내는 결정적 단서로 활용된 교구청 발행 연감을 문헌자료실에서 조사기자가 찾아 주는 모습이다. 출처: 영화캡쳐>

 

<장면7. 문헌자료실 한 구석에서 연도별 연감을 넘겨보고 흥분을 감추지 않는 ‘스포트라이트’팀 기자들. 출처: 영화캡쳐>

 

<장면8. “Sick Leave”라는 단서를 교구청 발행 연감을 통해 확인하는 과정. 이와 유사한 단어도 영화 속에선 기자들이 찾아낸다. 결국 인비저블(invisible) 자료에서 관련 데이터를 수집하는 전쟁이 시작된다. 출처: 영화캡쳐>

 

영화속에서 중요하게 봤던 건 결국 뉴스룸 내 기자와 조사기자간의 커뮤니케이션, 협업을 통해서 그 단서를 찾을 수 있었다는 점이다. 기자들이 파트너로서, 가이드로서 조사기자와 리서치를 협업할 수 있는 부분이 무엇인지 미리 파악해야 한다. 그래서 소통이 중요하다.

 

마지막 영화 속 장면은 ‘스포트라이트’팀이 연감을 통해 찾아낸 문제가 된 사제들을 찾아서 엑셀 시트에 하나씩 입력해 나가는 모습이다. 이는 심층적 탐사보도 기법인 CAR(Computer-Assisted Reporting)를 활용하는 데이터 작업이다. 단언컨대 뉴스룸내 기자와 조사기자의 협업의 정점은 데이터저널리즘일 것이다. 단순히 북트럭에 한꺼번에 싣어 요청된 정보를 제공하는 것이 아니라, 정보를 분석해서 새로운 가치를 담은 데이터를 뉴스룸에 전달하거나, 직접 데이터를 분석한 결과를 기사로 작성하는 영역까지 이 영화가 보여준 15년 전의 모습에서 15년이 지난 현재의 모습으로 자리매김 되어야 하는게 아닐까.

 

 

<장면9. 엑셀 시트에 문제가 된 사제들을 데이터로 입력하는 과정. 이때는 CAR기법에 엑셀을 가장 많이 활용했다. 출처: 영화캡쳐>

 

<장면 . 연감속 내용을 엑셀로 입력하고 있는 맷 캐롤 기자 모습. 출처: 영화캡쳐>

 

위 장면의 맷 캐롤 기자는 조사기자로 활약을 했을 것으로 예상된다. 과거 15여 년 전에 보여지는 조사기자의 역할은 데이터의 수집과 가공 작업의 전문가였다. 현재 데이터저널리즘으로 이어지는 탐사보도에서 ‘의미있는 사실’을 찾아내는 중요하는 역할을 담당하길 기대하고 있다.

 

끝으로 우리 협회는 오래전부터 정보전문가로서 언론사 조사기자는 정보를 분석하고 의미 있는 결과를 추출해 편집국·보도국에 제공해야 한다고 주장해 왔다. 굳이 뉴스룸내 기자들의 정식 요청이 없다고 수동적 입장이 아니라, 뉴스룸내 최고의 정보전문가인 우리가 새로운 뉴스콘텐츠 제작 과정에 참여할 일은 없는지, 편집국·보도국 기자와 우리가 협업할 것은 없는지 적극적으로 조직과 소통해야 한다. ‘사일로(silo)’란 단어가 있다. 회사 안에 성이나 담을 쌓고 외부와 소통하지 않는 부서를 일컫는다. 언제부터 우리 조사기자들이 스스로 그러하지 않았는지 자문해 보자.

 

(취재/정리=한국조사기자협회 취재팀 press@josa.or.kr)

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

'신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사' 발간
언론진흥재단, 빅데이터 통한 분석 웹진 ‘NAI’ 발간

 

150만 건 기사의 뉴스 빅데이터로 본 신문의 역사


지난 26년간 언론에서 가장 논쟁적인 정보원은 누구였을까? 어떤 해에 어떤 주제가 쟁점이 됐을까? 어떤 주장이 나왔고, 어떻게 반박됐을까? 이제 이러한 궁금증을 상당 부분 자동으로 풀 수 있게 됐다. 기계학습, 자연어처리, 의미연결망 분석 등 다양한 뉴스 빅데이터 분석 방법을 적용한 시스템 '빅 카인즈'를 통해서다.

 

한국언론진흥재단(이사장 김병호) 미디어연구센터 연구팀은 18일 다양한 사회적 의제에 대한 뉴스를 빅데이터 분석을 이용해 대규모로 살펴보는 뉴스 빅데이터 분석 전문보고서 'News Big Data Analytics & Insights'(뉴스 빅데이터 애널리틱스 앤 인사이트, NAI)를 창간했다. 분석을 위한 기초 데이터는 재단의 뉴스 빅데이터 시스템인 '빅 카인즈'를 통해 얻었다.

 

◆ NAI 창간호, 26년치 150만 건 기사 뉴스 빅데이터 분석

 

창간호에서는 1990년부터 2015년까지 26년간 8개 중앙지 및 그 자매지의 정치면, 사회면, 경제면에 보도된 기사 약 150만 건의 기사의 정보원과 인용문 주제를 분석했다. 국내 뉴스 빅데이터 분석 규모로는 최대다. 분석 매체는 경향신문, 국민일보, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레신문, 한국일보 등 '빅 카인즈'에서 서비스 예정인 주요 전국일간지 8개로, 디지털화된 종이신문 기사는 물론 이들 신문이 언론사 닷컴에 게재한 인터넷신문, 잡지 등의 기사를 모두 분석했다.

 

데이터 시각화 전문기업 <비주얼다이브>(www.visualdive.com, 대표 은종진)와 함께 뉴스 빅데이터를 효과적으로 보여주기 위한 사이트(http://goo.gl/I7PZdp)도 만들었다. 사이트는 핑거프레스, 차트 다이브 솔루션을 이용해 구현됐다. 사이트에선 경제지 4개와 문화면을 더해 310만여 건의 기사의 정보원연결망과 기관연결망, 주제연결망을 연도별, 매체별, 지면별로 선택해 볼 수 있다.

 

 

그림1 <신문 26년> 시각화 사이트 초기화면

 

◆ 정치면 중요도 1위 정보원, 야당 대변인에서 대통령으로… 주제는 ‘미국’ 등 주변국 중시

 

가장 중요한 정보원을 분석한 결과 정치면은 야당 대변인의 시대에서 대통령의 시대로, 사회면은 정치인의 시대에서 교육부의 시대로 넘어갔다. 이러한 변화는 대체로 1999년부터 2000년대 초 사이에 이뤄졌으며 매체 간 차이는 거의 없었다.

 

<그림 2>는 기사 공동인용 정보원 수 기준으로 변인과 대통령의 중요도가 가장 높았던 1995년 세계일보의 박지원 대변인 중심의 정보원연결망과 2003년 서울신문의 노무현 대통령 중심의 정보원연결망을 비교한 것이다. 1995년은 새정치국민회의가 창당한 해, 2003년은 노무현 대통령이 취임한 해다. 박지원은 162명과, 노무현은 271명과 공동인용됐다.

 

사회면은 2000년 전후로 중요 정보원이 바뀌었다. 2000년 이전엔 국회의원 등 정치인의 비중이 높았다. 특히 검찰 출입 기자가 정치인에 대한 각종 수사를 취재하고 이에 대해 정치인들의 멘트를 받아 실는 경우가 많았다.
경제면의 경우 대부분의 시기에 재정과 금융 관료조직이 중시됐다. 다만 2000년대 초중반엔 주식이나 부동산 투자 등 재태크 관련 애널리스트나 컨설턴트가 부각됐다.

 

 

 

그림2 정치면의 뉴스 정보원연결망 비교

 

◆ 경제면 주제는 ‘중소기업’과 ‘미국’에서 ‘소비자’와 ‘중국’으로

 

인용문 주제 분석으로 살펴보면 우선 정치는 ‘미국’ 등 주변국을 중요한 주
제로 다뤘다. 또 1990년대엔 ‘민자당’ 등 보수정당이 가장 논쟁적인 화두로 던져졌다. 언뜻 앞서 야당 대변인이 중시된 정보원 분석 결과와 모순된다고 생각할 수 있지만, 이는 야당 대변인 역시 보수정당에 대한 비판을 주로 가했기 때문이다.

 

경제면의 주요 주제는 특히1998년 외환위기와 2008년 금융위기를 계기로 급변했다. 과거엔 ‘미국’과 ‘중소기업’이 주된 화두였지만, 금융위기 이후 ‘중국’과 ‘소비자’가 논쟁의 중심으로 부상한 것이다. 시기적으로 보면, 1990년대엔 ‘중소기업’, 외환위기 이후 3년간은 ‘구조조정’, 이후 ‘미국’ 주제가 중심이 됐고, 금융위기 후 ‘중국’과 ‘소비자’가 부각됐다. ‘소비자’가 중시된 건 홍보성 기사가 많아졌기 때문이다.

 

사회면은 다른 경우와 달리 매체간 차이가 눈에 띄었다. 한겨레사신문은 ‘노동자’를, 서울신문은 ‘공무원’을 특별히 중시했다. 가장 논쟁적인 주제는 2015년 ‘메르스’였다. 이밖에 ‘수사’ ‘피고인’ ‘피해자’ 등 경찰이나 검찰 관련 주제가 많았다. ‘서울’, ‘교육부’, ‘서울대’ 등 서울시나 교육 담당 출입기자가 다뤘을 만한 주제도 중시됐다.

 

◆ 기사 대폭 늘었지만 기사당 정보원과 주제는 감소

 

결측이나 미분류 기사가 있긴 하지만 추세만 보면, 26년간 기사가 매체별로 많게는 18배 가량 급증했다. 이는 전체적으론 종이신문의 지면 수도 늘어났으며, 인터넷 신문 등 자매매체도 많아졌기 때문이다. 이와 함께 정보원 수와 주제 수 또한 매체에 따라선 많게는 약 11배가 늘었다. 즉 인터넷 등장으로 절대적인 다양성은 더 커졌다. 그러나 기사당 정보원 수와 주제 수는 감소했다. 기사는 많이 쓰지만, 그만큼 정보원이나 주제를 발굴하진 못한 셈이다.

 

 

그림3 기사당 정보원 수

 

◆ 오늘 뉴스 빅데이터 시스템 <빅 카인즈> 공개


NAI는 PDF 파일 형식의 웹진 형태로 배포되며 격월로 연 6회 발간될 예정이다. 연도별, 매체별, 지면별 뉴스 정보원 연결망 등을 시각화한 사이트도 함께 공개될 계획이다. NAI는 창간호 <신문 26년>을 비롯해, <인공지능 26년>, <황사 26년>, <한류 26년>, <SNS의 역사> 등을 다룰 예정이다 .
자료는 한국언론진흥재단의 뉴스 빅데이터 분석 시스템인 <빅 카인즈(Big KINDS, big.kinds.or.kr)>를 활용하여 수집한다. 한국언론진흥재단은 오늘 오후 2시 서울 광화문 프레스센터 20층 국제회의장에서 출범행사를 열고  <빅 카인즈>를 언론 및 학계와 정부, 기업 등 관계자에 정식으로 공개했다.


(=한국조사기자협회 취재팀 press@josa.or.kr)

 

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

한국조사기자협회 취재팀에서는 한국언론진흥재단(이사장 김병호) 미디어연구센터 연구팀과 데이터 시각화 전문기업 비주얼다이브 (대표 은종진)이 함께 제작한 뉴스 빅데이터 전문웹진 전량을 그림파일로 게재하니, 협회원 뿐만 아니라, 미디어업계 관계자나 연구자들이 활용하길 바랍니다.

(=한국조사기자협회 취재팀 press@josa.or.kr)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

 

 

 

한국언론진흥재단이 올해 ‘디지털저널리즘 아카데미’ 시작으로 '데이터 저널리즘(기초)' 과정을 개설한다. 데이터 분석 보도 과정을 전반적으로 이해하도록 보도 사례 분석과 단계별 데이터 수집→분석→정제→시각화 실습으로 구성되었다고 한다.
한국언론진흥재단은 데이터 활용 보도의 기초지식을 배우는 과정에 관심 있는 기자들이 참가하기를 희망하고 있으며, 교육기간은 오는 4월 21일부터 22일, 27일, 28일 총 4일간에 걸쳐 진행되며, 기초과정후 6월 중순 개강될 심화과정 전 단계이다.
정원은 15명 이내 선착순 마감이며, 언론사별 최대 3명 이내이다.
신청기간은 오는 4월 18일까지, 재단 교육센터 홈페이지(http://www.journalismschool.kr)에 접속, 온라인 수강신청을 하면 된다.


문의 : 언론인연수팀 황미연(02-2001-7874, myh@kpf.or.kr)

                          이지윤(02-2001-7877, zyoon@kpf.or.kr)

 

(=한국조사기자협회 취재팀 press@josa.or.kr)

 

 

 

 

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

※ 이글은 한국조사기자협회가 연간지로 발행하는 2014년 '조사연구' 제26호에 실린 글임을 알립니다.

 

빅데이터와 도서관

(송민 연세대학교 문헌정보학과 교수)


목차

 

1. 빅데이터, 무엇인가?
1.1 빅데이터 개괄 및 정의
1.2 빅데이터 분석의 목적과 필요성
1.3 빅데이터 애널리틱스
2. 빅데이터의 기술 및 활용
2.1 빅데이터의 기술
2.2 빅데이터 활용 사례
3. 도서관에서의 빅데이터 활용
3.1 해외 도서관의 정보화 정책 현황
3.2 도서관의 빅데이터 활용
3.3 국회도서관의 빅데이터 활용
4. 연구성과
5. 참고문헌

 


1. 빅데이터, 무엇인가?

1.1 빅데이터 개괄 및 정의

그림. 빅데이터 개괄- 데이터의 증가 현상

 

McKinsey(2011)에 따르면 매달 300억개의 콘텐츠가 페이스북에서 공유되고, 전 세계에서 데이터가 매년 40%씩 증가하고 있다[1]. 또한 이전 정보가 책이나 문서형태로 존재했다면 지금은 정보의 디지털화로 인해 정보가 기하급수적으로 많아지는 Zeta-Byte 시대(표 1 참조)로 도래했다. 한 예로 2009년의 경우 world wide web의 전체 데이터 양이 500Exabytes로 측정됐다. 이는 Zettabyte의 절반 수준이지만 2012년 전 세계 데이터 양이 2.7Zettabytes로 측정됐다. 이는 2011년 보다 48% 증가한 수준으로 데이터의 양이 기하급수적으로 급증하고 있음을 보여준다. 또한 정보 양의 증가에 따라 정보 용량이 확대가 됐다. 인터넷 상에 존재하는 5ZB의 정보 용량은 2.5경(25×1015)에 해당한다. 이런 방대한 정보의 양에서 인터넷을 통해 원하는 내용을 검색하려면 2.5경의 경우의 수를 가진 검색엔진 필요하게 됐다.
문헌정보학 측면에서 볼 때 역시 빅데이터 시대에 영향을 받고 있다. 이에 따른 사례는 다음과 같다. 최근 미 의회 도서관 자료를 디지털화하면서 생산된 데이터양이 12000 PB이 됐다. 위키피디아 영문 텍스트 용량은 7.8GB로 압축을 풀면 34.8GB이고, 즉 이를 문서단위로 처리할 경우 300만개가 존재한다. 이처럼 대용량의 데이터가 생산되는 빅데이터의 시대로 진입했다.

 

표1. 데이터 단위 및 용량

 

일반적으로 빅데이터는 기존 DB 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서 대량의 혹은 다양한 유형의 실시간 데이터 집합을 말한다. 스마트 단말기 및 소셜미디어 등의 다양한 정보채널 등장으로 생산 및 유통되는 정보의 양이 기하급수적으로 증가하면서 빅데이터가 등장했다. 빅데이터의 분석은 시간, 공간, 그 외 조건들의 변화에 따른 빅데이터 분포와 데이터 간의 상호 관계를 다양한 관점으로 조망함으로서 의미있는 패턴을 발견하고 세상을 이해해 가는 분석 과정을 말한다. 빅데이터가 기존의 일반 데이터 처리와 다른 점은 데이터 처리(processing)의 복잡도가 높으며 처리해야 할 데이터양이 방대하고 비정형 데이터의 비중이 높다는 것이다. 또한 데이터의 처리 및 분석의 유연성이 높으며 동시에 처리해야 하는 데이터의 양이 적다는 것을 언급할 수 있다. 이는 즉 데이터의 동시 처리량이 적다보니 실시간 처리가 보장되어야 하는 기존 데이터 분석에는 이에 대한 부적합한 면이 존재한다.
그림2. 빅데이터의 특징 3V + 1v


빅데이터의 정의는 위와 같지만 빅데이터를 규정하는데 있어 빅데이터의 특징은 다음의 <그림 2>와 같이 “3v +1v”로 정의 내려질 수 있다. 이 네 가지의 특징의 수준을 만족할 때 빅데이터라고 정의되어 질 수 있다. (1) Volume은 규모라는 뜻으로 데이터가 빅데이터라고 언급할 수 있으려면 데이터의 크기가 커야 한다. 데이터 규모를 구분 짓기는 어렵지만 대략 테라바이트 이상이 될 때 빅데이터라고 말할 수 있다[2]. (2) ‘Velocity’는 속도라는 뜻으로 데이터가 실시간으로 움직이는 속도가 빠르고 실시간 정보를 획득할 수 있는 속도가 빠를 때 빅데이터라고 특징지을 수 있다[2]. (3) ‘Variety’는 다양성이란 뜻으로 단순히 빅데이터는 규모만 커서는 빅데이터가 될 수 없다. 이런 이유로 빅데이터는 방대한 데이터 속에서 분석해야 할 데이터의 형태가 다양해야 한다. 예를 들어 빅데이터의 경우 기존의 정형화된 데이터가 아닌 분석을 다양하게 할 수 있는 비정형데이터를 의미한다.
그러나 최근 1V가 등장하게 되었는데 이는 Value를 뜻한다. 단순히 빅데이터가 대량의 혹은 다양한 유형의 실시간 데이터 집합을 뜻하는 것이 아니라 그 데이터는 분석에 있어 가치가 있어야 하고 또한 분석을 통해 새로운 정보 혹은 유의미한 정보를 만들어 낼 수 있는 조건을 갖춰야하기 때문에 데이터가 가치(value)가 있을 때 빅데이터라고 특징지을 수 있다.

 

1.2 빅데이터 분석의 목적과 필요성

 

빅데이터의 일반적인 목적은 방대한 데이터 속에서 다양한 가치에 대한 인식을 제고하며 효율적인 빅데이터 분석을 통해 공공정책의 재발굴, 정책 결정 및 추진전략의 방향성 수립 등에 올바르게 적용할 수 있다는 것이다.
빅데이터의 분석이 필요한 이유는 공공 부문에서의 빅데이터 분석과 활용에 대한 수요가 크게 증가하면서 국가 안전 및 위험관리, 치안, 의료, 교육, 복지, 환경 등 사회 전반에 걸쳐 빅데이터의 활용 가능성이 높아지고 실제 수요가 크게 증가하기 때문이다. 그러나 빅데이터는 그 분석과 활용의 범위가 넓고 이해가 어려우며 데이터 처리에 비용의 문제가 존재하기 때문에, 실제 적용을 위해서는 다양한 분야에 대한 전문적인 지식을 필요로 하며 효율적인 데이터 분석이 요구된다.

 

1.3 빅데이터 애널리틱스(Big Data Analytics)

 

빅데이터의 시대가 오면서 방대한 양의 데이터를 다양한 방식으로 데이터를 수집할 수 있게 됐다. 그러나 그 많은 데이터에서 어떻게 의미 있는 분석을 할 것인지가 중요한 문제로 제기되고 있다. 이에 따라 빅데이터 분석을 통해 데이터에서 의미를 찾아 지식이나 지혜로 발전시킬 수 있는 애널리틱스의 역할이 증대되기 시작했다[2].

 

그림3. 과거 데이터 분석 방법

 

빅데이터의 분석은 과거 데이터 분석 방법과 차이가 있다. 과거 데이터의 분석 방법은 데이터를 수집한 후에 수집한 시점으로부터 이전의 과거 트렌드를 분석하고 앞으로의 현상을 유추하는 방식이었다. 과거의 데이터 분석 방법은 데이터 취합에 필요한 양이 부족하다는 단점이 존재했고, 데이터가 생성된 시점과 데이터를 취합해 분석할 때 시점의 시차가 존재하기에 실시간 파악이 불가능했다. 즉 과거에 어떤 일이 있었는지에 대해서만 판별할 수 있었다.

 

그림4. 빅데이터 분석 방법

 

그러나 현재 빅데이터의 분석 방법은 과거의 데이터 분석방법과 현저한 차이를 보인다. 빅데이터 분석의 경우 목적을 설정하고 목적에 필요한 데이터를 파악하고 바로 그 데이터의 수집과 분석이 동시에 가능하다. 즉 과거와는 다르게 데이터 취합 시점의 시차가 존재하지 않는다. 그렇기 때문에 결과적으로 빅데이터 분석은 어떤 목적을 추구하느냐에 따라 데이터의 수집 대상이 달라지며 그와 함께 데이터의 가치도 결정할 수 있다.

 

2. 빅데이터의 기술 및 활용

 

2.1 빅데이터의 기술

 

2.1.1 빅데이터 처리의 핵심 요소[3],[4]

 

빅데이터를 언급하기 위해서는 두 가지 핵심적인 개념이 필요하다. 바로 맵리듀스(MapReduce)와 하둡(Hadoop)이다.

 

가. MapReduce

 

‘MapReduce’는 구글 검색시스템 구현을 위해 개발된 것으로, 하둡을 통해 활성화된 대규모 데이터 처리를 위한 분산처리 프로그래밍 모델을 말한다. 맵 리듀스는 맵(Map)과 리듀스(Reduce)를 결합한 것으로, 하나의 큰 데이터를 여러 조각으로 나누어 처리하는 단계(Map)와 처리 결과를 모아 하나로 합쳐 결과를 내는 단계(Reduce)로 나뉜다.

 

그림5. MapReduce 과정


나. 병렬 DBMS vs MapReduce

 

병렬 DBMS는 대량의 데이터를 저장하기 위해 수평 확장 접근 방식을 취하고 있다. 맵 리듀스의 경우도 병렬 구조를 띄고 있으나, 두 시스템 사이의 차이는 다음과 같다.
병렬 DBMS는 선언형(Declarative) 프로그래밍 모델을 지원하며, Parallelism을 높여서 성능을 향상시키는 것에 설계의 초점을 맞추었다. 병렬 DBMS는 대용량 데이터에 대한 효율적인 질의 수행에 유리하며, 기능성이 매우 높다는 것이 장점이다. 하지만 특정 클러스터 내에 특정 노드에 작업이 집중되거나 몰리는 경우, 전체적인 성능이 떨어지는 현상이 발생한다. 병렬 DBMS의 경우, 기능 고장(fault)이 자주 일어나는 환경에 부적합하다.
맵 리듀스는 명령형 프로그래밍 모델을 지원한다. 맵 리듀스의 설계 목표는 확장성과 비용 효율성이다. 데이터의 양이 항상 커지기 때문에 반드시 확장성을 고려해야 한다. 그러므로 가격이 저렴하지만, 언제든 고장 날 수 있기 때문에 대비책이 필요하다. 그래서 맵리듀스 구조에서는 고장 방지(Fault-tolerance)를 고려한다. 더 자세한 두 시스템 사이의 차이점은 아래의 (표 2)와 같이 정리해볼 수 있다.

 

표2. 병렬 DBMS와 MapReduce 차이


다. Hadoop

 

하둡은 오픈 소스로 제공되는 플랫폼이다. 하둡은 빅데이터 처리를 위한 분산 환경을 가장 완벽하게 갖추고 있어서 사람들에게 많은 관심을 받고 있고, 특히 데이터 처리를 위한 분산 환경을 플랫폼 자체로 제공하여 다양한 장점을 가진다.

 

(1) Hadoop의 발전[3],[4]


그림6. Hadoop의 발전

 

하둡은 2002년 웹 검색엔진인 너치 프로젝트(Apache Nutch)로부터 시작됐다. 2004년 ACM Queue에서 발표한 너치(Nutch: Open Source Search)를 시작으로 지금의 하둡이 나올 수 있게 됐다. 그러나 너치는 10억 페이지 규모의 색인 이상의 확장을 관리하기에는 구조적인 한계가 있었다. 이를 보완하기 위해 구글은 구글 분산 파일 시스템 위에서 동작시켜 대용량 데이터를 간단하게 처리할 수 있는 맵리듀스를 2004년 발표했고, 너치 프로젝트에 맵리듀스도 포함됐다. 2008년의 경우 야후에서는 10,000개의 하둡 코어를 이용해 야후 서비스의 색인 제품들이 생성되고 있다고 발표했다. 계속적으로 빠르게 증가하는 대량의 데이터(빅데이터)를 처리하기 위해, 그리고 더욱 더 많은 정보를 생성하는 웹 콘텐츠를 인덱싱하기 위해 하둡은 발전하고 있다.

 

(2) Hadoop의 사용[3],[4]

 

하둡은 비즈니스에 효율적으로 적용할 수 있도록 다양한 서브 프로젝트가 제공된다. 또한 하둡은 대형 검색 서비스를 위해 설계됐다. 그에 따라 기업의 예로 이베이의 경우, 경매 서비스를 위해 새 검색 엔진을 구축하는데 하둡을 사용했다. 페이스북은 실제로 데이터 중 일부를 하둡에 저장한다. 그리고 아마존의 경우에는 저장소인 S3를 활용한 대용량 하둡 클러스터 시스템에서 데이터들을 분석해 고객들에게 제공해오고 있다. 클라우드 스페이스는 웹 기술 컨설팅 회사로 이 회사 역시 고객과 내부 프로젝트를 위해 아파치 하둡을 사용한다. UNC 린버거 통합 암센터에서도 하둡 기술을 이용하는데, 이 센터에서 데이터를 처리하고 결과와 클러스터를 하둡과 HBase를 사용하여 관리하기도 한다.

 

(3) Hadoop ? Log Processing[3]

 

분산 시스템은 다수의 컴퓨팅 및 스토리지 자원을 네트워크로 연결해 하나의 시스템처럼 사용할 수 있는 기술이다. 분산 시스템은 대용량의 데이터를 저장 및 관리할 수 있을 뿐 아니라, 방대한 양의 복잡한 계산 처리를 빠르게 수행할 수 있다.
전통적인 분산파일 처리방식은 사람이 수천 대의 서버를 네트워크로 묶어 마치 하나의 서버가 보유하고 있는 파일 시스템처럼 여긴다. 예를 들어 두 대의 컴퓨터가 있다고 했을 때, 기존의 분산파일 처리방식은 데이터를 두 개로 쪼개서 처리를 각각으로 업무를 시켜서 두 개의 결과물이 나오게 되고, 결과물로 나온 두 개의 업무를 합치는 처리 방식을 말한다. 간단히 그림으로 표현하자면, 아래 <그림 7>과 같다.

 

그림7. 전통적인 분산파일 처리방식


 반면 맵리듀스 처리방식은 기존의 처리방식에서 사람이 직접 업무를 나누어 처리했다면, 그 업무를 메인 컴퓨터 한 대에서 모두 처리해 주는 방식을 말한다. 즉, 메인 역할의 컴퓨터가 알아서 일을 나누고, 나중에 결과물을 합치게 된다. 이 모든 처리 과정을 맵리듀스 시스템이 알아서 처리해 기존의 분산 처리 방식보다 신속하게 일을 처리할 수 있다.

그림 8 맵리듀스 처리방식


(4) 빅데이터 분석을 위한 기술/기법/도구[3],[4]

 

첫째로 데이터를 수집하는 과정에서 두 가지 기법을 사용한다. 크롤링(crawling)은 검색엔진 로봇(crawler)을 이용해 데이터를 수집, ETL(extraction, transform, load)을 진행한다. 소스데이터를 추출하고, 이동, 변환, 적재의 과정을 수행한다. 둘째로 저장과 관리를 위해서는 클라우드 컴퓨팅(cloud computing), NoSQL Database, 하둡, HDFS, Hbase, Casandra를 사용한다. 셋째로 처리의 단계에서 맵리듀스(MapReduce) 기법을 사용한다. 맵리듀스는 간단히 말하자면, 대규모 데이터 셋의 분산 병렬 처리 소프트웨어 프레임워크를 말한다. 네 번째 단계인 분석 단계에서는 NLP(Natural Language Processing), 기계학습(Machine Learning), 데이터 마이닝(data mining), 오피니언 마이닝(opinion mining), Mahout, R/Rhive 기법을 사용한다.

 

2.2 빅데이터 활용 사례

 

가. 엔시스트리

 

앤시스트리(Ancestry.com)는 가족력을 조사하고 가계도를 만들기 위한 서비스이다. 표면적으로는 단순해 보이지만 이 서비스를 위해 역사 기록, 출생 기록, 사망 기록, 전쟁 및 이민 기록, 심지어 연감에 이르기까지 110억 개 이상의 기록과 4페타바이트(PB)의 콘텐츠를 유지한다. 게다가 이런 기록은 손으로 쓰여 진 경우도 많다. 첨단 콘텐츠 처리 기술을 사용하여 색인을 분류하고 검색 가능하도록 정리되어 있으며, 연계 고리를 찾는데 도움을 주기 위해 DNA 처리 기능을 추가해 약간의 타액만 있으면 고객의 DNA를 추출해 데이터베이스에 포함된 먼 친척과 같은 사람들을 찾아줄 수 있는 시스템이다.

 

그림9. 엔시스트리 웹 사이트


나. SNS 분석 실제 적용 사례

 

(1) Earthquake shakes Twitter users: real-time event detection by social sensors

 

트위터(Twitter)의 내용을 기반으로 한 지진 및 태풍 예보 시스템을 구축했다. 실제 지진과 태풍을 감지한 데이터와 트위터 데이터를 기반으로 시스템을 구축했으며, JMA(Japan Meteorological Agency)보다 더 빠른 예보 능력이 보고됐다.

 

그림10. 트위터 이용자들을 기반으로 한 지진 및 태풍 예보 시스템


(2) 기업커뮤니케이션 현장에서 바라본 빅데이터와 소셜 분석

 

채선당 사건, 뉴욕의 Cosmetic 브랜드 키엘의 사례 등을 통해 기업 커뮤니케이션 현장에서 소셜네트워크가 굉장한 힘을 가지고 있다는 것을 알 수 있었다. 끊임없이 쏟아져 나오는 빅데이터와 이를 분석하는 것이 기업이 위기관리, 마케팅 분야에서 SNS를 유용하게 활용할 수 있는 방안을 제시할 수 있을 것이다.

 

그림11. 기업에서 바라본 빅데이터와 소셜 분석

 

다. 공공 부문의 잠재적 빅데이터 활용

 

빅데이터 분석은 의제 발굴과 추진 전략 기획을 담당하는 공공기관, 그리고 민간의 비즈니스 전략 수립에도 도움을 줄 수 있을 것으로 예상된다. 특히 최근 공공 부문에서의 빅데이터 분석과 활용에 대한 수요가 크게 증가하고 있는 추세이다. 국가 안전 및 위험관리, 치안, 의료, 교육, 복지, 환경 등 사회 전반에 걸쳐 빅데이터의 활용 가능성이 높아지고 실제 수요도 크게 증가하고 있다. 예로 국민권익위원회 민원분석보고서 사례를 언급할 수 있다. 국민권익위원회 민원분석보고서 분석은 이민자 사회통합정책에 대한 민원 현황을 통해 신규 정책 수립 및 제도적인 개선에 대한 지원의 필요성을 느껴 시작했다. 분석은 2011년 국민 신문고에 접수된 민원을 대상으로 했다. 민원 현황 및 추이분석, 연령·지역 등 유형화 분석과 주요 사례 분석, 시사점 및 정책제언을 제시하는 방향으로 분석을 실시했다. 분석 결과를 바탕으로 볼 때 이민자 사회통합프로그램에 대한 정책을 제언할 시, 더욱 구체적이고, 필요에 맞는 정책을 제언할 수 있을 것이라 본다.

 

3. 도서관에서의 빅데이터 활용

 

빅데이터 시대가 도래함에 따라 모빌리티, 빅데이터, 클라우드, 소셜 컴퓨팅과 같은 IT 기술 환경이 변화했다. 또한 새로운 서비스 개발, 맞춤형 정보제공, E-book과 같은 지식정보의 활용 가능성이 증가하고 있으며, 스마트폰의 활용 역시 증가하고 있다. 그러나 형태성 여부, 내용에 따른 전달 구분, 콘텐츠 부재 및 품질에 대한 문제와 같은 콘텐츠로 인한 한계가 존재한다. 더불어 시스템의 플랫폼 종속성 문제, 검색에 의한 문제, 검색 질의 표현의 한계, 메타데이터 및 콘텐츠 구조화의 부족과 같은 시스템 및 검색의 한계가 나타나고 있어 도서관 서비스의 기술과 환경에 변화가 필요하다고 언급할 수 있다. 또한 기술로 인한 전통적인 정보형식의 변화와 디지털화로 인한 정보접근 및 이용 모습의 변화, 새로운 정보처리에 대한 도서관, 도서관 서비스, 사서의 변화를 통해 도서관 정보화 환경의 변화가 필요하다.

 

3.1 해외 도서관의 빅데이터 활용 현황

 

가. 영국 국립도서관 2011~2015 전략[5]

 

영국 국립도서관은 경제, 사회, 이익, 문화생활을 위한 글로벌 정보 네트워크에서 선도적 허브가 되며, 전문 지식과 협력을 통해 지식을 선도하는 기관이다[6]. 영국 국립도서관은 디지털 자료의 저장과 보존을 위해 디지털 도서관의 기반시설을 활용하며, 인쇄물의 지속적인 관리를 하고 있다. 또한 새로운 콘텐츠 전략에 맞추어 콘텐츠의 수집과 연결을 위한 협력적 체계 마련함으로써 미래 세대를 위해 접근을 보장하고 있다. 더 나아가 영국 국립 도서관은 모바일 기기를 통한 콘텐츠와 서비스 지원을 통해 연구를 하려는 모든 사람들의 접근을 가능하게 한다. 그 뿐만 아니라 사회 및 경제적 이익을 위해 핵심 영역에 있는 연구 집단을 지원하기 위해 소규모 사업을 지속적으로 지원하기 위해 비즈니스, 지적재산권센터의 미래 재정을 확고히 하고 있다.


그림12. 영국 국립도서관


나. 미국 21세기 공공도서관의 전략적 비전[7],[8]

 

미국 21세기 공공도서관의 전략적 비전에 따르면 미국의 도서관들은 디지털 시대의 새로운 매체와 기술로 인해 근본적인 역할의 존폐를 놓고 이런 변화를 이용하는 기관들과 경쟁해야 하며, 도서관을 지원하는 기관들이 직면한 재정적 상황과 이용자들의 성향 및 요구의 변화에 대응해야 한다고 했다.
미국 공공도서관의 미래에 대한 네 가지 비전은 다음과 같다. 도서관이 보유하고 있는 물리적 매체 장서에 신중하게 선정한 가상 매체를 추가해 가상도서관 서비스를 제공해야 한다고 했다. 또한 이용자 개인의 욕구에 초점을 맞춘 맞춤형 도서관 서비스 제공이 필요하다고 언급했다. 다음으로 지역 관련 자료를 전시하는 개인 이용자 또는 지역사회 중심 도서관, 이용자들이 정보와 지식, 예술 오락을 전달하는 매체를 생성하는 장소의 역할을 수행할 수 있는 장비와 시설을 제공하는 장서 또는 찬조 도서관 구축해야 한다고 했다. 또한 다른 기관들이 소유하고 관리하는 방대한 양의 매체 자료에 도서관 이용자들이 접근할 수 있는 통로 역할 제공하는 포털 또는 아카이브 도서관을 구축한다고 했다. 마지막으로 미국 공공도서관은 정책적으로 사서로서의 역량 확대, 장서의 협력과 통합, 디지털화, 개인화 및 소셜 네트워킹, 아카이브 및 목록화, 무료이용료를 추진해야 한다고 했다.

 

다. 호주 국립도서관 IT 2012~2015 전략[9]

 

호주 국립도서관은 다양한 이용자 요구에 부응하고, 방대한 디지털 자료 관리 및 자료 관리에 대한 워크플로우를 개선하기 위해 5가지 도서관 IT 전략을 발표했다. 이에 호주 국립도서관은 디지털 자료 수집을 위한 인력 확충, 스토리지 용량 확대, 디지털 보존 기술을 위한 인력 양성 및 안전한 보관 및 재난관리에 필요한 디지털 도서관 인프라를 구축하기 위해 노력하고 있다. 또한 오픈 API를 통한 도서관 서비스의 외부 재이용 확대, 웹2.0을 활용한 도서관 플랫폼 구축 및 모바일 서비스 제공, 콘텐츠 확대를 위한 타 기관과의 협력 강화한 온라인 이용을 가능하게 하는 것을 목표로 삼고 있다.

 

3.2 도서관의 빅데이터 활용[7]

 

도서관은 빅데이터의 활용을 위해 장서의 디지털화 및 디지털 보존을 시도하고 있으며, 소셜 네트워크와의 연결을 통해 소셜 미디어 데이터를 포함한 웹사이트 아카이브를 구축하고자 한다. 또한 클라우드 결과를 기반으로 이용자 서비스 및 콘텐츠, 인프라 강화에 반영하고자 하며, 새로운 플랫폼을 를 활용해 클라우딩 컴퓨팅 기반의 새로운 도서관 시스템을 구현하고, 이용자 로그 정보를 통한 빅데이터 분석 통해 공공 도서관 통합 서비스를 제공하고자 한다. 다음의 각 도서관에서 빅데이터를 활용하는 사례를 언급했다.

 

가. 영국 국립도서관: 구글과 고문서 디지털화 프로젝트[10]

 

영국 국립도서관은 구글과 고문서 디지털화 프로젝트를 통해 1700년~1870년에 발간된 25만 권의 정기 출판물, 팸플릿, 단행본, 마리 앙투아네트 평론, 세계 최초 연료 엔진 탑재 잠수함 설계도 등의 중세 고문서 대상으로 프로젝트를 진행하고 있다. 영국 국립도서관은 2020년까지 공동으로 디지털화하여 디지털화된 사료 텍스트의 검색, 열람 및 다운로드 서비스 등을 무료로 제공하고자 한다. 또한 영국국립도서관 웹사이트와 Google Books를 통해 다운로드가 가능하도록 진행 중에 있다. 영국 국립도서관은 2020년까지 1억 5,000만권의 장서 대부분의 디지털화를 완료할 계획이라고 했다.

 

나. 미국 의회도서관 : 단문 기록을 위해 트위터 영구보존[11]

 

미국 의회도서관은 업데이트 되는 모든 포스트에 대한 접근권을 가질 수 있도록 트위터와 계약했다. 1,700억 건의 트윗을 포함한 총 133TB 규모의 파일을 색인 및 공개하는 것을 목표로 하였다. 또한 2000년 이후의 정부 데이터를 포함하는 300TB 규모의 웹사이트 아카이브를 수집하기 위해 노력하고 있다. 미국 의회도서관은 미래 세대가 열람할 수 있도록 중요한 디지털 콘텐츠를 수집 및 보전하는 ‘국가 디지털정보 인프라 및 보전 프로그램(National Digital Information Infrastructure and Preservaton Program)’을 추진할 것이라고 했다.

 

다. 애서가들의 소셜 네트워킹 : LibraryThing[12]

 

‘LibraryThing’은 인터넷 상의 서적애호가 및 수집가들이 작성한 개인 장서 목록을 통해 개인 장서를 목록화, reading lists, wish lists 등을 등록하는 웹 사이트이다. 그 후 자신과 취향이 같은 이용자들과 책장 정보를 공유하여 유사한 취향의 이용자들과 정보를 공유한다. LibraryThing은 목록 기반 소셜 네트워킹 시스템을 구축한 것으로 모든 데이터베이스는 주제/저자/서명 등을 통해 검색이 가능하다. 더불어 LC, Canadian National Catalogue, Yale University, 40개 이상의 연구도서관 및 Amazon 등의 MARC 데이터를 활용해 자신의 소장목록을 계속적으로 유지·확장하고 있다.

그림13. LibraryThing


라. OCLC : 도서관의 클라우드 컴퓨팅 도입[13]

 

OCLC는 도서관 분야에 있어서 클라우드 컴퓨팅 개념의 도입을 시도한 대표적인 기관으로 중앙센터에서 데이터의 저장 및 처리를 통하여 생산된 결과물을 회원도서관에 제공한다. OCLC는 소규모 도서관을 위해 2012년에 “OCLC WSSL(Website for Small Libraries)”라는 클라우드 서비스를 공개했다. Amazon, Google과 같은 클라우드 컴퓨팅 서비스 제공자의 역할을 도서관 분야에서 지속적으로 수행했다. 또한 클라우딩 컴퓨팅 기반의 새로운 도서관시스템 구현으로 웹 기반의 정보의 유통, 출판, 전자자원의 수서, 라이선스 관리 등의 기능을 포함하는 통합 디지털도서관시스템을 구축했다.

 

마. 유럽 디지털 도서관 프로젝트 : 유로피아나(Europeana)[7]

 

유로피아나(Europeana)는 2008년 11월 20일 출범한 이래 약 2,500만 건에 달하는 페이지뷰를 달성했다. 유로피아나는 요일별, 시간대별, 체류시간, 페이지뷰, 사용 기기를 파악하고 있다. 또한 많이 사용하는 콘텐츠/서비스, 주로 이용하는 시간, OS, 이용자의 국가, 방문시 쿼리, 모바일 이용자와 PC이용자의 비율, 이용 콘텐츠의 비교, 유입경로(검색엔진), 방문 이유, 이용 빈도(단발성 이용자, 보통이용자, 대량이용자) 등을 파악한다. 이를 통해 모바일과 PC 이용자의 로그를 분석함으로써 이용자의 이용패턴을 파악해 이를 이용자 서비스 및 콘텐츠, 인프라 강화에 반영했다.

 

바. DPLA : 미국 디지털 공공 도서관 통합 서비스[13]

 

‘DPLA(Digital Public Library of America)’는 미국 내 공공 도서관 및 박물관의 디지털 자료를 통합 및 제공하기 위한 새로운 플랫폼이다. DPLA는 40개의 디지털 도서관 및 일부 지역 역사 협회, 박물관, 도서관 등의 자료가 이미 통합되어 있다. 더불어 파일럿 서비스 허브와 함께 대규모 콘텐츠 허브가 국립 도서관에 메타 데이터를 공급할 예정이다. DPLA는 문서 기록뿐 아니라 예술과 문화, 미국 유산의 기록 및 과학 자료 등 모든 표현 범위를 포함하기 위해 노력하고 있다. 또한 지역 도서관에 사장된 자료를 모두 활용할 수 있는 플랫폼으로서 메타데이터를 기반으로 어플리케이션을 개발할 수 있는 API를 제공하고 현재까지 약 250만개의 자료를 통합했으며, 앞으로 빠르게 더 많은 자료를 통합할 예정이다.


3.3 국내 도서관의 빅데이터 활용


안타깝게도 국내에서는 주목할 만한 빅데이터를 활용하는 예는 없다. 앞으로 빅데이터를 활용한다면 다음과 같은 도서관에서 선두적으로 이끌어야 한다고 생각하고 그에 따라 다음과 같은 계획을 제안하고자 한다.

 

가. 국회도서관의 빅데이터 활용

 

국회도서관은 국가 지식 정보의 핵심 기관이라고 해도 과언이 아니다. 국가의 중심이 되는 핵심 기관 중 하나로서 국회도서관은 공공정보를 활용해 정부와 민간의 정책반영에 선순환 생태계를 구축하는데 앞장서야 한다. 이 생태계는 간단히 표현하면 <그림 14와> 같이 나타난다. 생태계의 과정은 다음과 같다. 국가에 분산되어있는 다수의 부처에서 생산되는 데이터를 연계 및 공유해 국가 지식 정보 자원을 수집한다. 그리고 이렇게 하여 모이는 방대한 데이터, 즉 빅데이터를 분석해 이를 기반으로 하는 정책을 수립한다. 수립된 법제도를 활용해 대국민 서비스를 제공한다. 구축된 서비스를 이용하며 공공 빅데이터는 지속적으로 생산될 것이고 이러한 선순환 생태계를 구축하게 되는 것이다.

 

3.3.1. 전통적 도서관으로서의 국회도서관의 역할

 

그림14. 공공정보를 활용한 정부-민간 정책반영 선순환 과정

 

국회도서관의 전통적 역할은 우선 국가의 지식정보 자원을 수집, 보존하는 측면이 존재한다. 해당하는 지식정보 자원이란 학술문화 또는 과학기술 등에 관한 디지털화된 자료 또는 디지털화의 필요성이 인정되는 자료이다. 지식정보 그 자체를 자원으로 보는 경우, 교육기관이나 학회, 언론사 등의 각종 기관과 단체 등에서 생산되는 모든 지식정보가 해당될 수 있는데, 이러한 지식 정보는 일반인에게 공개되어 자유롭게 공유가 가능한 것이며, 국가지식정보자원 선정 원칙에 부합해야 한다.
또한 정보자원의 활용을 위한 지식서비스를 제공하는 것 역시 국회도서관의 또 다른 역할이다. 이것은 법 자체에 관한 지식정보 뿐만 아니라 입법기관에 대한 정보와 서비스를 제공하는 것을 의미한다. 서비스의 대상은 국민을 비롯하여 기관이 될 수도 있으며, 이들이 양질의 정보를 얻을 수 있도록 접근 방법을 다양화하는 방안을 계속해서 모색해나가는 것이 중요하다.

 

3.3.2. 국회도서관, Beyond Library 2.0

 

웹에서의 참여, 공유, 개방이라는 속성을 내세우며 Web 2.0이 약 10여 년 전에 등장했고, 이와 관련된 서비스들이 다양한 분야에 접목됐다. 도서관에서도 이러한 웹 2.0의 속성을 도입하게 되었는데, 이를 ‘Library 2.0’이라고 이름지었다. 이는 끊임없이 목적을 가지고 변화하는 도서관 서비스 모델을 의미하며, 도서관 역시 참여, 공유, 개방이라는 속성을 공유함을 의미한다. 이는 단순히 소장자료를 디지털화하고 보관하는 것을 넘어서는 개념으로, 공공의 정보(e.g. twitter data), 그리고 정책적으로 활용 가능한 정보들을 수집 및 분석하여 제공한다는 의미를 포함하고 있다.
이러한 맥락에서 국회도서관의 국가 공공 빅데이터 정보 활용은 Library 2.0의 속성을 잘 드러낸다고 할 수 있다. 의회정보 서비스(의회정보회답, 팩트북 및 자료 발간 등), 법률정보 서비스(법률쟁점 database 서비스, 법률정보 검색 등)와 같은 특화된 소장 자료 서비스가 대표적인 예이다. 이와 같은 서비스는 국회도서관이 정책 수립에 중요한 영향을 미치는 주요 데이터를 보유하고 있다는 점에서 시작된다. 이 데이터는 특화된 서비스를 통해 증거기반 국가 미래전략 수립, 사회적 비용의 획기적 감소, 국민 맞춤형 선제적 공공서비스 등과 같은 긍정적 영향을 미칠 수 있다<그림15>.


그림15. 국회도서관의 국가 공공 정보와 빅데이터

 

국회도서관은 위에서 언급한 공공의 정보들을 대량으로 모은 빅데이터를 분석해 정부기관의 정책의사결정을 지원하는 데에도 활용할 수 있다. <그림 16>과 같이 여기에서의 빅데이터는 기존에 소장하고 있는 데이터베이스의 자료, 국가 정책자료와 함께 SNS로부터의 데이터, 그리고 미디어자료와 같은 공공부문의 자료 모두를 포함한 것이 된다. 이러한 데이터로부터 국가 지식 정보를 분석하고 대중적인 영향력을 살펴볼 수 있으며, 이를 통해 예측 모델을 개발하는 단계로 나아갈 수 있다.


그림16. 빅데이터 기반 정책적 활용 예시

 

3.3.3 국회도서관, 빅데이터 분석 모델

 

빅데이터 분석은 크게 네 단계로 나눠볼 수 있다<그림17>. 우선 데이터를 수집 및 선별하는 작업을 거친 후, 모아진 데이터를 처리하고, 이를 통해 정제된 데이터들을 적합한 기술을 이용하여 분석하여 활용하는 단계로 진행이 된다.
각 단계를 구체적으로 살펴보면, 우선 웹상에서 활발하게 사용되는 트위터, 페이스북과 같은 SNS에서 실시간으로 데이터를 수집한다. 여기에 국회도서관 내부의 소장 자료와 이용자 로그 등의 각종 데이터 역시 추가되고, 이뿐만 아니라 국가 정책 자료까지 전반적으로 모든 데이터의 수집을 한다. 이렇게 수집된 데이터에서 사서들의 수서업무 정보 큐레이션을 이용해 가치 있는 데이터를 선별하는 작업을 하고 나면 처리 단계로 진행된다. 처리하는 과정에서는 키워드를 추출하는 방법과 Hadoop (빅데이터 처리에 활용하는 도구) 기반 전 처리 방법으로 나누어 생각할 수 있다. 키워드 추출에서는 검색 질의를 통한 도메인을 필터링하고, 언어처리를 통해 키워드를 추출한다. Hadoop을 기반으로 할 때에는, MapReduce, Hive, Mahout 등의 데이터를 분산해 처리하고 관리하는 시스템을 이용, 데이터 처리를 완료한다. 처리를 마친 데이터는 분석단계로 들어간다. 데이터 분석에도 오피니언 마이닝 분석, 기계학습, 토픽 모델링 분석, 이용자 정보 통합 이질적 네트워크 분석 등의 다양한 기법들이 존재한다. 이러한 기법들 중 의도에 맞는 적합한 분석 방법으로 데이터를 분석한다. 이렇게 일련의 과정을 통해 분석된 데이터들은 실시간 키워드 및 동향 파악, 대중적 영향력 분석, 예측 모델 개발 등 목적에 따라 새로운 가치창출을 위해 활용될 수 있다.


그림17. 국회도서관 빅데이터 분석 모델

 


4. 빅데이터 관련 연구

 

필자는 SNS에서 생겨나는 방대한 양의 데이터를 이용해 텍스트 마이닝과 데이터를 분석하는 연구를 활발하게 진행해 오고 있다. 연구의 결과물로 다수의 논문을 출판했고, 지속적으로 국내외 연구진과 교류를 하며 연구범위를 확장해 나가고 있다.

 

그림18. 한국 대선 트위터 마이닝 시스템

 

대표적인 예로 빅데이터를 활용한 텍스트 마이닝 및 네트워크를 분석한 세 가지 연구를 소개하고자 한다. 첫 번째 연구의 주제<그림 18>는 ‘한국 대선 트위터 마이닝 시스템’이다[14]. 2012년 한국 대선을 대상으로 한 사례연구로, 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 ‘박근혜, 문재인, 안철수, 대선’이라는 검색어가 포함된 173만7,969건의 트윗을 수집해 진행됐다. 100회 이상 동시 출현한 단어 페어를 네트워크 매핑을 이용, 시각화하여 분석을 한 연구이다. 이 사례연구는 최신기법을 사용해 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 의의가 있는 연구이다.


그림19. 텍스트마이닝을 활용한 신문사별 내용 및 논조 차이 네트워크

 

두 번째 연구<그림19>는 ‘텍스트 마이닝을 활용한 신문사별 내용 및 논조 차이점 분석’으로 경향신문, 한겨레, 동아일보 등 세 개 신문사의 기사 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시했다[15]. 총 3,026개의 기사를 수집, 분석해 문화, 경제, 정치 분야에서 특정 이슈에 대한 신문사별 긍정-부정 논조 차이가 있음을 밝힌 연구이다.
세 번째로<그림 20>는 한 문헌과 이 문헌이 인용하고 있는 문헌 사이에서 유전자의 네트워크(Gene-Citation-Gene Network)를 구축한 ‘Discovering Implicit Entity Relation with the Gene-Citation-Gene Network’ 연구가 있다[16]. MEDLINE에서 총 33만1,411건의 초록에서 25개의 유전자 쌍을 추출하여 가중치, 근접도, 중심성 등의 다양한 계량적 방법으로 네트워크의 성능을 측정했고, GCG 네트워크를 구축함을 알 수 있다.그리고 연구를 통해 이 네트워크가 유전자 상관성을 밝히는데 유용하게 사용될 수 있다는 시사점을 보이고 있다.

 

그림20.  Discovering Implicit Entity Relation with Gene-Citation-Gene Network

 

5. 결론

 

빅데이터 시대의 도래는 인터넷과 ICT기술의 발달에 따르는 필연적 결과라고 생각한다. 앞으로도 더 다양한 그리고 더 방대한 양의 데이터를 처리 관리해야 하는 도전에 직면 하게 될 것 이다. 도서관이 지식 정보를 다루는 기관이기 때문에 빅데이터로 인한 도전을 피해 갈 수 없을 것이다. 안타까운 것은 이러한 시대 상황 속에서 도서관이 능동적으로 대처하고 있지 못한다는 것이다. 여러 가지 이유가 있겠지만 좀 더 관심을 갖고 정책적 배려와 함께 도서관 내부에서도 빅데이터와 도서관의 접목 및 도서관에서의 빅데이터 활용 방법 등을 생각하고 고민해 보아야 하겠다. 도서관이 데이터의 관리와 유통과 함께 그 역할과 영역을 확장해 나간다면, 범람하는 빅데이터에 대한 체계적 관리의 기반을 제공할 것으로 기대된다.

 

6. 참고문헌

[1] McKinsey. 2011. Big Data: The next frontier for innovation, competition, and productivity.
[2] 함유근, 채승병. 2012. 빅데이터, 경영을 바꾸다. 삼성경제연구소
[3] 서상원 외. 2013. 대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL. 길벗
[4] 한국정보화진흥원. 2012. 알기쉬운 공공부문 빅데이터 분석/활용 가이드 v1.0: 빅데이터 분석 따라하기. 한국정보화진흥원 빅데이터 전략연구센터 보고서
[5] British Library. 2013. Growing Knowledge: The British Library’s Strategy 2011?2015. London: UK
[6] http://www.br.uk/aboutus/startpolprog/strategy1115/strategy1115.pdf
[7] 문화체육관광부. 2012. 미래도서관 정보화 정책 수립 연구. 서울특별시: 대한민국. 문화체육관광부 도서관정보정책기획단
[8] 21세기 공공도서관의 전략적 비전, 도서관연구소 웹진 Vol 76, 2011.8
[9] National Library og Australia, Information Strategic Plan 2012~2015
[10] 한국정보화진흥원. 2011. IT Issues Weekly. 서울특별시: 대한민국. 한국정보화진흥원
[11] InformationWeek, 2010. 한국정보화진흥원
[12] https://www.librarything.com/
[13] 문화체육관광부. 2013. 도서관 통합서비스 환경 구축 지침 수립에 관한 연구. 서울특별시: 대한민국. 문화체육관광부 도서관정보정책기획단
[14] 배정환, 손지은, 송민. 2013. 텍스트마이닝을이용한 2012년 한국 대선 관련 트위터 분석. 지능정보연구, 19(3). 141-156
[15] 감미아, 송민. 2012. 텍스트마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석. 지능 정보 연구, 18(3). 53-77.
[16] Song M, Han N-G, Kim Y-H, Ding Y, Chambers T. 2013. Discovering Implicit Entity Relation with the Gene-Citation-Gene Network. PLoS ONE 8(12): e84639. doi:10.1371/journal.pone.0084639


 

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

※ 이글은 한국조사기자협회가 연간지로 발행하는 2014년 '조사연구' 제26호에 실린 글임을 알립니다.

 

데이터 저널리즘에 대한 소고

신동희 성균관대 인터랙션사이언스 학과 교수(학과장, BK21사업단장)

 

 

데이터 저널리즘에 대한 인식

 

빅데이터의 급부상과 더불어 데이터 저널리즘이 화두다. 빅데이터가 전방위적으로 사회 거의 모든 분야에 적용되고 있는 가운데 언론분야에 접목된 것이 데이터 저널리즘이라 할 수 있다. 정형, 비정형 데이터 등 거대 데이터를 수집하여 그를 기반으로 데이터를 분석하고 현상과 사건을 좀 더 심층적이고 과학적으로 분석하는 것이 데이터 저널리즘이다. 이런 다소 틀에 박힌 정의에도 불구하고, 사실 데이터 저널리즘을 정확히 정의하고 범위를 설정하기는 쉽지 않다. 왜냐하면 데이터 저널리즘이 하나의 동향이나 보도행태인가, 하나의 모델인가, 아니면 일정한 분석기술 인프라를 말하는 것인가, 혹은 비주얼 기사 생산 양식을 말하는 것인가 논의가 분분하기 때문이다. 이는 일상어가 되어버린 빅데이터처럼, 빅데이터가 실제로 무엇을 의미하는지에 대한 여러 이견이 있는 것과 관련이 있다. 빅데이터가 데이터 자체를 말하는 것인가, 일정한 분석활동을 의미하는 것인가, 경영철학이나 전략을 말하는 것인가 등에 관해 끊임없는 논란이 있는 것과 비슷하다. 그런데 빅데이터에 대한 모호성은 그렇다 치더라도 데이터 저널리즘에 대한 막연함은 더 심각하며 문제가 있는 것 같다. 한국뿐만 아니라 전 세계적으로 언론사의 위기가 공통적으로 엄습하고 있는 상황에서 언론사들은 데이터 저널리즘을 블루오션을 넘어선 강력한 구원투수로 인식하고 있다. 국내에서는 데이터 저널리즘에 대한 막연한 기대 내지는 모호함으로 정확히 무엇을 어떻게 해야 하는지에 대한 실천적 성찰이 부족하다.

 

필자가 2013년 한국언론진흥재단의 연구지원을 받아 국내 데이터 저널리즘의 현황을 조사한 바에 따르면 데이터 저널리즘에 대한 전반적 인식이 부족하다는 것을 알 수 있다. 국내 데이터 저널리즘에 관심이 있거나, 어떤 형태로든 관련이 있는 언론 종사자들을 조사한 바에 따르면 응답자의 80%이상이 데이터 저널리즘을 텍스트 기사 작성을 기반으로 하는 전통적 저널리즘 행위의 보조적인 수단으로써 인식하고 있다. 또한 대부분의 응답자 (50%이상)가 데이터 저널리즘에 대해 정확히 알지 못하거나, 기사자료에 이미지 혹은 플래쉬(Flash) 등의 그래픽 정보를 연결하는 것 (약 40%), 통계 수치나 서베이 조사결과를 같이 보여주는 것 (약 40%) 등으로 인식하고 있었다. 대체로 데이터 저널리즘을 하나의 결과물(outcome)으로 인식하는 경우가 많아 일정한 데이터베이스나 디지털화된 보도도구 등의 수단적 의미로 받아들이는 경우가 많았다 (응답자의 약 50%이상). 즉 국내 언론종사자의 데이터 저널리즘에 대한 인식수준은 일반적 대중들과 큰 차이가 없고, 대체로 초보 수준에 머물고 있다고 할 수 있다.

 

인식의 한계에서 한가지 주목할 만한 점은 국내 언론사들은 데이터 저널리즘이 이전에 다른 시도들 (예를 들면 온라인 저널리즘, 컴퓨터 활용 취재)등과 전혀 다른 것이라 생각하는 오해도 많다. 이는 마치 산업계에서 빅데이터를 이전 현상(예를 들어 데이터 마이닝, 고객정보시스템-CRM)등과 전혀 다른 새로운 혁신(revolution)적인 것이라 생각하는 것과도 연관성이 있다. 실제로 빅데이터나 데이터 저널리즘 공히 이전의 현상이나 시도와 전혀 다른 것이 아닌 기술의 진보에 따른 다소 진화된 (evolution)형태라는 것이다. 이렇게 의도적이건 몰라서 그러던 빅데이터나 데이터 저널리즘을 전혀 새로운 패러다임으로 인식하려는 것은 현재 어려운 경제나 언론 상황을 획기적으로 타계해 줄 게임체인저 (Game Changer)로서 받아들이고 싶은 자기 실현적 예언(Self-fulfilling prophecy)과 관련이 있을 것이다. 데이터 저널리즘은 이전의 CAR, 온라인 저널리즘, 컴퓨테이셔널 저널리즘 등과 다른 형태가 아니며 그 핵심적 접근에서는 일맥상통한 것이다. 기술의 진보에 따라 어떻게 기술을 응용하느냐가 바뀌었을 뿐이다. 데이터 저널리즘은 일정한 결과물이 아닌 보도의 객관성과 과학성을 향상시키고 독자대중과의 소통플랫폼을 확립하는 하나의 과정이다. 최근에는 로봇저널리즘, 알고리즘 저널리즘 등이 거론되고 있는데, 이들도 데이터 저널리즘과 크게 다른 것이 아니다.

 

국내 데이터 저널리즘의 시작

 

국내에선 데이터 저널리즘을 강화해야 한다는 여러 지적이 나왔음에도 언론사들은 데이터 저널리즘을 텍스트 기사 작성을 기반으로 하는 전통적 저널리즘 행위의 보조적인 수단으로 인식하는 경향이 강했다. 과거부터 데이터를 기반으로 하는 보도는 탐사 보도를 위한 방법 중 하나로 여겨졌을 뿐, 저널리즘 영역에서는 데이터를 통한 보도에 크게 관심을 기울이지 않았다. 국내에서 데이터를 이용한 보도를 하려는 움직임이 일어나기 시작한 것은 1990년대 초반부터이다. 그 가운데에서도 제민일보의 ‘4·3은 말한다’ 라는 보도는 한국에서 데이터를 이용한 저널리즘 가운데 가장 오래된 것으로 받아들여진다. 제민일보는 1988년부터 제주 4·3 사건에 대한 객관적인 사실을 밝혀내기 위해 대량의 문헌자료와 증언 자료를 컴퓨터 데이터베이스 프로그램을 만들어 관리했다. 이렇게 구축된 데이터베이스로 수많은 자료를 분석함으로써 데이터 분석 보도의 위력을 실감케 했다. 이들의 보도는 지역사회뿐만 아니라 학계를 놀라게 했으며, 결국 ‘4·3 특별법’을 제정하는 데 큰 역할을 했다. 그 뒤로 신문사들은 자신만의 데이터를 구축해 보도하기 시작했다. 2008년 이후로는 인터넷에 많은 데이터가 축적되면서 인터넷 데이터의 중요성에 관한 목소리가 높아졌다. 인터넷에 있는 데이터를 수집하여 분석하려는 업체 및 기관이 생겨나면서 자연스럽게 신문사들은 그런 기관과 협동하여 보도를 진행하는 경향을 보였다.

 

뉴스룸 자체를 디지털미디어로 전환하는 게 필수

 

여러 신문사에서 데이터를 이용한 보도를 시도했지만, 여전히 한국의 데이터 저널리즘 수준은 자체적인 데이터 저널리즘 팀이 미비하거나 자사가 갖고 있는 기사 자료에 이미지 혹은 플래시(Flash) 등의 그래픽 정보를 연결하는 정도의 걸음마 단계에 머물고 있다. 그뿐만 아니라 제한적인 데이터의 사용, 다양성이 결여된 퍼블리싱(Publishing)의 형태, 사용자 참여와 소통의 부재 등은 국내 데이터 저널리즘의 현재 수준을 가늠하게 해준다. 최근 인포그래픽(Infographic)을 강화하려는 언론사가 늘어났지만, 저널리즘적 성격보다는 디자인과 소프트웨어에 중점을 두는 경향을 보이고 있다.

 

물론 이렇게 될 수밖에 없는 데에는 데이터의 중요성에 대한 인식의 부재도 있지만 정부 및 언론사 자체의 구조적인 문제가 존재하기 때문이다. 데이터 저널리즘에서 분석이 가능한 데이터는 많은 출처에서 수집이 가능하지만, 언론사 내부적으로는 자사에 존재하고 있는 자료와 기자가 일차적으로 수집하고 조사한 자료를 기반으로 삼게 마련이다. 이런 데이터를 원활하게 이용하기 위해선 뉴스룸(Newsroom) 자체를 온전한 디지털미디어로 전환하는 것이 필수적이다. 하지만 국내의 뉴스룸에서 데이터를 관리하는 조사자료부나 데이터베이스부의 역량과 규모는 극히 제한적인 상황이다. 이뿐만 아니라 대부분의 뉴스룸 관련 인력이 노령화되어 디지털 숙련도가 떨어지면서 데이터가 가진 잠재력을 충분히 활용해 데이터 저널리즘을 실현하기는 현실적으로 불가능에 가까워 보인다. 현재의 뉴스룸 환경은 대부분 디지털 기술과 인프라 위에서 펼쳐지는데 조직 내부의 구조와 문화는 현실적으로 이를 뒷받침하지 못하고 있는 것이 아이러니한 상황일 수밖에 없다. 현실적으로 국내 언론사에서 조사부나 조사관련부서를 핵심역량이나 핵심부서로 인식하기 보다 보조적 일로 치부되는 현실이 큰 걸림돌이다.

 

데이터 저널리즘이 실현되기 어려운 이유를 환경 변화를 꺼려하는 언론사들의 책임만으로 돌리기에는 한계점이 많다. 현실적으로, 생존과 직결된 경제적 문제로 인한 새로운 변화에 대한 좌절감이 데이터 저널리즘이 하나의 패러다임으로 자리 잡는 데 가장 큰 장애요인으로 작용하고 있다. 전통적 미디어 기업의 디지털미디어로의 전환은 콘텐츠의 발전과 같은 참신한 시도와 노력을 요구하지만, 생존이라는 문제를 두고 경제적으로 어려움을 겪는 미디어 기업들에게 이 같은 시도는 사치라는 인식이 자리 잡고 있다. 오랜 시간 공을 들여 작성한 기사 하나보다 연예인에 관한 폭로 기사 하나가 사람들에게 더 많은 관심을 끌기 때문에 이익을 창출해야 하는 영리 목적의 기업으로서는 자원을 많이 들여야 하는 데이터 저널리즘과 같은 영역의 보도를 꺼릴 수밖에 없다. 언론사에서 데이터 저널리즘을 정착시키기 위한 노력을 기울이고 있지만, 아직까지 뉴스룸에서 기자와 기술적 지원자들 간의 협업 부족과 새로운 콘텐츠 생성을 위한 투자의 현실적 어려움 때문에 데이터 저널리즘을 실현할 수 있는 의지와 동기가 부족하다고 볼 수 있다. 또한 언론사는 데이터를 얻을 수 있는 정부나 각종 단체와 상호협력과 개방적 정보 플랫폼을 통해 정보를 적극 교류해야 할 필요성이 대두되고 있다. 하지만 디지털 자료를 이미 많이 보관하고 있는 해외와 달리 디지털 자료를 많이 보관하지 못한 국내 상황에선 현재 단계에서 데이터를 정리하는 것이 시급하다.

 

이미 공개가 된 자료라고 하더라도, 대통령 후보의 선거 비용이나 고위 공직자의 재산과 같이 권력 감시에 중요하게 사용될 수 있는 자료는 열람기간이 제한되어 있고, 저장 및 출력이 불가능하며, DB화하기 힘든 이미지 형태의 자료로 이루어져 있어 데이터 저널리즘을 실천하는 데 장애요소로 작용한다. 이러한 데이터가 공개되더라도 서치, 편집할 수 없는 형태로 공개되어 사실상 그 데이터로 분석을 하는 것은 불가능하다. 데이터를 공개함에 있어 컴퓨터가 읽고 수집할 수 있는 데이터 형태 (machine-readable form; 예를 들어 MS Office의 형태, 복사가 불가능한 PDF형태는 무의미함)로 공개함이 바람직하다.

 

데이터 저널리즘의 활성화 방안

 

국내에서는 아직 데이터 저널리즘이 활성화되기에 어려운 조건을 가지고 있다. 조사부나 데이터베이스의 중요성을 간과하는 언론사 구성원들의 인식도 문제이고 데이터에 대한 활발한 공개운용이나 정보공유 문화자체가 형성이 안된 것 등은 구조적 문제이다. 물론 현정부의 정부3.0 프로젝트가 긍정적 견인차 역할을 할 것으로 보이나 탑다운(Top-down)적 드라이브가 어느 정도까지 현실적으로 영향을 미칠지는 미지수이다.

 

데이터 저널리즘의 전문가이자 크라우드 소싱의 주창자인 탠자 아이타머토 (Tanja Aitamurto)는 “데이터 저널리즘의 동향(Trends in Data Journalism)”이라는 보고서에서 현실적 데이터 저널리즘의 수익모델을 제시한 바 있다.

 

1. 프리미엄 모델: 이용자가 더 정교한 인포그래픽을 원하면 요금을 청구한다.
2. 개인, 기업 등이 언제나 이용할 수 있는 상시 데이터 쇼핑몰을 개설한다. 3. 데이터 저널리즘 활동을 통해 배양된 기술을 활용하여 기업이나 기관들에게 유료 데이터 분석 서비스를 제공한다.

 

아이타머토의 제안에 따라 국내 데이터 저널리즘의 구체적 실천전략을 도출해 볼 수 있다.

 

첫째, 데이터를 이용한 유료 부가서비스 및 재판매이다. 미국의 소셜미디어 회사들은, 개인들이 가상공간상에서 행한 발언(utterances)들을 모아서 판매하는 사업을 벌이고 있다. 트위터는 개인이 한 달에 1천 달러를 내면 지난 2년간의 트윗을 모은 데이터를 위치정보를 포함해 판매하고 있다. 또한 트위터는 그닙(Gnip)이라는 판매대행사를 통해 전체 트윗의 일부, 특정 계정을 포함한 트윗과 리트윗 등도 판매하고 있으며, 미디어쉬프트(Mediashift)라는 회사를 통해서는 트윗을 40여개 카테고리로 분류한 데이터를 판매한다. 사실 미디어 기업들은 데이터 저널리즘에 사용된 데이터를 판매하기보다 IRE 웹사이트 같은 곳을 통하여 공익적 목적으로 무상 공개하는데 더 익숙한 것 같다. 그런데, 프라이버시 침해를 범하지 않는 범위 내에서, 다시 말해 특정 개인을 지목할 수 있는 데이터를 공개하거나 판매하지 않는 범위 내에서, 미디어 기업들은 자신들이 생산하는 탐사보도 기사에 활용된 데이터를 어떻게 부가가치화 할 수 있는지 고민해야할 단계에 이른 것으로 보인다. 물론 데이터를 상업화하려 한다면, 원 정보를 제공한 기관의 허락도 있어야할 것이고, 만약 원 정보가 정부나 공공기관에서 제공된 것이었다면 행정서비스 용도로 제한되어 있는 데이터 활용의 제약도 고려해야할 것이다.

 

둘째, 언론사는 데이터를 이용한 부대사업 진출을 생각해 볼 수 있다. 미디어 기업이 자신이 생산한 뉴스기사를 내보내는 채널은 이른바 원소스 멀티유스(one source multi-use)를 통해 점점 더 다양해지고 있다. 가장 두드러진 예는 스마트폰의 앱을 들 수 있다. 최근에는 스마트폰의 폭발적인 보급에 힘입어 iOS나 android OS에 맞게 만들어진 개인화된 뉴스앱이 널리 보급되고 있다. 이러한 앱들은 복수의 매체로부터 뉴스를 제공하기 때문에 수용자의 구미와 니드(need)에 부합하는 서비스를 제공할 가능성이 높아진다. 그러나 포털뉴스 앱보다 훨씬 더 사용자 편의에 부합하는 앱들도 많이 나와 있다. 이러한 뉴스앱은 아직 커다란 상업적인 이익을 창출하지는 못하고 있지만 데이터 저널리즘에 기반을 둔 보도가 널리 확산될 경우, 데이터를 이용한 부대사업에 새로운 지평이 열리게 된다. 데이터 저널리즘에 기반을 둔 뉴스는, 뉴스 자체가 하나의 독립적인 다큐멘터리나 시사 프로그램에 준하는 가치를 갖게 될 것이므로, 이러한 뉴스를 패키지화하여 유료 온라인 뉴스 서비스를 통해 판매하거나 구독자를 확보하는 과정에서 중요한 인센티브(incentives)로 기능할 가능성이 커 보인다.

 

세번째, 데이터 저널리즘을 이용한 광고 플랫폼 개발도 매력적 영역이다. 데이터 저널리즘에서 데이터의 역할은 뉴스 콘텐츠를 구성하는 중요한 요소(component)가 된다는 데 있다. 그런데 다른 매체가 쉽게 따라잡을 수 없는 데이터 저널리즘 보도, 예를 들어 장기 데이터를 양적 분석과 질적 분석을 결합하여 취재한 기사의 경우 그 자체가 광고주들을 유인할 수 있게 된다. 이런 이유로 가디언(Guardian)과 같은 유명 매체나 CNN, 뉴욕타임즈(New York Times) 등이 데이터 저널리즘만을 따로 모은 섹션이나 빅데이터 분석에 기반을 둔 섹션을 경쟁적으로 만들고 있다고 볼 수 있다. 연재 기사나 탐사보도에 별도의 스폰서가 따라붙는 전통이 강한 서구의 미디어 산업에서는 데이터 저널리즘에 기반을 둔 탐사보도나 특집 기사들 자체가 광고 플랫폼 내지는 광고주 유인 장치로서 기능하는 것이 아주 자연스럽다.

 

네번째, 데이터를 이용한 컨설팅 등 부가 지식산업 개발도 고려해야 한다. 가트너(Gartner)와 같은 비즈니스 정보회사나 어센츄어(Accenture)와 같은 컨설팅 업체들은 엄청난 돈을 들여 자신들만의 데이터베이스를 구축하고 있으며, 이런 데이터베이스는 자사의 핵심역량이 되고 있다. 그러한 고급의 데이터베이스 자체가 자사의 공신력을 높여주고, 또 각 회사들의 공신력으로 데이터의 신뢰도가 높아지는 선순환구조를 가지고 있다. 언론이나 컨설팅업 모두 훌륭한 정보의 존안(存案), 분석, 가공, 저장 없이는 경쟁업체보다 더 나은 기사나 컨설팅을 제공할 수 없다는 공통점이 있다.

 

마지막으로 탐사보도(investigative reporting)는 데이터 저널리즘에 있어서 가장 기본적인 방법이자 저널리즘의 본질에 근접한 방법이 될 것이다. 특히 뉴스타파나 뉴욕타임즈의 크라우드 소싱처럼 언론수용자의 참여적 활동을 촉진하여 뉴스콘텐츠 자체를 매우 풍부하게 할 수 있다. CNN이 제공하는 iReport는 시청자가 직접 취재한 영상보도물을 CNN이 선별하여 방영하는 체계로서, 뉴스제작의 전 과정에 시청자의 참여를 가능하게 한 예처럼 독자의 참여의 폭과 형태를 다양하게 함으로써 데이터 저널리즘을 응용할 수 있다.

 

최근의 동향: 알고리즘 저널리즘

 

데이터 저널리즘에 이어 최근에는 로봇 저널리즘 혹은 알고리즘 저널리즘이 회자되고 있다.
구조화된 저널리즘, 라이브 블로깅, 드론 저널리즘, 로봇 저널리즘 등으로 다양하게 불리는데 결국 보도 기사를 자동으로 생성하는 소프트웨어에 기반을 둔 저널리즘을 말한다. 로봇 저널리즘에서 로봇기자가 ‘자동기사작성’ 알고리즘을 통해 기사를 생산해 낸다. 통계내기 쉬운 데이터, 예컨대 스포츠‧날씨‧증권 정보를 수집‧분석해 기사형 문장으로 표현한다. 즉 로봇 기자라고 하여 로봇이 돌아다니면서 취재하고 기사를 쓰는 것이 아니라 알고리즘에 따라 분석하는 것을 말한다. 로봇기자는 수집된 데이터에서 가치 있는 뉴스거리를 찾아 기사의 핵심까지 잡는다. 설정된 논조에 따라 알고리즘은 뉘앙스가 다른 단어로도 바꿀 수도 있다. 기사 문장은 인간이 작성했던 기존 기사들을 최소단위로 분석해 도식화한다. 도식화 된 문장에 정보를 입력하면 사람 손을 거치지 않은 기사가 곧바로 독자에게 출고된다.

 

알고리즘 저널리즘은 비단 기사 작성에 그치지 않는다. 가디언은 2013년 11월 신문을 알고리즘 편집으로 생산하는 프로젝트를 시작했다. 맞춤형 신문을 제작하는 벤처기업 ‘뉴스페이퍼클럽’이 가디언과 손을 잡았다. 이들은 더롱굿리드, ‘긴 읽을거리’란 뜻을 지닌 타블로이드판 주간지를 찍었다. 가디언이 공개한 인기 기사를 취사선택해 24쪽 분량의 타블로이드판으로 만들었다. 기사를 고르고 배치하는 일은 로봇 몫이다. 가디언이 개발한 알고리즘 덩어리인 이 로봇은 전체 가디언 기사 가운데 길이, 주제, 댓글, 소셜미디어 공유 횟수, 독자 반응 등을 분석해 상위 1% 기사만 정리해낸다. 로봇기자는 사건의 맥락을 짚어내기 어렵고 기사작성 과정에 인간성과 판별력이 거의 없기 때문에 현재로선 빅 데이터를 활용한 스포츠‧날씨‧금융 분야의 기사작성 외에는 활용범위가 제한적이다. 하지만 기사가 곧 상품인 미디어시장에서 생산속도와 생산량의 압도적 우위를 갖고 있는 알고리즘 저널리즘의 등장은 로봇의 지식노동 대체와 미디어상품의 대량생산 측면에서 시사점이 크다. 학습효과가 있는 로봇은 장기적으로 전 세계 지식노동자에게 위협으로 다가올 것이다.

 

아무리 분석기술이 좋아도 로봇 저널리즘은 인간 저널리즘을 대체할 수는 없다. 취재와 보도, 그리고 이에 대한 평가는 아직은 사람으로서 저널리스트가 실행할 수밖에 없다. 로봇이 이뤄내는 저널리즘의 실행은 그저 ‘신기함’일 뿐, 완벽하게 가능한 일이 아니다. 저널리즘 영역에서는 로봇 자체도 편향될 수밖에 없기 때문이다. 특정세력의 이해관계에 맞게 알고리즘이 설계될 경우 객관을 가장한 로봇 기사들이 수십만 건 쏟아지며 여론 조작에 나설 가능성도 있다.

 

결국 데이터 저널리즘이든 로봇저널리즘이든 기자라는 사람이 전 과정에서 조율하며 결정해야 하고 저널리즘 본연의 가치를 지켜내는 수단이라는 점은 중요하다. 로봇이 생산하는 기사이던 데이터그래픽 기사이던 그것을 읽는 것은 독자라는 사람이고 그 사람은 특정한 사회맥락 속에서 존재하기 때문이다. 맥락과 떨어진 데이터와 인간을 이해하지 못하는 로봇은 무슨 의미가 있겠는가?



 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다

※ 이글은 한국조사기자협회가 연간지로 발행하는 2014년 '조사연구' 제26호에 실린 글임을 알립니다.

 

조사기자와 신문칼럼 쓰기

(박현수 문화일보 조사팀장)

 

#사례1.
대한민국 언론인 가운데 대표적인 보수논객을 꼽으라면 아마도 월간조선 대표이사를 지낸 조갑제 ‘조갑제닷컴’ 대표를 꼽는 이들이 많을 것이다. 특히 조 대표는 조사기자들에게도 널리 알려진 언론인이다. 왜냐하면 오늘의 언론인 조갑제가 있기까지는 그의 숨은 내조자가 있었기 때문이다. 그의 최대 내조자는 바로 한국조사기자협회 제7대 회장을 지낸 임귀옥 전 경향신문 조사부장. 조 대표가 칼럼을 쓸 때마다 조사기자 임귀옥의 자료검색과 제공 역할이 컸다.
#사례2.
동아일보 정치부기자 출신인 이만섭 전국회의장의 경우에도 부인이 경향신문 조사기자였다. 그가 기사와 칼럼을 쓸 때마다 부인의 도움을 빼놓을 수 없었다. 그가 언론과의 인터뷰를 할 때 자랑스럽게 부인이 조사기자라는 사실을 말하는 것이 인상적이었다.
#사례3.
조선일보에 1983년 3월부터 2006년 2월 23일까지〈이규태 코너〉를 연재하면서 23년 동안 6702회를 기고하며 대한민국 언론사상 최장기 칼럼 기록을 세운 이규태 전 논설위원의 경우도 부인이 대학에서 문헌정보학을 전공한 탓에 기초자료를 모으고 정리하여 주제별로 자료를 축적한 결과였던 것으로 알려지고 있다.
#사례4.
박근혜 정부에서 초대 청와대 대변인을 지낸 윤창중 전 문화일보 논설실장의 경우도 비슷하다. 윤 전실장의 칼럼에 대한 평가는 상반되고 있지만 그의 지난 칼럼을 보기 위해 문화일보 조사팀을 방문해 복사를 해가는 열성 독자들이 꽤 많았다. 그러나 윤 전실장의 칼럼에도 조사기자 김지은 회원의 자료제공이 큰 역할을 했음을 아는 사람은 많지 않다.
위의 사례에서 보듯 조사기자와 신문사 칼럼은 깊은 연관성이 있다. 조사기자들의 자료검색 노하우가 논설위원들이 명칼럼을 쓰는데 있어서 큰 도움이 되고 있는 것이다.

 

필자가 문화일보에서 칼럼을 쓰기 시작한 게 이제 반년이 다 되어간다. 지난 5월초 어느 날 관훈클럽 총무를 맡고 있는 이용식 문화일보 논설실장으로부터 논설위원실 일을 도와 달라는 요청을 받았다. 당연히 지금까지 해 오던대로 자료검색 업무인 줄 알았다. 그것을 좀 더 많이 해달라는 특별한 부탁인 줄 알았던 것이다. 흔쾌히 "알겠다"고 수락하고 나서 떨어진 첫 번째 업무가 문화일보 오피니언 면에 논설위원들이 돌아가면서 매일 쓰고 있는 ‘오후여담’이라는 칼럼쓰기였다.
순간 기대와 걱정이 교차했다. 취재경력이 거의 없는 조사기자가 자기 신문사 지면에 고정칼럼을 쓴다? 과거 문화일보에는 물론이고 한국의 신문사 전체적으로 볼 때도 처음 있는 일이 아닌가 생각한다. 게다가 고백하건데 글쓰기에 전혀 자신이 없는 필자인지라 적지 않은 고민을 했다. 괜히 신문에 한 번도 실리지도 못하고 챙피만 당하는 게 아닌가 솔직히 걱정이 앞섰다.
먼저 5월과 6월 두 달간은 신문에 게재된다는 전재 하에 매주 월요일 오전에 칼럼을 쓰서 논설실장에게 제출하라는 지시였다. 이와 함께 매일 오후 3시에 열리는 논설위원실 회의에 참석하는 일. 그렇게 두 달 간 습작과정을 거친 후 마침내 7월부터 필자의 기명으로 신문에 나갈 칼럼 게재일 일정표가 나왔다. 두 달간 8차례의 습작들이 한 번도 퇴짜를 맞지 않고 무사히 통과되었다는 사실에 안도하긴 했지만 그럼에도 불구하고 예선을 통과하고 본선무대라는 점에서 부담감을 떨쳐버릴 수가 없었다.
칼럼을 쓰기 시작하면서 중점적으로 다뤄야겠다고 마음먹은 분야는 조사기자로서의 전문성과 직무성을 최대한 살리자는 것이다. 그 중 하나가 빅데이터의 활용이고 도서관 및 저작권 관련 분야다.
2014 브라질월드컵이 열기를 더해갈 무렵이었다. 월드컵 관련 기사 모퉁이에 독일 월드컵 대표팀이 훈련과 경기에서 빅데이터를 잘 활용하여 전승을 기록하고 있다는 기사가 눈에 띄었다. 또한 그 무렵 서울시에서 운영하고 있는 심야버스인 올빼미버스의 노선을 정할 때 빅데이터를 활용했다는 기사를 보면서 월드컵 독일대표팀의 사례와 엮으면 칼럼 소재가 되겠다 싶어 써내려갔다. 그래서 나온 첫 칼럼이 2014년 7월4일 ‘월드컵과 빅데이터’였다. 빅데이터는 국가의 새로운 성장동력이며 기업은 물론이고 개인들도 빅데이터를 적극 활용하자는 내용이다. 특히 빅데이터 활용이야말로 조사기자들에겐 더욱 중요함은 두말할 필요가 없을 것이다.

 

월드컵과 빅데이터
박현수/조사팀장: 브라질 월드컵 8강 경기가 이번 주말부터 시작된다. 아쉽게도 한국은 예선에서 탈락했지만 축구팬들은 여전히 밤을 새우며 8강팀의 기량과 승부에 환호할 것이다. 그런데 한국팀 성적을 정확하게 예측한 곳이 있다. 점쟁이 문어나 점쟁이 판다가 아니라 ‘블룸버그스포츠’다. 스포츠산업에 빅 데이터를 분석해 결과를 제공하는 이 회사는 월드컵 개막을 앞두고 10만 번의 시뮬레이션을 돌린 결과 한국이 1무2패로 16강 진출에 실패할 것으로 전망했었다.‘전차군단’ 독일은 아예 빅 데이터로 무장한 팀이라고 할 정도다. 독일 선수들은 훈련이나 경기를 할 때 무릎이나 어깨 등에 센서를 부착한다. 이 센서는 선수들의 움직임 하나하나를 읽어 분당 1만5000건에 달하는 빅 데이터틀 수집해 분석한 뒤 선수들의 장·단점을 파악해 실전에 활용된다. 이쯤되면 ‘축구는 과학’이라는 말이 나올 법하다. 독일은 조별 예선에서 우승후보 포르투갈을 4대 0으로 완파하는 등 승승장구해 5일 프랑스와 4강 진출을 위한 결전을 앞두고 있다.우리나라에도 빅 데이터를 활용한 성공 사례가 있다. 서울시는 지하철과 버스가 끊기는 밤 12시부터 다음날 오전 5시까지 서울 시내를 누비며 시민들을 실어나르는 ‘올빼미버스’를 운영해 대박 상품을 만들어냈다. 시민들이 이용하는 심야택시 승·하차 데이터 500만 건과 KT의 통화 데이터 30억 건을 노선별로 분석해 심야버스 운영에 활용했다. 빅 데이터를 활용해 시민들의 편익을 극대화한 것이다. 빅 데이터는 컴퓨터 전문가들의 영역이 아니라 이미 우리 생활에 이처럼 깊숙이 들어와 있고 광범위하게 활용되기 시작했다. 고객의 구매 패턴이나 수집된 개인정보를 바탕으로 마케팅에 활용하는 수준은 이젠 옛날 얘기다. 방대한 데이터를 분석해 새로운 가치를 창조해내는 빅 데이터의 활용분야는 무궁무진하다. 월드컵 대표팀이 홍명보 감독의 경험과 판단에 더해 독일처럼 빅 데이터를 활용했더라면 좀 더 나은 성적을 올렸을지 모른다. 해상재난 안전 관련 빅 데이터를 활용했더라면 세월호 같은 참사를 예방하거나 피해를 줄일 수도 있었을 것이다. 대한민국은 세계적인 정보기술(IT) 강국이다. 여기에 세계 최고의 빅 데이터 기술을 부가할 수 있다면 또 한 단계 도약할 수 있다. 정부와 유관 기관, 기업은 빅 데이터에 관심을 가져 경쟁력을 높이고 국민의 삶의 질을 높일 수 있는 방안을 찾아야 할 시점이다.

 

두 번째 칼럼은 도서관 관련 내용이었다. 칼럼이 나가는 일주일 전부터 아이템을 찾던 중 서울시가 운영하고 있는 서울도서관이 국립중앙도서관을 비롯, 전국에 있는 공공도서관들끼리 서로 책을 빌려주는 ‘책바다’ 서비스를 시작했다는 뉴스가 글을 쓰게 된 동기가 됐다. 이용자가 원하는 자료가 거주지역 내 도서관에 없는 경우 책바다를 이용하면 다른 지역 도서관을 통해 2∼3일 안에 택배로 받아볼 수 있는 서비스로 이런 제도가 있는 줄을 처음 알았기 때문에 독자들에게 좋은 정보가 될 것이라고 생각한 게 글을 쓰게 된 배경이었다.
이즈음 나온 도서관 관련 반가운 소식 중의 하나는 국내 주요 출판사 30여 곳과 학자·교수 등 개인 20여 명, 국립중앙박물관 등 140여 기관이 50여만 권을 기증해서 도서관을 만들었다는 것이다. 개관 한 달째를 맞는 경기 파주 출판단지 내에 있는 도서관 ‘지혜의 숲’이 1년 365일 24시간 문을 여는 새로운 개념의 도서관으로 주목받고 있다는 뉴스였다. 도심과 지리적 접근성이 떨어지는 한계가 있지만, 주말엔 광화문 교보문고를 방불케 할 정도로 독서 인파로 붐빈다는 것이다. 그래서 이 두 가지 기사를 엮어서 나온 것이 7월 16일자 ‘책 안 읽는 사회’였다.

 

책 안읽는 사회
박현수/조사팀장: 의외로 여름을 ‘독서의 계절’로 삼고 있는 사람이 많다. 모아뒀던 책을 여름 휴가철에 읽는 게 습관처럼 돼 있는 이도 적지않다. 언론은 휴가 때 읽을 책을 소개하고, 대통령은 무슨 책을 준비했다는 등의 기사도 나온다. 그러나 올 여름은 주요 출판사들의 최근 악전고투가 말해주듯 ‘잔인한 독서의 계절’이 될 우려도 없지 않다. 문화체육관광부의 ‘2013년 국민독서실태 조사’ 결과 성인 1인당 연간 독서량이 9.2권(월 0.76권)이다. 성인 10명 중 3명은 1년 동안 단 한 권의 책도 읽지 않는 것으로 조사됐다. 스마트폰 사용이 독서량 감소 이유 중 하나로 꼽히고 있다. 2002년 8000여 곳에 달했던 동네 서점도 2014년 1000여 곳밖에 남지 않았다. 경제협력개발기구(OECD) 34개 회원국 가운데 우리나라의 스마트폰 보급률은 압도적으로 1위인 반면 1인당 독서량은 꼴찌다. 유엔 191개 회원국 중에서도 166위에 머물렀다.책 읽는 문화를 조성하겠다고 정부가 나섰다. 대통령 소속 도서관정보정책위원회가 추진 중인 제2차 도서관발전종합계획(2014~2018년)에 따르면 2018년까지 공공도서관을 현재의 828곳에서 1100곳으로 늘린다고 한다. 또 도서관 기능과 역할을 확대하기 위해 장서와 전문 인력을 지속적으로 확대하겠다고 한다. 이즈음 국내 주요 출판사 30여 곳, 학자·교수 등 개인 20여 명과 국립중앙박물관 등 140여 기관이 50여만 권을 기증해서 도서관을 만들었다. 19일로 개관 한 달째를 맞는 경기 파주 출판단지 내에 있는 도서관 ‘지혜의 숲’은 1년 365일 24시간 문을 여는 새로운 개념의 도서관으로 주목받고 있다. 도심과 지리적 접근성이 떨어지는 한계가 있지만, 주말엔 광화문 교보문고를 방불케 할 정도로 독서 인파로 붐빈다니 반가운 소식이다.서울도서관도 이 달부터 국립중앙도서관을 비롯, 전국에 있는 공공도서관들끼리 서로 책을 빌려주는 ‘책바다’ 서비스를 시작했다. 이용자가 원하는 자료가 거주지역 내 도서관에 없는 경우 책바다를 이용하면 다른 지역 도서관을 통해 2∼3일 안에 택배로 받아볼 수 있다. 이렇게 정부와 민간단체가 독서 인구 확대를 위해 애쓰고 있다. 하지만 도서관 확충과 같은 하드웨어 강화만으로는 지금처럼 스마트폰에 빠져 책과 점점 멀어져 가는 세태를 바꿀 수 있을 것 같지는 않다. 사회 전반에서 책읽기 문화 활성화를 위한 소프트웨어적 접근이 더욱 필요하다.

 

이어진 칼럼 소재는 저작권이었다. 때마침 최근 서울중앙지검이 언론 기사를 개인 홈페이지 등에 무단 게재한 혐의로 시민단체인 법률소비자연맹에 의해 고발된 국회의원 270명을 모두 ‘혐의 없음’으로 매듭지었다는 보도가 나왔다. 검찰이 무혐의 처리한 근거는 다음의 다섯 가지였다. ① 의원들의 기사 이용이 저작물의 통상적인 이용 방법과 충돌하지 않는다. ② 언론사 이익을 해치지 않는다. ③ 홍보 등 비영리적인 목적이다. ④ 출처를 명시했다. ⑤ 의원 홈페이지가 언론사 홈페이지와 경쟁 관계에 있다고 보기 어렵다. 그러나 이는 모두 검찰의 명백한 오판이라는 것을 지적했다. 이유는 다음과 같다. 한국온라인신문협회가 2005년 제정한 ‘디지털뉴스 이용규칙’에서 합법적인 기사 이용방법은 해당 언론사 홈페이지로의 ‘링크’방식이다. 또 비영리이고 출처를 밝히더라도 저작권자의 동의를 반드시 받아야 한다. 아울러 기사 이용은 저작권료를 언론사에 지불해야 하기 때문에 무단전재는 언론사 이익에 반한다. 특히 국회의원과 언론사 홈페이지가 경쟁관계가 아니기 때문에 저작권법 위배가 아니라는 것은 어불성설이다.
그러나 일부 논설위원들이 칼럼소재로 검찰과 국회의원을 비판하는 한편 민감한 분야인 저작권을 다룬다는 점에서 적절치 않다는 게재 불가 의견이 있었다. 그럼에도 불구하고 논설실장을 설득해 신문에 실었다. 8월 7일 ‘기사 도둑질’은 그렇게 해서 탄생했다. 아니나 다를까 같은 날 한국신문협회에서 같은 사안을 두고 성명서를 발표했다. 필자가 전날 출고한 기사이니만큼 논설실장이나 다른 논설위원들도 한국신문협회 성명을 보고서 쓴 글이 아니라는 것을 알고 있었던 만큼 저작권업무를 맡고 있는 조사기자로서의 지적이 매우 적절했다는 자부심이 생긴 것은 물론이었다.

 

기사 도둑질
박현수/조사팀장: ‘책 도둑은 무죄’라는 말이 있다. 돈이 없어 배우지 못하던 시절, 그렇게라도 공부하겠다는 의지를 가상하게 생각했기 때문이다. 그러나 책 도둑도 엄연한 유죄다. 더욱이 이제 그런 시대도 아니다. 서점에서 책을 훔쳐 중고 책방에 팔다가 처벌받은 예도 수두룩하다. 책 도둑에 대한 인식은 바로잡혀 가고 있지만 ‘기사(記事) 도둑’의 경우엔 오히려 거꾸로 가고 있는 것 같다.학교에서 교사가 신문사 허락을 받지 않고 사설을 학생들에게 배포해 수업했다면 저작권법을 어긴 것일까? 기사를 교육 목적으로 수업 시간에 이용할 경우 저작권법 예외 조항(저작권법 제28조)에 해당된다. 그러나 학교가 홍보용으로 홈페이지에 무단전재했다면, 엄연한 저작권법 위배다.최근 서울중앙지검이 언론 기사를 개인 홈페이지 등에 무단 게재한 혐의로 시민단체인 법률소비자연맹에 의해 고발된 국회의원 270명을 모두 ‘혐의 없음’으로 매듭지었다. 근거는 다섯 가지다. ① 의원들의 기사 이용이 저작물의 통상적인 이용 방법과 충돌하지 않는다. ② 언론사 이익을 해치지 않는다. ③ 홍보 등 비영리적인 목적이다. ④ 출처를 명시했다. ⑤ 의원 홈페이지가 언론사 홈페이지와 경쟁 관계에 있다고 보기 어렵다. 그러나 이는 모두 오판이다. 이유는 다음과 같다. 한국온라인신문협회가 2005년 제정한 ‘디지털뉴스 이용규칙’에서 합법적인 기사 이용방법은 해당 언론사 홈페이지로의 ‘링크’방식이다. 또 비영리이고 출처를 밝히더라도 저작권자의 동의를 반드시 받아야 한다. 아울러 기사 이용은 경우에 따라 저작권료를 언론사에 지불해야 하기 때문에 무단전재는 언론사 이익에 반한다. 특히 국회의원과 언론사 홈페이지가 경쟁관계가 아니기 때문에 저작권법 위배가 아니라면, 일본 아베 총리가 한국 언론에 난 기사를 출처를 밝히고 무단전재했더라도 혐의가 없다고 할 수 있을까. 국회의원들이자신들이 만든 법을 스스로 무시한 것은 유감이다. 특히 검찰이 자의적 잣대로 무혐의 처분을 내린 것은 더욱 유감이다. 언론사는 자사 기사를 적절하게 제공하는 시스템을 갖추고 있다. 공익 목적이면 당연히 저렴하게 또는 무료로 이용하게 할 수도 있다. ‘링크’와 같은 합법적인 장치를 통해 얼마든지 이용이 가능하다. 기사 도둑도, 좀도둑도, 생계형 도둑도 정상 참작이 있을 수 있을 뿐 모두 도둑이긴 마찬가지다. 이번 사례가 저작권의 중요성과 합법적인 이용에 대해 새롭게 인식하는 계기가 되길 기대한다.

 

이런 과정들을 거쳐 지금까지 지면에 실린 필자 기명 칼럼은 모두 13건이다. 하나하나 돌이켜보면 모두 필자의 고민과 고통들이 배어 있는 글들이다. 산모가 새 생명을 탄생시킬 때의 아픔과는 비교가 안 되겠지만 적어도 필자는 그에 못지 않은 고통들 속에서 한 편 한 편 세상에 얼굴을 내민 내 새끼 같은 존재들이다.
반년을 써오면서 우려했던 퇴짜는 한 번도 없었고, 별다른 지적사항도 없었던 점을 들어 연착륙했다고 이젠 평가를 할 수 있을 것 같다. 연착륙 배경에는 필자가 조사기자로서 그동안의 자료검색 노하우 등이 몸에 습관처럼 밴 영향이 컸다고 할 수 있다.
언제까지 칼럼을 쓸 수 있을지는 모르겠다. 정년을 채우고 또 그때까지 계속해서 쓴다면 모두 200건이 넘는다. 만약 그렇게 된다면 그간 글들을 모두 모아 책으로 엮어 한국조사기자협회 회원들을 초청해 출판기념회를 열고 싶다. 그 날이 오기를 간절히 기도해야겠다. 늘 겸손하면서 배우는 자세로. 이렇게 칼럼을 쓸 수 있는 기회를 제공해준 회사와 이용식 논설위원실장에게 감사하면서.

 

 

저작자 표시
신고
블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다