※ 이글은 한국조사기자협회가 연간지로 발행하는 2014년 '조사연구' 제26호에 실린 글임을 알립니다.

 

데이터 저널리즘에 대한 소고

신동희 성균관대 인터랙션사이언스 학과 교수(학과장, BK21사업단장)

 

 

데이터 저널리즘에 대한 인식

 

빅데이터의 급부상과 더불어 데이터 저널리즘이 화두다. 빅데이터가 전방위적으로 사회 거의 모든 분야에 적용되고 있는 가운데 언론분야에 접목된 것이 데이터 저널리즘이라 할 수 있다. 정형, 비정형 데이터 등 거대 데이터를 수집하여 그를 기반으로 데이터를 분석하고 현상과 사건을 좀 더 심층적이고 과학적으로 분석하는 것이 데이터 저널리즘이다. 이런 다소 틀에 박힌 정의에도 불구하고, 사실 데이터 저널리즘을 정확히 정의하고 범위를 설정하기는 쉽지 않다. 왜냐하면 데이터 저널리즘이 하나의 동향이나 보도행태인가, 하나의 모델인가, 아니면 일정한 분석기술 인프라를 말하는 것인가, 혹은 비주얼 기사 생산 양식을 말하는 것인가 논의가 분분하기 때문이다. 이는 일상어가 되어버린 빅데이터처럼, 빅데이터가 실제로 무엇을 의미하는지에 대한 여러 이견이 있는 것과 관련이 있다. 빅데이터가 데이터 자체를 말하는 것인가, 일정한 분석활동을 의미하는 것인가, 경영철학이나 전략을 말하는 것인가 등에 관해 끊임없는 논란이 있는 것과 비슷하다. 그런데 빅데이터에 대한 모호성은 그렇다 치더라도 데이터 저널리즘에 대한 막연함은 더 심각하며 문제가 있는 것 같다. 한국뿐만 아니라 전 세계적으로 언론사의 위기가 공통적으로 엄습하고 있는 상황에서 언론사들은 데이터 저널리즘을 블루오션을 넘어선 강력한 구원투수로 인식하고 있다. 국내에서는 데이터 저널리즘에 대한 막연한 기대 내지는 모호함으로 정확히 무엇을 어떻게 해야 하는지에 대한 실천적 성찰이 부족하다.

 

필자가 2013년 한국언론진흥재단의 연구지원을 받아 국내 데이터 저널리즘의 현황을 조사한 바에 따르면 데이터 저널리즘에 대한 전반적 인식이 부족하다는 것을 알 수 있다. 국내 데이터 저널리즘에 관심이 있거나, 어떤 형태로든 관련이 있는 언론 종사자들을 조사한 바에 따르면 응답자의 80%이상이 데이터 저널리즘을 텍스트 기사 작성을 기반으로 하는 전통적 저널리즘 행위의 보조적인 수단으로써 인식하고 있다. 또한 대부분의 응답자 (50%이상)가 데이터 저널리즘에 대해 정확히 알지 못하거나, 기사자료에 이미지 혹은 플래쉬(Flash) 등의 그래픽 정보를 연결하는 것 (약 40%), 통계 수치나 서베이 조사결과를 같이 보여주는 것 (약 40%) 등으로 인식하고 있었다. 대체로 데이터 저널리즘을 하나의 결과물(outcome)으로 인식하는 경우가 많아 일정한 데이터베이스나 디지털화된 보도도구 등의 수단적 의미로 받아들이는 경우가 많았다 (응답자의 약 50%이상). 즉 국내 언론종사자의 데이터 저널리즘에 대한 인식수준은 일반적 대중들과 큰 차이가 없고, 대체로 초보 수준에 머물고 있다고 할 수 있다.

 

인식의 한계에서 한가지 주목할 만한 점은 국내 언론사들은 데이터 저널리즘이 이전에 다른 시도들 (예를 들면 온라인 저널리즘, 컴퓨터 활용 취재)등과 전혀 다른 것이라 생각하는 오해도 많다. 이는 마치 산업계에서 빅데이터를 이전 현상(예를 들어 데이터 마이닝, 고객정보시스템-CRM)등과 전혀 다른 새로운 혁신(revolution)적인 것이라 생각하는 것과도 연관성이 있다. 실제로 빅데이터나 데이터 저널리즘 공히 이전의 현상이나 시도와 전혀 다른 것이 아닌 기술의 진보에 따른 다소 진화된 (evolution)형태라는 것이다. 이렇게 의도적이건 몰라서 그러던 빅데이터나 데이터 저널리즘을 전혀 새로운 패러다임으로 인식하려는 것은 현재 어려운 경제나 언론 상황을 획기적으로 타계해 줄 게임체인저 (Game Changer)로서 받아들이고 싶은 자기 실현적 예언(Self-fulfilling prophecy)과 관련이 있을 것이다. 데이터 저널리즘은 이전의 CAR, 온라인 저널리즘, 컴퓨테이셔널 저널리즘 등과 다른 형태가 아니며 그 핵심적 접근에서는 일맥상통한 것이다. 기술의 진보에 따라 어떻게 기술을 응용하느냐가 바뀌었을 뿐이다. 데이터 저널리즘은 일정한 결과물이 아닌 보도의 객관성과 과학성을 향상시키고 독자대중과의 소통플랫폼을 확립하는 하나의 과정이다. 최근에는 로봇저널리즘, 알고리즘 저널리즘 등이 거론되고 있는데, 이들도 데이터 저널리즘과 크게 다른 것이 아니다.

 

국내 데이터 저널리즘의 시작

 

국내에선 데이터 저널리즘을 강화해야 한다는 여러 지적이 나왔음에도 언론사들은 데이터 저널리즘을 텍스트 기사 작성을 기반으로 하는 전통적 저널리즘 행위의 보조적인 수단으로 인식하는 경향이 강했다. 과거부터 데이터를 기반으로 하는 보도는 탐사 보도를 위한 방법 중 하나로 여겨졌을 뿐, 저널리즘 영역에서는 데이터를 통한 보도에 크게 관심을 기울이지 않았다. 국내에서 데이터를 이용한 보도를 하려는 움직임이 일어나기 시작한 것은 1990년대 초반부터이다. 그 가운데에서도 제민일보의 ‘4·3은 말한다’ 라는 보도는 한국에서 데이터를 이용한 저널리즘 가운데 가장 오래된 것으로 받아들여진다. 제민일보는 1988년부터 제주 4·3 사건에 대한 객관적인 사실을 밝혀내기 위해 대량의 문헌자료와 증언 자료를 컴퓨터 데이터베이스 프로그램을 만들어 관리했다. 이렇게 구축된 데이터베이스로 수많은 자료를 분석함으로써 데이터 분석 보도의 위력을 실감케 했다. 이들의 보도는 지역사회뿐만 아니라 학계를 놀라게 했으며, 결국 ‘4·3 특별법’을 제정하는 데 큰 역할을 했다. 그 뒤로 신문사들은 자신만의 데이터를 구축해 보도하기 시작했다. 2008년 이후로는 인터넷에 많은 데이터가 축적되면서 인터넷 데이터의 중요성에 관한 목소리가 높아졌다. 인터넷에 있는 데이터를 수집하여 분석하려는 업체 및 기관이 생겨나면서 자연스럽게 신문사들은 그런 기관과 협동하여 보도를 진행하는 경향을 보였다.

 

뉴스룸 자체를 디지털미디어로 전환하는 게 필수

 

여러 신문사에서 데이터를 이용한 보도를 시도했지만, 여전히 한국의 데이터 저널리즘 수준은 자체적인 데이터 저널리즘 팀이 미비하거나 자사가 갖고 있는 기사 자료에 이미지 혹은 플래시(Flash) 등의 그래픽 정보를 연결하는 정도의 걸음마 단계에 머물고 있다. 그뿐만 아니라 제한적인 데이터의 사용, 다양성이 결여된 퍼블리싱(Publishing)의 형태, 사용자 참여와 소통의 부재 등은 국내 데이터 저널리즘의 현재 수준을 가늠하게 해준다. 최근 인포그래픽(Infographic)을 강화하려는 언론사가 늘어났지만, 저널리즘적 성격보다는 디자인과 소프트웨어에 중점을 두는 경향을 보이고 있다.

 

물론 이렇게 될 수밖에 없는 데에는 데이터의 중요성에 대한 인식의 부재도 있지만 정부 및 언론사 자체의 구조적인 문제가 존재하기 때문이다. 데이터 저널리즘에서 분석이 가능한 데이터는 많은 출처에서 수집이 가능하지만, 언론사 내부적으로는 자사에 존재하고 있는 자료와 기자가 일차적으로 수집하고 조사한 자료를 기반으로 삼게 마련이다. 이런 데이터를 원활하게 이용하기 위해선 뉴스룸(Newsroom) 자체를 온전한 디지털미디어로 전환하는 것이 필수적이다. 하지만 국내의 뉴스룸에서 데이터를 관리하는 조사자료부나 데이터베이스부의 역량과 규모는 극히 제한적인 상황이다. 이뿐만 아니라 대부분의 뉴스룸 관련 인력이 노령화되어 디지털 숙련도가 떨어지면서 데이터가 가진 잠재력을 충분히 활용해 데이터 저널리즘을 실현하기는 현실적으로 불가능에 가까워 보인다. 현재의 뉴스룸 환경은 대부분 디지털 기술과 인프라 위에서 펼쳐지는데 조직 내부의 구조와 문화는 현실적으로 이를 뒷받침하지 못하고 있는 것이 아이러니한 상황일 수밖에 없다. 현실적으로 국내 언론사에서 조사부나 조사관련부서를 핵심역량이나 핵심부서로 인식하기 보다 보조적 일로 치부되는 현실이 큰 걸림돌이다.

 

데이터 저널리즘이 실현되기 어려운 이유를 환경 변화를 꺼려하는 언론사들의 책임만으로 돌리기에는 한계점이 많다. 현실적으로, 생존과 직결된 경제적 문제로 인한 새로운 변화에 대한 좌절감이 데이터 저널리즘이 하나의 패러다임으로 자리 잡는 데 가장 큰 장애요인으로 작용하고 있다. 전통적 미디어 기업의 디지털미디어로의 전환은 콘텐츠의 발전과 같은 참신한 시도와 노력을 요구하지만, 생존이라는 문제를 두고 경제적으로 어려움을 겪는 미디어 기업들에게 이 같은 시도는 사치라는 인식이 자리 잡고 있다. 오랜 시간 공을 들여 작성한 기사 하나보다 연예인에 관한 폭로 기사 하나가 사람들에게 더 많은 관심을 끌기 때문에 이익을 창출해야 하는 영리 목적의 기업으로서는 자원을 많이 들여야 하는 데이터 저널리즘과 같은 영역의 보도를 꺼릴 수밖에 없다. 언론사에서 데이터 저널리즘을 정착시키기 위한 노력을 기울이고 있지만, 아직까지 뉴스룸에서 기자와 기술적 지원자들 간의 협업 부족과 새로운 콘텐츠 생성을 위한 투자의 현실적 어려움 때문에 데이터 저널리즘을 실현할 수 있는 의지와 동기가 부족하다고 볼 수 있다. 또한 언론사는 데이터를 얻을 수 있는 정부나 각종 단체와 상호협력과 개방적 정보 플랫폼을 통해 정보를 적극 교류해야 할 필요성이 대두되고 있다. 하지만 디지털 자료를 이미 많이 보관하고 있는 해외와 달리 디지털 자료를 많이 보관하지 못한 국내 상황에선 현재 단계에서 데이터를 정리하는 것이 시급하다.

 

이미 공개가 된 자료라고 하더라도, 대통령 후보의 선거 비용이나 고위 공직자의 재산과 같이 권력 감시에 중요하게 사용될 수 있는 자료는 열람기간이 제한되어 있고, 저장 및 출력이 불가능하며, DB화하기 힘든 이미지 형태의 자료로 이루어져 있어 데이터 저널리즘을 실천하는 데 장애요소로 작용한다. 이러한 데이터가 공개되더라도 서치, 편집할 수 없는 형태로 공개되어 사실상 그 데이터로 분석을 하는 것은 불가능하다. 데이터를 공개함에 있어 컴퓨터가 읽고 수집할 수 있는 데이터 형태 (machine-readable form; 예를 들어 MS Office의 형태, 복사가 불가능한 PDF형태는 무의미함)로 공개함이 바람직하다.

 

데이터 저널리즘의 활성화 방안

 

국내에서는 아직 데이터 저널리즘이 활성화되기에 어려운 조건을 가지고 있다. 조사부나 데이터베이스의 중요성을 간과하는 언론사 구성원들의 인식도 문제이고 데이터에 대한 활발한 공개운용이나 정보공유 문화자체가 형성이 안된 것 등은 구조적 문제이다. 물론 현정부의 정부3.0 프로젝트가 긍정적 견인차 역할을 할 것으로 보이나 탑다운(Top-down)적 드라이브가 어느 정도까지 현실적으로 영향을 미칠지는 미지수이다.

 

데이터 저널리즘의 전문가이자 크라우드 소싱의 주창자인 탠자 아이타머토 (Tanja Aitamurto)는 “데이터 저널리즘의 동향(Trends in Data Journalism)”이라는 보고서에서 현실적 데이터 저널리즘의 수익모델을 제시한 바 있다.

 

1. 프리미엄 모델: 이용자가 더 정교한 인포그래픽을 원하면 요금을 청구한다.
2. 개인, 기업 등이 언제나 이용할 수 있는 상시 데이터 쇼핑몰을 개설한다. 3. 데이터 저널리즘 활동을 통해 배양된 기술을 활용하여 기업이나 기관들에게 유료 데이터 분석 서비스를 제공한다.

 

아이타머토의 제안에 따라 국내 데이터 저널리즘의 구체적 실천전략을 도출해 볼 수 있다.

 

첫째, 데이터를 이용한 유료 부가서비스 및 재판매이다. 미국의 소셜미디어 회사들은, 개인들이 가상공간상에서 행한 발언(utterances)들을 모아서 판매하는 사업을 벌이고 있다. 트위터는 개인이 한 달에 1천 달러를 내면 지난 2년간의 트윗을 모은 데이터를 위치정보를 포함해 판매하고 있다. 또한 트위터는 그닙(Gnip)이라는 판매대행사를 통해 전체 트윗의 일부, 특정 계정을 포함한 트윗과 리트윗 등도 판매하고 있으며, 미디어쉬프트(Mediashift)라는 회사를 통해서는 트윗을 40여개 카테고리로 분류한 데이터를 판매한다. 사실 미디어 기업들은 데이터 저널리즘에 사용된 데이터를 판매하기보다 IRE 웹사이트 같은 곳을 통하여 공익적 목적으로 무상 공개하는데 더 익숙한 것 같다. 그런데, 프라이버시 침해를 범하지 않는 범위 내에서, 다시 말해 특정 개인을 지목할 수 있는 데이터를 공개하거나 판매하지 않는 범위 내에서, 미디어 기업들은 자신들이 생산하는 탐사보도 기사에 활용된 데이터를 어떻게 부가가치화 할 수 있는지 고민해야할 단계에 이른 것으로 보인다. 물론 데이터를 상업화하려 한다면, 원 정보를 제공한 기관의 허락도 있어야할 것이고, 만약 원 정보가 정부나 공공기관에서 제공된 것이었다면 행정서비스 용도로 제한되어 있는 데이터 활용의 제약도 고려해야할 것이다.

 

둘째, 언론사는 데이터를 이용한 부대사업 진출을 생각해 볼 수 있다. 미디어 기업이 자신이 생산한 뉴스기사를 내보내는 채널은 이른바 원소스 멀티유스(one source multi-use)를 통해 점점 더 다양해지고 있다. 가장 두드러진 예는 스마트폰의 앱을 들 수 있다. 최근에는 스마트폰의 폭발적인 보급에 힘입어 iOS나 android OS에 맞게 만들어진 개인화된 뉴스앱이 널리 보급되고 있다. 이러한 앱들은 복수의 매체로부터 뉴스를 제공하기 때문에 수용자의 구미와 니드(need)에 부합하는 서비스를 제공할 가능성이 높아진다. 그러나 포털뉴스 앱보다 훨씬 더 사용자 편의에 부합하는 앱들도 많이 나와 있다. 이러한 뉴스앱은 아직 커다란 상업적인 이익을 창출하지는 못하고 있지만 데이터 저널리즘에 기반을 둔 보도가 널리 확산될 경우, 데이터를 이용한 부대사업에 새로운 지평이 열리게 된다. 데이터 저널리즘에 기반을 둔 뉴스는, 뉴스 자체가 하나의 독립적인 다큐멘터리나 시사 프로그램에 준하는 가치를 갖게 될 것이므로, 이러한 뉴스를 패키지화하여 유료 온라인 뉴스 서비스를 통해 판매하거나 구독자를 확보하는 과정에서 중요한 인센티브(incentives)로 기능할 가능성이 커 보인다.

 

세번째, 데이터 저널리즘을 이용한 광고 플랫폼 개발도 매력적 영역이다. 데이터 저널리즘에서 데이터의 역할은 뉴스 콘텐츠를 구성하는 중요한 요소(component)가 된다는 데 있다. 그런데 다른 매체가 쉽게 따라잡을 수 없는 데이터 저널리즘 보도, 예를 들어 장기 데이터를 양적 분석과 질적 분석을 결합하여 취재한 기사의 경우 그 자체가 광고주들을 유인할 수 있게 된다. 이런 이유로 가디언(Guardian)과 같은 유명 매체나 CNN, 뉴욕타임즈(New York Times) 등이 데이터 저널리즘만을 따로 모은 섹션이나 빅데이터 분석에 기반을 둔 섹션을 경쟁적으로 만들고 있다고 볼 수 있다. 연재 기사나 탐사보도에 별도의 스폰서가 따라붙는 전통이 강한 서구의 미디어 산업에서는 데이터 저널리즘에 기반을 둔 탐사보도나 특집 기사들 자체가 광고 플랫폼 내지는 광고주 유인 장치로서 기능하는 것이 아주 자연스럽다.

 

네번째, 데이터를 이용한 컨설팅 등 부가 지식산업 개발도 고려해야 한다. 가트너(Gartner)와 같은 비즈니스 정보회사나 어센츄어(Accenture)와 같은 컨설팅 업체들은 엄청난 돈을 들여 자신들만의 데이터베이스를 구축하고 있으며, 이런 데이터베이스는 자사의 핵심역량이 되고 있다. 그러한 고급의 데이터베이스 자체가 자사의 공신력을 높여주고, 또 각 회사들의 공신력으로 데이터의 신뢰도가 높아지는 선순환구조를 가지고 있다. 언론이나 컨설팅업 모두 훌륭한 정보의 존안(存案), 분석, 가공, 저장 없이는 경쟁업체보다 더 나은 기사나 컨설팅을 제공할 수 없다는 공통점이 있다.

 

마지막으로 탐사보도(investigative reporting)는 데이터 저널리즘에 있어서 가장 기본적인 방법이자 저널리즘의 본질에 근접한 방법이 될 것이다. 특히 뉴스타파나 뉴욕타임즈의 크라우드 소싱처럼 언론수용자의 참여적 활동을 촉진하여 뉴스콘텐츠 자체를 매우 풍부하게 할 수 있다. CNN이 제공하는 iReport는 시청자가 직접 취재한 영상보도물을 CNN이 선별하여 방영하는 체계로서, 뉴스제작의 전 과정에 시청자의 참여를 가능하게 한 예처럼 독자의 참여의 폭과 형태를 다양하게 함으로써 데이터 저널리즘을 응용할 수 있다.

 

최근의 동향: 알고리즘 저널리즘

 

데이터 저널리즘에 이어 최근에는 로봇 저널리즘 혹은 알고리즘 저널리즘이 회자되고 있다.
구조화된 저널리즘, 라이브 블로깅, 드론 저널리즘, 로봇 저널리즘 등으로 다양하게 불리는데 결국 보도 기사를 자동으로 생성하는 소프트웨어에 기반을 둔 저널리즘을 말한다. 로봇 저널리즘에서 로봇기자가 ‘자동기사작성’ 알고리즘을 통해 기사를 생산해 낸다. 통계내기 쉬운 데이터, 예컨대 스포츠‧날씨‧증권 정보를 수집‧분석해 기사형 문장으로 표현한다. 즉 로봇 기자라고 하여 로봇이 돌아다니면서 취재하고 기사를 쓰는 것이 아니라 알고리즘에 따라 분석하는 것을 말한다. 로봇기자는 수집된 데이터에서 가치 있는 뉴스거리를 찾아 기사의 핵심까지 잡는다. 설정된 논조에 따라 알고리즘은 뉘앙스가 다른 단어로도 바꿀 수도 있다. 기사 문장은 인간이 작성했던 기존 기사들을 최소단위로 분석해 도식화한다. 도식화 된 문장에 정보를 입력하면 사람 손을 거치지 않은 기사가 곧바로 독자에게 출고된다.

 

알고리즘 저널리즘은 비단 기사 작성에 그치지 않는다. 가디언은 2013년 11월 신문을 알고리즘 편집으로 생산하는 프로젝트를 시작했다. 맞춤형 신문을 제작하는 벤처기업 ‘뉴스페이퍼클럽’이 가디언과 손을 잡았다. 이들은 더롱굿리드, ‘긴 읽을거리’란 뜻을 지닌 타블로이드판 주간지를 찍었다. 가디언이 공개한 인기 기사를 취사선택해 24쪽 분량의 타블로이드판으로 만들었다. 기사를 고르고 배치하는 일은 로봇 몫이다. 가디언이 개발한 알고리즘 덩어리인 이 로봇은 전체 가디언 기사 가운데 길이, 주제, 댓글, 소셜미디어 공유 횟수, 독자 반응 등을 분석해 상위 1% 기사만 정리해낸다. 로봇기자는 사건의 맥락을 짚어내기 어렵고 기사작성 과정에 인간성과 판별력이 거의 없기 때문에 현재로선 빅 데이터를 활용한 스포츠‧날씨‧금융 분야의 기사작성 외에는 활용범위가 제한적이다. 하지만 기사가 곧 상품인 미디어시장에서 생산속도와 생산량의 압도적 우위를 갖고 있는 알고리즘 저널리즘의 등장은 로봇의 지식노동 대체와 미디어상품의 대량생산 측면에서 시사점이 크다. 학습효과가 있는 로봇은 장기적으로 전 세계 지식노동자에게 위협으로 다가올 것이다.

 

아무리 분석기술이 좋아도 로봇 저널리즘은 인간 저널리즘을 대체할 수는 없다. 취재와 보도, 그리고 이에 대한 평가는 아직은 사람으로서 저널리스트가 실행할 수밖에 없다. 로봇이 이뤄내는 저널리즘의 실행은 그저 ‘신기함’일 뿐, 완벽하게 가능한 일이 아니다. 저널리즘 영역에서는 로봇 자체도 편향될 수밖에 없기 때문이다. 특정세력의 이해관계에 맞게 알고리즘이 설계될 경우 객관을 가장한 로봇 기사들이 수십만 건 쏟아지며 여론 조작에 나설 가능성도 있다.

 

결국 데이터 저널리즘이든 로봇저널리즘이든 기자라는 사람이 전 과정에서 조율하며 결정해야 하고 저널리즘 본연의 가치를 지켜내는 수단이라는 점은 중요하다. 로봇이 생산하는 기사이던 데이터그래픽 기사이던 그것을 읽는 것은 독자라는 사람이고 그 사람은 특정한 사회맥락 속에서 존재하기 때문이다. 맥락과 떨어진 데이터와 인간을 이해하지 못하는 로봇은 무슨 의미가 있겠는가?



 

블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다