※ 이글은 한국조사기자협회가 연간지로 발행하는 2014년 '조사연구' 제26호에 실린 글임을 알립니다.

 

빅데이터와 도서관

(송민 연세대학교 문헌정보학과 교수)


목차

 

1. 빅데이터, 무엇인가?
1.1 빅데이터 개괄 및 정의
1.2 빅데이터 분석의 목적과 필요성
1.3 빅데이터 애널리틱스
2. 빅데이터의 기술 및 활용
2.1 빅데이터의 기술
2.2 빅데이터 활용 사례
3. 도서관에서의 빅데이터 활용
3.1 해외 도서관의 정보화 정책 현황
3.2 도서관의 빅데이터 활용
3.3 국회도서관의 빅데이터 활용
4. 연구성과
5. 참고문헌

 


1. 빅데이터, 무엇인가?

1.1 빅데이터 개괄 및 정의

그림. 빅데이터 개괄- 데이터의 증가 현상

 

McKinsey(2011)에 따르면 매달 300억개의 콘텐츠가 페이스북에서 공유되고, 전 세계에서 데이터가 매년 40%씩 증가하고 있다[1]. 또한 이전 정보가 책이나 문서형태로 존재했다면 지금은 정보의 디지털화로 인해 정보가 기하급수적으로 많아지는 Zeta-Byte 시대(표 1 참조)로 도래했다. 한 예로 2009년의 경우 world wide web의 전체 데이터 양이 500Exabytes로 측정됐다. 이는 Zettabyte의 절반 수준이지만 2012년 전 세계 데이터 양이 2.7Zettabytes로 측정됐다. 이는 2011년 보다 48% 증가한 수준으로 데이터의 양이 기하급수적으로 급증하고 있음을 보여준다. 또한 정보 양의 증가에 따라 정보 용량이 확대가 됐다. 인터넷 상에 존재하는 5ZB의 정보 용량은 2.5경(25×1015)에 해당한다. 이런 방대한 정보의 양에서 인터넷을 통해 원하는 내용을 검색하려면 2.5경의 경우의 수를 가진 검색엔진 필요하게 됐다.
문헌정보학 측면에서 볼 때 역시 빅데이터 시대에 영향을 받고 있다. 이에 따른 사례는 다음과 같다. 최근 미 의회 도서관 자료를 디지털화하면서 생산된 데이터양이 12000 PB이 됐다. 위키피디아 영문 텍스트 용량은 7.8GB로 압축을 풀면 34.8GB이고, 즉 이를 문서단위로 처리할 경우 300만개가 존재한다. 이처럼 대용량의 데이터가 생산되는 빅데이터의 시대로 진입했다.

 

표1. 데이터 단위 및 용량

 

일반적으로 빅데이터는 기존 DB 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서 대량의 혹은 다양한 유형의 실시간 데이터 집합을 말한다. 스마트 단말기 및 소셜미디어 등의 다양한 정보채널 등장으로 생산 및 유통되는 정보의 양이 기하급수적으로 증가하면서 빅데이터가 등장했다. 빅데이터의 분석은 시간, 공간, 그 외 조건들의 변화에 따른 빅데이터 분포와 데이터 간의 상호 관계를 다양한 관점으로 조망함으로서 의미있는 패턴을 발견하고 세상을 이해해 가는 분석 과정을 말한다. 빅데이터가 기존의 일반 데이터 처리와 다른 점은 데이터 처리(processing)의 복잡도가 높으며 처리해야 할 데이터양이 방대하고 비정형 데이터의 비중이 높다는 것이다. 또한 데이터의 처리 및 분석의 유연성이 높으며 동시에 처리해야 하는 데이터의 양이 적다는 것을 언급할 수 있다. 이는 즉 데이터의 동시 처리량이 적다보니 실시간 처리가 보장되어야 하는 기존 데이터 분석에는 이에 대한 부적합한 면이 존재한다.
그림2. 빅데이터의 특징 3V + 1v


빅데이터의 정의는 위와 같지만 빅데이터를 규정하는데 있어 빅데이터의 특징은 다음의 <그림 2>와 같이 “3v +1v”로 정의 내려질 수 있다. 이 네 가지의 특징의 수준을 만족할 때 빅데이터라고 정의되어 질 수 있다. (1) Volume은 규모라는 뜻으로 데이터가 빅데이터라고 언급할 수 있으려면 데이터의 크기가 커야 한다. 데이터 규모를 구분 짓기는 어렵지만 대략 테라바이트 이상이 될 때 빅데이터라고 말할 수 있다[2]. (2) ‘Velocity’는 속도라는 뜻으로 데이터가 실시간으로 움직이는 속도가 빠르고 실시간 정보를 획득할 수 있는 속도가 빠를 때 빅데이터라고 특징지을 수 있다[2]. (3) ‘Variety’는 다양성이란 뜻으로 단순히 빅데이터는 규모만 커서는 빅데이터가 될 수 없다. 이런 이유로 빅데이터는 방대한 데이터 속에서 분석해야 할 데이터의 형태가 다양해야 한다. 예를 들어 빅데이터의 경우 기존의 정형화된 데이터가 아닌 분석을 다양하게 할 수 있는 비정형데이터를 의미한다.
그러나 최근 1V가 등장하게 되었는데 이는 Value를 뜻한다. 단순히 빅데이터가 대량의 혹은 다양한 유형의 실시간 데이터 집합을 뜻하는 것이 아니라 그 데이터는 분석에 있어 가치가 있어야 하고 또한 분석을 통해 새로운 정보 혹은 유의미한 정보를 만들어 낼 수 있는 조건을 갖춰야하기 때문에 데이터가 가치(value)가 있을 때 빅데이터라고 특징지을 수 있다.

 

1.2 빅데이터 분석의 목적과 필요성

 

빅데이터의 일반적인 목적은 방대한 데이터 속에서 다양한 가치에 대한 인식을 제고하며 효율적인 빅데이터 분석을 통해 공공정책의 재발굴, 정책 결정 및 추진전략의 방향성 수립 등에 올바르게 적용할 수 있다는 것이다.
빅데이터의 분석이 필요한 이유는 공공 부문에서의 빅데이터 분석과 활용에 대한 수요가 크게 증가하면서 국가 안전 및 위험관리, 치안, 의료, 교육, 복지, 환경 등 사회 전반에 걸쳐 빅데이터의 활용 가능성이 높아지고 실제 수요가 크게 증가하기 때문이다. 그러나 빅데이터는 그 분석과 활용의 범위가 넓고 이해가 어려우며 데이터 처리에 비용의 문제가 존재하기 때문에, 실제 적용을 위해서는 다양한 분야에 대한 전문적인 지식을 필요로 하며 효율적인 데이터 분석이 요구된다.

 

1.3 빅데이터 애널리틱스(Big Data Analytics)

 

빅데이터의 시대가 오면서 방대한 양의 데이터를 다양한 방식으로 데이터를 수집할 수 있게 됐다. 그러나 그 많은 데이터에서 어떻게 의미 있는 분석을 할 것인지가 중요한 문제로 제기되고 있다. 이에 따라 빅데이터 분석을 통해 데이터에서 의미를 찾아 지식이나 지혜로 발전시킬 수 있는 애널리틱스의 역할이 증대되기 시작했다[2].

 

그림3. 과거 데이터 분석 방법

 

빅데이터의 분석은 과거 데이터 분석 방법과 차이가 있다. 과거 데이터의 분석 방법은 데이터를 수집한 후에 수집한 시점으로부터 이전의 과거 트렌드를 분석하고 앞으로의 현상을 유추하는 방식이었다. 과거의 데이터 분석 방법은 데이터 취합에 필요한 양이 부족하다는 단점이 존재했고, 데이터가 생성된 시점과 데이터를 취합해 분석할 때 시점의 시차가 존재하기에 실시간 파악이 불가능했다. 즉 과거에 어떤 일이 있었는지에 대해서만 판별할 수 있었다.

 

그림4. 빅데이터 분석 방법

 

그러나 현재 빅데이터의 분석 방법은 과거의 데이터 분석방법과 현저한 차이를 보인다. 빅데이터 분석의 경우 목적을 설정하고 목적에 필요한 데이터를 파악하고 바로 그 데이터의 수집과 분석이 동시에 가능하다. 즉 과거와는 다르게 데이터 취합 시점의 시차가 존재하지 않는다. 그렇기 때문에 결과적으로 빅데이터 분석은 어떤 목적을 추구하느냐에 따라 데이터의 수집 대상이 달라지며 그와 함께 데이터의 가치도 결정할 수 있다.

 

2. 빅데이터의 기술 및 활용

 

2.1 빅데이터의 기술

 

2.1.1 빅데이터 처리의 핵심 요소[3],[4]

 

빅데이터를 언급하기 위해서는 두 가지 핵심적인 개념이 필요하다. 바로 맵리듀스(MapReduce)와 하둡(Hadoop)이다.

 

가. MapReduce

 

‘MapReduce’는 구글 검색시스템 구현을 위해 개발된 것으로, 하둡을 통해 활성화된 대규모 데이터 처리를 위한 분산처리 프로그래밍 모델을 말한다. 맵 리듀스는 맵(Map)과 리듀스(Reduce)를 결합한 것으로, 하나의 큰 데이터를 여러 조각으로 나누어 처리하는 단계(Map)와 처리 결과를 모아 하나로 합쳐 결과를 내는 단계(Reduce)로 나뉜다.

 

그림5. MapReduce 과정


나. 병렬 DBMS vs MapReduce

 

병렬 DBMS는 대량의 데이터를 저장하기 위해 수평 확장 접근 방식을 취하고 있다. 맵 리듀스의 경우도 병렬 구조를 띄고 있으나, 두 시스템 사이의 차이는 다음과 같다.
병렬 DBMS는 선언형(Declarative) 프로그래밍 모델을 지원하며, Parallelism을 높여서 성능을 향상시키는 것에 설계의 초점을 맞추었다. 병렬 DBMS는 대용량 데이터에 대한 효율적인 질의 수행에 유리하며, 기능성이 매우 높다는 것이 장점이다. 하지만 특정 클러스터 내에 특정 노드에 작업이 집중되거나 몰리는 경우, 전체적인 성능이 떨어지는 현상이 발생한다. 병렬 DBMS의 경우, 기능 고장(fault)이 자주 일어나는 환경에 부적합하다.
맵 리듀스는 명령형 프로그래밍 모델을 지원한다. 맵 리듀스의 설계 목표는 확장성과 비용 효율성이다. 데이터의 양이 항상 커지기 때문에 반드시 확장성을 고려해야 한다. 그러므로 가격이 저렴하지만, 언제든 고장 날 수 있기 때문에 대비책이 필요하다. 그래서 맵리듀스 구조에서는 고장 방지(Fault-tolerance)를 고려한다. 더 자세한 두 시스템 사이의 차이점은 아래의 (표 2)와 같이 정리해볼 수 있다.

 

표2. 병렬 DBMS와 MapReduce 차이


다. Hadoop

 

하둡은 오픈 소스로 제공되는 플랫폼이다. 하둡은 빅데이터 처리를 위한 분산 환경을 가장 완벽하게 갖추고 있어서 사람들에게 많은 관심을 받고 있고, 특히 데이터 처리를 위한 분산 환경을 플랫폼 자체로 제공하여 다양한 장점을 가진다.

 

(1) Hadoop의 발전[3],[4]


그림6. Hadoop의 발전

 

하둡은 2002년 웹 검색엔진인 너치 프로젝트(Apache Nutch)로부터 시작됐다. 2004년 ACM Queue에서 발표한 너치(Nutch: Open Source Search)를 시작으로 지금의 하둡이 나올 수 있게 됐다. 그러나 너치는 10억 페이지 규모의 색인 이상의 확장을 관리하기에는 구조적인 한계가 있었다. 이를 보완하기 위해 구글은 구글 분산 파일 시스템 위에서 동작시켜 대용량 데이터를 간단하게 처리할 수 있는 맵리듀스를 2004년 발표했고, 너치 프로젝트에 맵리듀스도 포함됐다. 2008년의 경우 야후에서는 10,000개의 하둡 코어를 이용해 야후 서비스의 색인 제품들이 생성되고 있다고 발표했다. 계속적으로 빠르게 증가하는 대량의 데이터(빅데이터)를 처리하기 위해, 그리고 더욱 더 많은 정보를 생성하는 웹 콘텐츠를 인덱싱하기 위해 하둡은 발전하고 있다.

 

(2) Hadoop의 사용[3],[4]

 

하둡은 비즈니스에 효율적으로 적용할 수 있도록 다양한 서브 프로젝트가 제공된다. 또한 하둡은 대형 검색 서비스를 위해 설계됐다. 그에 따라 기업의 예로 이베이의 경우, 경매 서비스를 위해 새 검색 엔진을 구축하는데 하둡을 사용했다. 페이스북은 실제로 데이터 중 일부를 하둡에 저장한다. 그리고 아마존의 경우에는 저장소인 S3를 활용한 대용량 하둡 클러스터 시스템에서 데이터들을 분석해 고객들에게 제공해오고 있다. 클라우드 스페이스는 웹 기술 컨설팅 회사로 이 회사 역시 고객과 내부 프로젝트를 위해 아파치 하둡을 사용한다. UNC 린버거 통합 암센터에서도 하둡 기술을 이용하는데, 이 센터에서 데이터를 처리하고 결과와 클러스터를 하둡과 HBase를 사용하여 관리하기도 한다.

 

(3) Hadoop ? Log Processing[3]

 

분산 시스템은 다수의 컴퓨팅 및 스토리지 자원을 네트워크로 연결해 하나의 시스템처럼 사용할 수 있는 기술이다. 분산 시스템은 대용량의 데이터를 저장 및 관리할 수 있을 뿐 아니라, 방대한 양의 복잡한 계산 처리를 빠르게 수행할 수 있다.
전통적인 분산파일 처리방식은 사람이 수천 대의 서버를 네트워크로 묶어 마치 하나의 서버가 보유하고 있는 파일 시스템처럼 여긴다. 예를 들어 두 대의 컴퓨터가 있다고 했을 때, 기존의 분산파일 처리방식은 데이터를 두 개로 쪼개서 처리를 각각으로 업무를 시켜서 두 개의 결과물이 나오게 되고, 결과물로 나온 두 개의 업무를 합치는 처리 방식을 말한다. 간단히 그림으로 표현하자면, 아래 <그림 7>과 같다.

 

그림7. 전통적인 분산파일 처리방식


 반면 맵리듀스 처리방식은 기존의 처리방식에서 사람이 직접 업무를 나누어 처리했다면, 그 업무를 메인 컴퓨터 한 대에서 모두 처리해 주는 방식을 말한다. 즉, 메인 역할의 컴퓨터가 알아서 일을 나누고, 나중에 결과물을 합치게 된다. 이 모든 처리 과정을 맵리듀스 시스템이 알아서 처리해 기존의 분산 처리 방식보다 신속하게 일을 처리할 수 있다.

그림 8 맵리듀스 처리방식


(4) 빅데이터 분석을 위한 기술/기법/도구[3],[4]

 

첫째로 데이터를 수집하는 과정에서 두 가지 기법을 사용한다. 크롤링(crawling)은 검색엔진 로봇(crawler)을 이용해 데이터를 수집, ETL(extraction, transform, load)을 진행한다. 소스데이터를 추출하고, 이동, 변환, 적재의 과정을 수행한다. 둘째로 저장과 관리를 위해서는 클라우드 컴퓨팅(cloud computing), NoSQL Database, 하둡, HDFS, Hbase, Casandra를 사용한다. 셋째로 처리의 단계에서 맵리듀스(MapReduce) 기법을 사용한다. 맵리듀스는 간단히 말하자면, 대규모 데이터 셋의 분산 병렬 처리 소프트웨어 프레임워크를 말한다. 네 번째 단계인 분석 단계에서는 NLP(Natural Language Processing), 기계학습(Machine Learning), 데이터 마이닝(data mining), 오피니언 마이닝(opinion mining), Mahout, R/Rhive 기법을 사용한다.

 

2.2 빅데이터 활용 사례

 

가. 엔시스트리

 

앤시스트리(Ancestry.com)는 가족력을 조사하고 가계도를 만들기 위한 서비스이다. 표면적으로는 단순해 보이지만 이 서비스를 위해 역사 기록, 출생 기록, 사망 기록, 전쟁 및 이민 기록, 심지어 연감에 이르기까지 110억 개 이상의 기록과 4페타바이트(PB)의 콘텐츠를 유지한다. 게다가 이런 기록은 손으로 쓰여 진 경우도 많다. 첨단 콘텐츠 처리 기술을 사용하여 색인을 분류하고 검색 가능하도록 정리되어 있으며, 연계 고리를 찾는데 도움을 주기 위해 DNA 처리 기능을 추가해 약간의 타액만 있으면 고객의 DNA를 추출해 데이터베이스에 포함된 먼 친척과 같은 사람들을 찾아줄 수 있는 시스템이다.

 

그림9. 엔시스트리 웹 사이트


나. SNS 분석 실제 적용 사례

 

(1) Earthquake shakes Twitter users: real-time event detection by social sensors

 

트위터(Twitter)의 내용을 기반으로 한 지진 및 태풍 예보 시스템을 구축했다. 실제 지진과 태풍을 감지한 데이터와 트위터 데이터를 기반으로 시스템을 구축했으며, JMA(Japan Meteorological Agency)보다 더 빠른 예보 능력이 보고됐다.

 

그림10. 트위터 이용자들을 기반으로 한 지진 및 태풍 예보 시스템


(2) 기업커뮤니케이션 현장에서 바라본 빅데이터와 소셜 분석

 

채선당 사건, 뉴욕의 Cosmetic 브랜드 키엘의 사례 등을 통해 기업 커뮤니케이션 현장에서 소셜네트워크가 굉장한 힘을 가지고 있다는 것을 알 수 있었다. 끊임없이 쏟아져 나오는 빅데이터와 이를 분석하는 것이 기업이 위기관리, 마케팅 분야에서 SNS를 유용하게 활용할 수 있는 방안을 제시할 수 있을 것이다.

 

그림11. 기업에서 바라본 빅데이터와 소셜 분석

 

다. 공공 부문의 잠재적 빅데이터 활용

 

빅데이터 분석은 의제 발굴과 추진 전략 기획을 담당하는 공공기관, 그리고 민간의 비즈니스 전략 수립에도 도움을 줄 수 있을 것으로 예상된다. 특히 최근 공공 부문에서의 빅데이터 분석과 활용에 대한 수요가 크게 증가하고 있는 추세이다. 국가 안전 및 위험관리, 치안, 의료, 교육, 복지, 환경 등 사회 전반에 걸쳐 빅데이터의 활용 가능성이 높아지고 실제 수요도 크게 증가하고 있다. 예로 국민권익위원회 민원분석보고서 사례를 언급할 수 있다. 국민권익위원회 민원분석보고서 분석은 이민자 사회통합정책에 대한 민원 현황을 통해 신규 정책 수립 및 제도적인 개선에 대한 지원의 필요성을 느껴 시작했다. 분석은 2011년 국민 신문고에 접수된 민원을 대상으로 했다. 민원 현황 및 추이분석, 연령·지역 등 유형화 분석과 주요 사례 분석, 시사점 및 정책제언을 제시하는 방향으로 분석을 실시했다. 분석 결과를 바탕으로 볼 때 이민자 사회통합프로그램에 대한 정책을 제언할 시, 더욱 구체적이고, 필요에 맞는 정책을 제언할 수 있을 것이라 본다.

 

3. 도서관에서의 빅데이터 활용

 

빅데이터 시대가 도래함에 따라 모빌리티, 빅데이터, 클라우드, 소셜 컴퓨팅과 같은 IT 기술 환경이 변화했다. 또한 새로운 서비스 개발, 맞춤형 정보제공, E-book과 같은 지식정보의 활용 가능성이 증가하고 있으며, 스마트폰의 활용 역시 증가하고 있다. 그러나 형태성 여부, 내용에 따른 전달 구분, 콘텐츠 부재 및 품질에 대한 문제와 같은 콘텐츠로 인한 한계가 존재한다. 더불어 시스템의 플랫폼 종속성 문제, 검색에 의한 문제, 검색 질의 표현의 한계, 메타데이터 및 콘텐츠 구조화의 부족과 같은 시스템 및 검색의 한계가 나타나고 있어 도서관 서비스의 기술과 환경에 변화가 필요하다고 언급할 수 있다. 또한 기술로 인한 전통적인 정보형식의 변화와 디지털화로 인한 정보접근 및 이용 모습의 변화, 새로운 정보처리에 대한 도서관, 도서관 서비스, 사서의 변화를 통해 도서관 정보화 환경의 변화가 필요하다.

 

3.1 해외 도서관의 빅데이터 활용 현황

 

가. 영국 국립도서관 2011~2015 전략[5]

 

영국 국립도서관은 경제, 사회, 이익, 문화생활을 위한 글로벌 정보 네트워크에서 선도적 허브가 되며, 전문 지식과 협력을 통해 지식을 선도하는 기관이다[6]. 영국 국립도서관은 디지털 자료의 저장과 보존을 위해 디지털 도서관의 기반시설을 활용하며, 인쇄물의 지속적인 관리를 하고 있다. 또한 새로운 콘텐츠 전략에 맞추어 콘텐츠의 수집과 연결을 위한 협력적 체계 마련함으로써 미래 세대를 위해 접근을 보장하고 있다. 더 나아가 영국 국립 도서관은 모바일 기기를 통한 콘텐츠와 서비스 지원을 통해 연구를 하려는 모든 사람들의 접근을 가능하게 한다. 그 뿐만 아니라 사회 및 경제적 이익을 위해 핵심 영역에 있는 연구 집단을 지원하기 위해 소규모 사업을 지속적으로 지원하기 위해 비즈니스, 지적재산권센터의 미래 재정을 확고히 하고 있다.


그림12. 영국 국립도서관


나. 미국 21세기 공공도서관의 전략적 비전[7],[8]

 

미국 21세기 공공도서관의 전략적 비전에 따르면 미국의 도서관들은 디지털 시대의 새로운 매체와 기술로 인해 근본적인 역할의 존폐를 놓고 이런 변화를 이용하는 기관들과 경쟁해야 하며, 도서관을 지원하는 기관들이 직면한 재정적 상황과 이용자들의 성향 및 요구의 변화에 대응해야 한다고 했다.
미국 공공도서관의 미래에 대한 네 가지 비전은 다음과 같다. 도서관이 보유하고 있는 물리적 매체 장서에 신중하게 선정한 가상 매체를 추가해 가상도서관 서비스를 제공해야 한다고 했다. 또한 이용자 개인의 욕구에 초점을 맞춘 맞춤형 도서관 서비스 제공이 필요하다고 언급했다. 다음으로 지역 관련 자료를 전시하는 개인 이용자 또는 지역사회 중심 도서관, 이용자들이 정보와 지식, 예술 오락을 전달하는 매체를 생성하는 장소의 역할을 수행할 수 있는 장비와 시설을 제공하는 장서 또는 찬조 도서관 구축해야 한다고 했다. 또한 다른 기관들이 소유하고 관리하는 방대한 양의 매체 자료에 도서관 이용자들이 접근할 수 있는 통로 역할 제공하는 포털 또는 아카이브 도서관을 구축한다고 했다. 마지막으로 미국 공공도서관은 정책적으로 사서로서의 역량 확대, 장서의 협력과 통합, 디지털화, 개인화 및 소셜 네트워킹, 아카이브 및 목록화, 무료이용료를 추진해야 한다고 했다.

 

다. 호주 국립도서관 IT 2012~2015 전략[9]

 

호주 국립도서관은 다양한 이용자 요구에 부응하고, 방대한 디지털 자료 관리 및 자료 관리에 대한 워크플로우를 개선하기 위해 5가지 도서관 IT 전략을 발표했다. 이에 호주 국립도서관은 디지털 자료 수집을 위한 인력 확충, 스토리지 용량 확대, 디지털 보존 기술을 위한 인력 양성 및 안전한 보관 및 재난관리에 필요한 디지털 도서관 인프라를 구축하기 위해 노력하고 있다. 또한 오픈 API를 통한 도서관 서비스의 외부 재이용 확대, 웹2.0을 활용한 도서관 플랫폼 구축 및 모바일 서비스 제공, 콘텐츠 확대를 위한 타 기관과의 협력 강화한 온라인 이용을 가능하게 하는 것을 목표로 삼고 있다.

 

3.2 도서관의 빅데이터 활용[7]

 

도서관은 빅데이터의 활용을 위해 장서의 디지털화 및 디지털 보존을 시도하고 있으며, 소셜 네트워크와의 연결을 통해 소셜 미디어 데이터를 포함한 웹사이트 아카이브를 구축하고자 한다. 또한 클라우드 결과를 기반으로 이용자 서비스 및 콘텐츠, 인프라 강화에 반영하고자 하며, 새로운 플랫폼을 를 활용해 클라우딩 컴퓨팅 기반의 새로운 도서관 시스템을 구현하고, 이용자 로그 정보를 통한 빅데이터 분석 통해 공공 도서관 통합 서비스를 제공하고자 한다. 다음의 각 도서관에서 빅데이터를 활용하는 사례를 언급했다.

 

가. 영국 국립도서관: 구글과 고문서 디지털화 프로젝트[10]

 

영국 국립도서관은 구글과 고문서 디지털화 프로젝트를 통해 1700년~1870년에 발간된 25만 권의 정기 출판물, 팸플릿, 단행본, 마리 앙투아네트 평론, 세계 최초 연료 엔진 탑재 잠수함 설계도 등의 중세 고문서 대상으로 프로젝트를 진행하고 있다. 영국 국립도서관은 2020년까지 공동으로 디지털화하여 디지털화된 사료 텍스트의 검색, 열람 및 다운로드 서비스 등을 무료로 제공하고자 한다. 또한 영국국립도서관 웹사이트와 Google Books를 통해 다운로드가 가능하도록 진행 중에 있다. 영국 국립도서관은 2020년까지 1억 5,000만권의 장서 대부분의 디지털화를 완료할 계획이라고 했다.

 

나. 미국 의회도서관 : 단문 기록을 위해 트위터 영구보존[11]

 

미국 의회도서관은 업데이트 되는 모든 포스트에 대한 접근권을 가질 수 있도록 트위터와 계약했다. 1,700억 건의 트윗을 포함한 총 133TB 규모의 파일을 색인 및 공개하는 것을 목표로 하였다. 또한 2000년 이후의 정부 데이터를 포함하는 300TB 규모의 웹사이트 아카이브를 수집하기 위해 노력하고 있다. 미국 의회도서관은 미래 세대가 열람할 수 있도록 중요한 디지털 콘텐츠를 수집 및 보전하는 ‘국가 디지털정보 인프라 및 보전 프로그램(National Digital Information Infrastructure and Preservaton Program)’을 추진할 것이라고 했다.

 

다. 애서가들의 소셜 네트워킹 : LibraryThing[12]

 

‘LibraryThing’은 인터넷 상의 서적애호가 및 수집가들이 작성한 개인 장서 목록을 통해 개인 장서를 목록화, reading lists, wish lists 등을 등록하는 웹 사이트이다. 그 후 자신과 취향이 같은 이용자들과 책장 정보를 공유하여 유사한 취향의 이용자들과 정보를 공유한다. LibraryThing은 목록 기반 소셜 네트워킹 시스템을 구축한 것으로 모든 데이터베이스는 주제/저자/서명 등을 통해 검색이 가능하다. 더불어 LC, Canadian National Catalogue, Yale University, 40개 이상의 연구도서관 및 Amazon 등의 MARC 데이터를 활용해 자신의 소장목록을 계속적으로 유지·확장하고 있다.

그림13. LibraryThing


라. OCLC : 도서관의 클라우드 컴퓨팅 도입[13]

 

OCLC는 도서관 분야에 있어서 클라우드 컴퓨팅 개념의 도입을 시도한 대표적인 기관으로 중앙센터에서 데이터의 저장 및 처리를 통하여 생산된 결과물을 회원도서관에 제공한다. OCLC는 소규모 도서관을 위해 2012년에 “OCLC WSSL(Website for Small Libraries)”라는 클라우드 서비스를 공개했다. Amazon, Google과 같은 클라우드 컴퓨팅 서비스 제공자의 역할을 도서관 분야에서 지속적으로 수행했다. 또한 클라우딩 컴퓨팅 기반의 새로운 도서관시스템 구현으로 웹 기반의 정보의 유통, 출판, 전자자원의 수서, 라이선스 관리 등의 기능을 포함하는 통합 디지털도서관시스템을 구축했다.

 

마. 유럽 디지털 도서관 프로젝트 : 유로피아나(Europeana)[7]

 

유로피아나(Europeana)는 2008년 11월 20일 출범한 이래 약 2,500만 건에 달하는 페이지뷰를 달성했다. 유로피아나는 요일별, 시간대별, 체류시간, 페이지뷰, 사용 기기를 파악하고 있다. 또한 많이 사용하는 콘텐츠/서비스, 주로 이용하는 시간, OS, 이용자의 국가, 방문시 쿼리, 모바일 이용자와 PC이용자의 비율, 이용 콘텐츠의 비교, 유입경로(검색엔진), 방문 이유, 이용 빈도(단발성 이용자, 보통이용자, 대량이용자) 등을 파악한다. 이를 통해 모바일과 PC 이용자의 로그를 분석함으로써 이용자의 이용패턴을 파악해 이를 이용자 서비스 및 콘텐츠, 인프라 강화에 반영했다.

 

바. DPLA : 미국 디지털 공공 도서관 통합 서비스[13]

 

‘DPLA(Digital Public Library of America)’는 미국 내 공공 도서관 및 박물관의 디지털 자료를 통합 및 제공하기 위한 새로운 플랫폼이다. DPLA는 40개의 디지털 도서관 및 일부 지역 역사 협회, 박물관, 도서관 등의 자료가 이미 통합되어 있다. 더불어 파일럿 서비스 허브와 함께 대규모 콘텐츠 허브가 국립 도서관에 메타 데이터를 공급할 예정이다. DPLA는 문서 기록뿐 아니라 예술과 문화, 미국 유산의 기록 및 과학 자료 등 모든 표현 범위를 포함하기 위해 노력하고 있다. 또한 지역 도서관에 사장된 자료를 모두 활용할 수 있는 플랫폼으로서 메타데이터를 기반으로 어플리케이션을 개발할 수 있는 API를 제공하고 현재까지 약 250만개의 자료를 통합했으며, 앞으로 빠르게 더 많은 자료를 통합할 예정이다.


3.3 국내 도서관의 빅데이터 활용


안타깝게도 국내에서는 주목할 만한 빅데이터를 활용하는 예는 없다. 앞으로 빅데이터를 활용한다면 다음과 같은 도서관에서 선두적으로 이끌어야 한다고 생각하고 그에 따라 다음과 같은 계획을 제안하고자 한다.

 

가. 국회도서관의 빅데이터 활용

 

국회도서관은 국가 지식 정보의 핵심 기관이라고 해도 과언이 아니다. 국가의 중심이 되는 핵심 기관 중 하나로서 국회도서관은 공공정보를 활용해 정부와 민간의 정책반영에 선순환 생태계를 구축하는데 앞장서야 한다. 이 생태계는 간단히 표현하면 <그림 14와> 같이 나타난다. 생태계의 과정은 다음과 같다. 국가에 분산되어있는 다수의 부처에서 생산되는 데이터를 연계 및 공유해 국가 지식 정보 자원을 수집한다. 그리고 이렇게 하여 모이는 방대한 데이터, 즉 빅데이터를 분석해 이를 기반으로 하는 정책을 수립한다. 수립된 법제도를 활용해 대국민 서비스를 제공한다. 구축된 서비스를 이용하며 공공 빅데이터는 지속적으로 생산될 것이고 이러한 선순환 생태계를 구축하게 되는 것이다.

 

3.3.1. 전통적 도서관으로서의 국회도서관의 역할

 

그림14. 공공정보를 활용한 정부-민간 정책반영 선순환 과정

 

국회도서관의 전통적 역할은 우선 국가의 지식정보 자원을 수집, 보존하는 측면이 존재한다. 해당하는 지식정보 자원이란 학술문화 또는 과학기술 등에 관한 디지털화된 자료 또는 디지털화의 필요성이 인정되는 자료이다. 지식정보 그 자체를 자원으로 보는 경우, 교육기관이나 학회, 언론사 등의 각종 기관과 단체 등에서 생산되는 모든 지식정보가 해당될 수 있는데, 이러한 지식 정보는 일반인에게 공개되어 자유롭게 공유가 가능한 것이며, 국가지식정보자원 선정 원칙에 부합해야 한다.
또한 정보자원의 활용을 위한 지식서비스를 제공하는 것 역시 국회도서관의 또 다른 역할이다. 이것은 법 자체에 관한 지식정보 뿐만 아니라 입법기관에 대한 정보와 서비스를 제공하는 것을 의미한다. 서비스의 대상은 국민을 비롯하여 기관이 될 수도 있으며, 이들이 양질의 정보를 얻을 수 있도록 접근 방법을 다양화하는 방안을 계속해서 모색해나가는 것이 중요하다.

 

3.3.2. 국회도서관, Beyond Library 2.0

 

웹에서의 참여, 공유, 개방이라는 속성을 내세우며 Web 2.0이 약 10여 년 전에 등장했고, 이와 관련된 서비스들이 다양한 분야에 접목됐다. 도서관에서도 이러한 웹 2.0의 속성을 도입하게 되었는데, 이를 ‘Library 2.0’이라고 이름지었다. 이는 끊임없이 목적을 가지고 변화하는 도서관 서비스 모델을 의미하며, 도서관 역시 참여, 공유, 개방이라는 속성을 공유함을 의미한다. 이는 단순히 소장자료를 디지털화하고 보관하는 것을 넘어서는 개념으로, 공공의 정보(e.g. twitter data), 그리고 정책적으로 활용 가능한 정보들을 수집 및 분석하여 제공한다는 의미를 포함하고 있다.
이러한 맥락에서 국회도서관의 국가 공공 빅데이터 정보 활용은 Library 2.0의 속성을 잘 드러낸다고 할 수 있다. 의회정보 서비스(의회정보회답, 팩트북 및 자료 발간 등), 법률정보 서비스(법률쟁점 database 서비스, 법률정보 검색 등)와 같은 특화된 소장 자료 서비스가 대표적인 예이다. 이와 같은 서비스는 국회도서관이 정책 수립에 중요한 영향을 미치는 주요 데이터를 보유하고 있다는 점에서 시작된다. 이 데이터는 특화된 서비스를 통해 증거기반 국가 미래전략 수립, 사회적 비용의 획기적 감소, 국민 맞춤형 선제적 공공서비스 등과 같은 긍정적 영향을 미칠 수 있다<그림15>.


그림15. 국회도서관의 국가 공공 정보와 빅데이터

 

국회도서관은 위에서 언급한 공공의 정보들을 대량으로 모은 빅데이터를 분석해 정부기관의 정책의사결정을 지원하는 데에도 활용할 수 있다. <그림 16>과 같이 여기에서의 빅데이터는 기존에 소장하고 있는 데이터베이스의 자료, 국가 정책자료와 함께 SNS로부터의 데이터, 그리고 미디어자료와 같은 공공부문의 자료 모두를 포함한 것이 된다. 이러한 데이터로부터 국가 지식 정보를 분석하고 대중적인 영향력을 살펴볼 수 있으며, 이를 통해 예측 모델을 개발하는 단계로 나아갈 수 있다.


그림16. 빅데이터 기반 정책적 활용 예시

 

3.3.3 국회도서관, 빅데이터 분석 모델

 

빅데이터 분석은 크게 네 단계로 나눠볼 수 있다<그림17>. 우선 데이터를 수집 및 선별하는 작업을 거친 후, 모아진 데이터를 처리하고, 이를 통해 정제된 데이터들을 적합한 기술을 이용하여 분석하여 활용하는 단계로 진행이 된다.
각 단계를 구체적으로 살펴보면, 우선 웹상에서 활발하게 사용되는 트위터, 페이스북과 같은 SNS에서 실시간으로 데이터를 수집한다. 여기에 국회도서관 내부의 소장 자료와 이용자 로그 등의 각종 데이터 역시 추가되고, 이뿐만 아니라 국가 정책 자료까지 전반적으로 모든 데이터의 수집을 한다. 이렇게 수집된 데이터에서 사서들의 수서업무 정보 큐레이션을 이용해 가치 있는 데이터를 선별하는 작업을 하고 나면 처리 단계로 진행된다. 처리하는 과정에서는 키워드를 추출하는 방법과 Hadoop (빅데이터 처리에 활용하는 도구) 기반 전 처리 방법으로 나누어 생각할 수 있다. 키워드 추출에서는 검색 질의를 통한 도메인을 필터링하고, 언어처리를 통해 키워드를 추출한다. Hadoop을 기반으로 할 때에는, MapReduce, Hive, Mahout 등의 데이터를 분산해 처리하고 관리하는 시스템을 이용, 데이터 처리를 완료한다. 처리를 마친 데이터는 분석단계로 들어간다. 데이터 분석에도 오피니언 마이닝 분석, 기계학습, 토픽 모델링 분석, 이용자 정보 통합 이질적 네트워크 분석 등의 다양한 기법들이 존재한다. 이러한 기법들 중 의도에 맞는 적합한 분석 방법으로 데이터를 분석한다. 이렇게 일련의 과정을 통해 분석된 데이터들은 실시간 키워드 및 동향 파악, 대중적 영향력 분석, 예측 모델 개발 등 목적에 따라 새로운 가치창출을 위해 활용될 수 있다.


그림17. 국회도서관 빅데이터 분석 모델

 


4. 빅데이터 관련 연구

 

필자는 SNS에서 생겨나는 방대한 양의 데이터를 이용해 텍스트 마이닝과 데이터를 분석하는 연구를 활발하게 진행해 오고 있다. 연구의 결과물로 다수의 논문을 출판했고, 지속적으로 국내외 연구진과 교류를 하며 연구범위를 확장해 나가고 있다.

 

그림18. 한국 대선 트위터 마이닝 시스템

 

대표적인 예로 빅데이터를 활용한 텍스트 마이닝 및 네트워크를 분석한 세 가지 연구를 소개하고자 한다. 첫 번째 연구의 주제<그림 18>는 ‘한국 대선 트위터 마이닝 시스템’이다[14]. 2012년 한국 대선을 대상으로 한 사례연구로, 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 ‘박근혜, 문재인, 안철수, 대선’이라는 검색어가 포함된 173만7,969건의 트윗을 수집해 진행됐다. 100회 이상 동시 출현한 단어 페어를 네트워크 매핑을 이용, 시각화하여 분석을 한 연구이다. 이 사례연구는 최신기법을 사용해 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 의의가 있는 연구이다.


그림19. 텍스트마이닝을 활용한 신문사별 내용 및 논조 차이 네트워크

 

두 번째 연구<그림19>는 ‘텍스트 마이닝을 활용한 신문사별 내용 및 논조 차이점 분석’으로 경향신문, 한겨레, 동아일보 등 세 개 신문사의 기사 내용 및 논조에 어떠한 차이가 있는지를 객관적인 데이터를 통해 제시했다[15]. 총 3,026개의 기사를 수집, 분석해 문화, 경제, 정치 분야에서 특정 이슈에 대한 신문사별 긍정-부정 논조 차이가 있음을 밝힌 연구이다.
세 번째로<그림 20>는 한 문헌과 이 문헌이 인용하고 있는 문헌 사이에서 유전자의 네트워크(Gene-Citation-Gene Network)를 구축한 ‘Discovering Implicit Entity Relation with the Gene-Citation-Gene Network’ 연구가 있다[16]. MEDLINE에서 총 33만1,411건의 초록에서 25개의 유전자 쌍을 추출하여 가중치, 근접도, 중심성 등의 다양한 계량적 방법으로 네트워크의 성능을 측정했고, GCG 네트워크를 구축함을 알 수 있다.그리고 연구를 통해 이 네트워크가 유전자 상관성을 밝히는데 유용하게 사용될 수 있다는 시사점을 보이고 있다.

 

그림20.  Discovering Implicit Entity Relation with Gene-Citation-Gene Network

 

5. 결론

 

빅데이터 시대의 도래는 인터넷과 ICT기술의 발달에 따르는 필연적 결과라고 생각한다. 앞으로도 더 다양한 그리고 더 방대한 양의 데이터를 처리 관리해야 하는 도전에 직면 하게 될 것 이다. 도서관이 지식 정보를 다루는 기관이기 때문에 빅데이터로 인한 도전을 피해 갈 수 없을 것이다. 안타까운 것은 이러한 시대 상황 속에서 도서관이 능동적으로 대처하고 있지 못한다는 것이다. 여러 가지 이유가 있겠지만 좀 더 관심을 갖고 정책적 배려와 함께 도서관 내부에서도 빅데이터와 도서관의 접목 및 도서관에서의 빅데이터 활용 방법 등을 생각하고 고민해 보아야 하겠다. 도서관이 데이터의 관리와 유통과 함께 그 역할과 영역을 확장해 나간다면, 범람하는 빅데이터에 대한 체계적 관리의 기반을 제공할 것으로 기대된다.

 

6. 참고문헌

[1] McKinsey. 2011. Big Data: The next frontier for innovation, competition, and productivity.
[2] 함유근, 채승병. 2012. 빅데이터, 경영을 바꾸다. 삼성경제연구소
[3] 서상원 외. 2013. 대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL. 길벗
[4] 한국정보화진흥원. 2012. 알기쉬운 공공부문 빅데이터 분석/활용 가이드 v1.0: 빅데이터 분석 따라하기. 한국정보화진흥원 빅데이터 전략연구센터 보고서
[5] British Library. 2013. Growing Knowledge: The British Library’s Strategy 2011?2015. London: UK
[6] http://www.br.uk/aboutus/startpolprog/strategy1115/strategy1115.pdf
[7] 문화체육관광부. 2012. 미래도서관 정보화 정책 수립 연구. 서울특별시: 대한민국. 문화체육관광부 도서관정보정책기획단
[8] 21세기 공공도서관의 전략적 비전, 도서관연구소 웹진 Vol 76, 2011.8
[9] National Library og Australia, Information Strategic Plan 2012~2015
[10] 한국정보화진흥원. 2011. IT Issues Weekly. 서울특별시: 대한민국. 한국정보화진흥원
[11] InformationWeek, 2010. 한국정보화진흥원
[12] https://www.librarything.com/
[13] 문화체육관광부. 2013. 도서관 통합서비스 환경 구축 지침 수립에 관한 연구. 서울특별시: 대한민국. 문화체육관광부 도서관정보정책기획단
[14] 배정환, 손지은, 송민. 2013. 텍스트마이닝을이용한 2012년 한국 대선 관련 트위터 분석. 지능정보연구, 19(3). 141-156
[15] 감미아, 송민. 2012. 텍스트마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석. 지능 정보 연구, 18(3). 53-77.
[16] Song M, Han N-G, Kim Y-H, Ding Y, Chambers T. 2013. Discovering Implicit Entity Relation with the Gene-Citation-Gene Network. PLoS ONE 8(12): e84639. doi:10.1371/journal.pone.0084639


 

 

블로그 이미지

한국조사기자협회

사단법인 한국조사기자협회는 1987년 국내의 신문, 방송, 통신사의 조사, 정보, 자료, DB업무를 담당하는 조사기자들의 모임으로 출범하여, 2009년 회원들의 연구활동에 기초한 신문 및 방송 발전에 기여할 목적으로 사단법인으로 재출범하였으며, 언론공익활동으로 신문논술대회, 조사연구 발간, 세미나·토론회, 보도연감 출판 등의 사업을 하고 있는 언론단체입니다