빅데이터(big data)에 대해서 들어보셨나요?

빅데이터는 초대용량의 데이터 양(volume), 다양한 형태(variety), 빠른 생성 속도(velocity)라는 뜻에서 3V라고도 불리며, 여기에 네 번째 특징으로 가치(value)를 더해 4V라고 정의하기도 한다. 빅데이터에서 가치(value)가 중요 특징으로 등장한 것은 엄청난 규모뿐만 아니라 빅데이터의 대부분은 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변함에 따라 그 전체를 파악하고 일정한 패턴을 발견하기가 어렵게 되면서 가치(value) 창출의 중요성이 강조되었기 때문이다.

출저 -[네이버 지식백과] 빅데이터 [big data] (시사상식사전, 박문각)

빅 데이터(영어: big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합^[1] 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술^[2]을 의미한다.

출저 -[구글 위키피디아]

빅데이터가 뭐냐? 라고 물었을때 명확하게 설명하기는 쉽지 않습니다. 빅데이터의 사전적인 의미는 네이버 사전에 나와있는 것처럼 3V로 말할 수 있습니다.

예전에는 Excel 형식과 같은(Matrix 형태) 정형화 되어있는 데이터를 다루었지만, 사람들이 사용할수 있는 웹상의 컨텐츠가 증가함에 따라 비정형 데이터(텍스트, 이미지, 비디오, 사운드 데이터)도 증가하게 되고 비정형 데이터를 처리하는 기술이 나오게 되었습니다. 이전에는 3V를 만족하는 데이터를 빅데이터라고 불렀지만 요즈음에는 이러한 데이터를 처리하는 기술까지 포함해서 빅데이터라고 얘기합니다.

종합하자면, 빅데이터란 3V를 만족하는 데이터 또는 그러한 데이터를 처리할수 있는 기술을 의미한다. 라고 할 수 있겠습니다.

-[필자 생각]

빅데이터를 하기 위한 역량?

빅데이터를 하기위한 역량은 무엇이 있을까요?

무엇을 잘해야 빅데이터 공부하기 쉬울까요?

일단은 아무것도 모른다 하더라도 빅데이터를 시작할 수 있습니다.

물론, 수많은 길을 걸어가야겠지만, 차근차근 공부하고 준비한다면 충분히 가능하다고 생각합니다.

많은 부분을 커버해야 하지만, 자신의 분야에 집중을 하면 좋은 빅데이터 人 이 되실거라 생각합니다.

개인이 빅데이터 프로젝트를 하기에는 무리입니다. 빅데이터 프로젝트는 대부분 ‘팀’을 이뤄 진행되기때문에, 팀에서 자신이 맡은 분야만 파시면 되고, 팀원간의 호흡이 중요합니다.

그렇다면, 자신이 맡을 분야는 어떤 것이 있을까요 ?

크게는 통계와 IT로 나뉘어 진다고 생각하시면 됩니다.

통계학과 학생이라면 빅데이터를 하기 위해 필수적으로 들어야하는 과목

통계학원론, 수리통계, 회귀분석, 다변량통계분석, R프로그래밍, 데이터마이닝

등이 있습니다. 위 과목들은 통계학이 있는 모든 대학에서 열리는 과목이기 때문에,

빅데이터를 공부하고싶으신 학생은 할수 있다면, 통계학을 전공 또는 복수전공을 해서 위과목을 수강하시는게 좋습니다.

그 다음으로는 IT쪽 입니다.

IT 에도 여러분야가 있지만, 기본적으로

프로그래밍(C, Java 등), Linux(Hadoop이 리눅스 기반입니다), 데이터베이스(SQL) 등이 있습니다.

가장 좋은건 IT+통계를 모두 잘하시는 겁니다. 하지만, 그렇게 하기에는 많은 시간과 노력이 필요합니다.

그 다음으로 좋은 것은 자신의 분야를 쭉 파시고 (IT 또는 통계), 나머지 한분야에 대해서 전체 적인 이해를 하시는 겁니다.

자신의 분야만 잘하면 되는게 아니냐라고 물으시는 분도 계실텐데, 자신의 분야만 안다면 결국에 팀의 호흡이 어긋나기 마련입니다.

예를 들어 통계만 하는 사람은 프로그래밍하는 사람한테 밑도 끝도없이 ‘사진을 넣으면 가장 많이 쓰이는 색깔뽑아주는 프로그램 만들어줘’ 요구할 수 있습니다.

그렇게 되면 프로그래머 입장에서는 뭘 어떻게 뭘이용해서 만들어야하는지 막막하기 마련입니다.

최소한 IT쪽에 대한 전반적인 이해를 하시고, “이미지를 폴더 안에 넣고, 이미지리스틀 vector로 만든후 import시켜서 하나하나 이미지에대해 모든 픽셀을 3d상에 찍어서 k-means clustering 시킨이후 가장 많이쓰인 color RGB, 정보를 뽑아주는 프로그램을 만들어줘’ 라고 요구해야됩니다.

자신이 생각하는 프로그램, 코딩이 어떤식으로 이루어져야하고 가능하긴 한건지 이해를 하시고 요구해야됩니다.

마찬가지로 IT공부에 집중하시는 분도 하고싶은 분석이 어떤 분석을 통해 가능한지 알고 계셔여 빅데이터 팀 프로젝트가 원할하게 진행됩니다.

이 외에도 텍스트마이닝에 중요한 문헌정보학, 데이터 분석결과를 해석하고 이를 통해 가치창충 시킬수 있는 전략을 뽑을 수 있는 역량도 중요합니다.

이 역량에 대해서는 인문사회학적인 사고방식과 경영에 대한 학식이 필요합니다.

빅데이터 관련 기초 용어 총정리

1. 빅데이터 란

Excel 형식과 같은(Matrix 형태) 정형화 되어있는 데이터를 다루었지만, 사람들이 사용할수 있는 웹상의 컨텐츠가 증가함에 따라 비정형 데이터(텍스트, 이미지, 비디오, 사운드 데이터)도 증가하게 되고 비정형 데이터를 처리하는 기술이 나오게 되었습니다. 이전에는 3V를 만족하는 데이터를 빅데이터라고 불렀지만 요즈음에는 이러한 데이터를 처리하는 기술까지 포함해서 빅데이터라고 얘기합니다.종합하자면, 빅데이터란 3V를 만족하는 데이터 또는 그러한 데이터를 처리할수 있는 기술을 의미한다. - 필자 의견

2. 소셜 데이터 분석

수년 전 부터 트위터, 페이스북과 같은 SNS가 스마트폰의 발전과 더불어서 급 뜨기 시작했습니다. 사람들은 SNS를 통해 자신의 감정과 현재 상태에 대해서 말을 하고 표현을 합니다. 과거에는 자기회사의 제품에 대해서 사람들이 어떻게 표현을 하는지 알기위해서는 직접 설문조사를 하고 시장조사를 했어야만 했지만, 요즈음에는 SNS를 통해 직관적으로 파악할 수 있습니다. 사람들이 SNS를 통해 자신의 의견과 생각을 많이 표출하기 때문에, 마케팅을 하는 사람들입장에서는 사람들의 생각을 읽을 수있는 중요한 수단이 아닐수 없습니다. 보통 통계학에서는 대표본이론 이라하여 표본이 충분이 크다면 그 표본의 성질은 모집단에 가까워진다고 합니다. 대표본이라 하는 것은 보통 ’30′을 기준으로 합니다. 30명 이상의 표본 데이터가 있으면 그 데이터가 모집단의 대표 성질을 포함할 확률이 매우 높다고 생각하시면 됩니다. 그런데 SNS를 사용하는 사람들이 우리나라만해도 수백만명을 넘어서고 있습니다. 30명만 해도 대표본인데 수백만이라니, 거의 모집단에 가까울만큼 큰 표본이라 할 수 있겠습니다. 이러한 특성 때문에 소셜 데이터 분석은 최근 수년전부터 현재까지도 많은 각광을 받고 있으며 많은 기업에서 사용하고 있습니다. - 필자 의견

3. 데이터 마이닝

데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다. 데이터 마이닝 기법은 통계학쪽에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 쪽에서 발전한 OLAP (온라인 분석 처리:On-Line Analytic Processing), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.

데이터 마이닝의 응용 분야로 신용평점 시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니 분석(Market Basket Analysis), 최적 포트폴리오 구축과 같이 다양한 산업 분야에서 광범위하게 사용되고 있다.

단점으로는, 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있다. - 출저 구글 위키피디아

데이터마이닝은 빅데이터와 통계학의 한 분야라고 생각하시면 좋을것 같습니다. 데이터 마이닝은 90년대에 CRM에 많이 쓰였다가 최근 빅데이터 바람이 불면서 다시 떠오르는 분야입니다. 데이터마이닝기법에는 회귀분석(선형, 비선형, 로지스틱), 의사결정트리, SVM, K-means Clustering, 신경망(Neural Netwrok), 연관규칙(Association Rule), 장바구니 분석 등이 있습니다. - 필자 의견

4. 텍스트 마이닝

소셜 데이터 분석이 급 부상하면서 함께 떠오르는 분야 입니다. 텍스트 마이닝을 통해 소셜 데이터 분석이 이루어 진다고 보시면 됩니다. 소셜상의 텍스트 데이터를 모아서 자연어 처리통해 주 키워드가 무엇인지 그 키워드에 대한 긍정인지 부정인지 판별하고 그 긍정 부정률이 전체 어느정도 차지하는지, 긍정 부정에 대한 원인은 무엇인지 분석하는 기법이라고 생각 하시면 될것 같습니다.

영어의 경우에는 문장의 긍정 부정을 판별하기가 용이한 편이지만 한국어의 경우에는 매우 어렵습니다. 이중 부정, 반어법, 역설법, 조롱과 같은 표현 때문에 긍정 부정 판별하기가 쉽지 않습니다. 단순히 긍정 단어가 들어갔다고 해서 그 문장이 긍정을 뜻하는 것은 아니라는 얘기입니다. 예를들어 ‘ㅋㅋㅋㅋ기분 개같이 좋네’ 라는 말은 긍정인가요, 부정인가요? ㅋ, ㅋㅋ, ㅋㅋㅋ, ㅋㅋㅋㅋ 도 의미하는 바가 조금씩 다르다는 것을 아실 겁니다. 또한 반어법같은 표현이 들어가면 그 문장의 긍부정을 잡아내기는 매우 어렵습니다. 텍스트 마이닝을 전문적으로 하는 기관에서도 이러한 부분에 대해서는 계속 연구중이고 텍스트마이닝 전문 기업에서도 현재로서는 전체 데이터중 70%정도 판별하는 수준이라고 합니다. - 필자 의견

5. 자연어 처리

자연어 처리(自然語處理)는 인간이 발화하는 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만드는 자연 언어 이해 혹은 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 의미한다.

컴퓨터가 이해할 수 있는 형태로 표현하고자 한다는 점에서 인공지능과 대단히 밀접한 관련이 있으며, 전산언어학과 거의 구별없이 비슷한 의미로 사용된다 , - 출저 구글 위키 피디아

6. 정형 데이터

말 그대로 정형화 되어있는 데이터를 뜻합니다. 우리가 흔히 알고 있는 Excel에 들어가있는 데이터를 정형 데이터라고 생각하시면 됩니다. - 필자 의견

7. 비정형 데이터

정형화 되어있지 않는 데이터를 뜻합니다. 음성, 영상, 사운드, 이미지, 텍스트 데이터가 대표적인 예입니다. - 필자 의견

8. 데이터웨어하우스

데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 줄여서 DW로도 불린다. - 출저 구글 위키피디아

9. R

코딩이 가능한 통계 패키지, Open Source + 무료 소프트웨어의 장점으로 최근 많은 기업,기관에서 R을 사용하고 있습니다. - 필자 의견

10 Hadoop

아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다^[2]. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다 . - 출저 구글 위키피디아

11. 맵 리듀스

맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크 - 출저 구글 위키피디아

12. SQL

SQL은 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어이다. 관계형 데이터베이스 관리 시스템에서 자료의 검색과 관리, 데이터베이스 스키마 생성과 수정, 데이터베이스 객체 접근 조정 관리를 위해 고안되었다. SQL은 데이터베이스로부터 정보를 얻거나 갱신하기 위한 표준 대화식 프로그래밍 언어이다. 많은 수의 데이터베이스 관련 프로그램들이 SQL을 표준으로 채택하고 있다. - 출저 구글 위키피디아

SQL은 데이터베이스를 다룰 수 있는 언어 라고 생각하시면 좋을 것 같습니다. 언어라고 해봤자 SQL은 초보자가 쓰기에는 매우 쉬운 언어입니다. Microsoft office에서 제공되는 Access도 SQL로 데이터베이스 처리가 가능합니다. Access 외에도 MySql, NoSql, MongoDB 여러가지 DB처리 소프트웨어가 있습니다. - 필자 의견

13. SAS

많은 통계 함수를 내장하고 있는 대표적인 통계 소프트웨어 입니다. 현재까지도 대부분의 기관에서는 SAS를 사용하고 있습니다.(R이 많이 치고 올라와 있는 상황입니다). 통계 분석만 한다고 생각했을 때는 SAS가 가장 강력한 소프트웨어 일지는 모르겠지만, 비싼 License와 R이 최근 빅데이터 도구로서 급부상하면서 최근에는 주춤하는 모습을 보이고 있습니다.

기본적인 통계분석을 하기 위한 SAS Base, 데이터마이닝용 SAS인 SAS Enterprise Guide, SAS Enterprise Miner, Text mining 도구인 SAS Text Miner 등이 있고 모두 유료입니다.(최근 SAS가 무료 배포한다는 뉴스를 접하긴 했습니다만 정확히 어떤 패키지를 무료로 내놓는다는 말은 없었습니다) - 필자 의견

출저 - 데이터마켓(http://www.datamarket.kr)