"나에게는 단순하지만 강한 믿음이 있다. 정보를 어떻게 수집하고 관리하며, 활용하는가에 따라 사업의 성패가 좌우될 것이다." - 빌게이츠
빅데이터란 무엇인가?
빅데이터가 다양한 가치를 만들어내기 시작하면서 사람들은 빅데이터를 ‘원유’에 비유하기 시작했다. 기름이 없으면 기기가 돌아가지 않듯, 빅데이터 없이 정보시대를 보낼 수 없다는 의미에서다. 미국의 시장조사기관 가트너는 “데이터는 미래 경쟁력을 좌우하는 21세기 원유”라며 “기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다”라고 강조했다. 21세기 기업에게 가장 중요한 자산은 ‘데이터’이며 이를 관리하고 여기서 가치를 이끌어내지 못하면 경쟁에서 살아남을 수 없다는 뜻이다.
빅데이터는 ‘빅(Big)+데이터(Data)’식의 단순 합성어가 아니다. 빅데이터를 ‘어마어마하게 많은 데이터’라는 식으로 받아들이면 본질적인 의미와 가치를 놓치게 된다.
기존의 기업 환경에서 사용되는 ‘정형화된 데이터’는 물론 메타정보와 센서 데이터, 공정 제어 데이터 등 미처 활용하지 못하고 있는 ‘반정형화된 데이터’, 여기에 사진, 이미지처럼 지금까지 기업에서 활용하기 어려웠던 멀티미디어 데이터인 ‘비정형 데이터’를 모두 포함하는 것이 빅데이터다.
가트너는 빅데이터의 주된 특징으로 크기, 다양성, 속도 등을 꼽았다. 단순히 데이터 양이 많다고 해서 빅데이터라고 부를 수 있는 건 아니란 얘기다.
여기에서 크기(Volume)는 데이터의 물리적 크기를 말한다. 크기는 기업 데이터, 웹 데이터, 센서 데이터 등 페타바이트(PB) 규모로 확장된 데이터를 말한다. 다양성(Variety)은 데이터의 형태를 말한다. 기존 기업 데이터 환경에서 사용하는 관계형 데이터베이스(RDB)에 저장된 데이터인지, 웹 로그(Web log: 웹 서버에 남은 사용자 데이터)나 기기 데이터와 같은 데이터인지, 비디오나 이미지 같은 비정형 데이터인지 등 데이터의 형태에 따라 그 종류가 나뉜다. 빅데이터는 이 모든 데이터를 포함하기 때문에 이를 다룰 수 있는 기술이 필요하다. 마지막으로 속도(Velocity)다. 빅데이터의 중요한 특징으로도 꼽히는 '속도'는 곧 데이터 처리 능력을 말한다. 데이터를 수집 · 가공 · 분석하는 일련의 과정을 실시간 또는 일정 주기에 맞춰 처리할 수 있어야 한다.
뭐지.. 컴퓨터가 글을 쓰네 ㄷㄷ
아주 흥미로운 알고리즘인데?
정말 아주 흥미로운 관점이야
cc