3. 빅데이터 종류와 유형
빅데이터의 규모와 다양성
빅데이터를 처리할 때 데이터 집합의 크기와 데이터의 종류에 따라 각각의 특징을 갖을 수 있습니다.
정형 데이터는 쉬운 예로 DBMS에서 주로 사용하는 SQL을 이용한 테이블, 릴레이션을 갖는 데이터셋으로 이해하면 됩니다. 이러한 데이터셋을 수십년간 사용한 방식으로 당연히 테라, 페라 단위의 데이터를 갖는 경우는 거의 없습니다.(국가기반, 전세계 규모는 예외).
데이터 규모가 작으면 이러한 전통적인 방법의 비즈니스 모델을 갖게 되지만 만약 비정형의 경우 소프트웨어 수준에서 간단한 분석, 작은 분석값들을 얻을 수 있으며 비즈니스 가치를 갖는다고 말하기는 어렵습니다.
빅데이터인 경우 처리 연산이 비례하기 되므로 전통적인 방식에서는 확장성이 떨어져 숨은 가치를 추출하기 어려워집니다. 그러나 비정형, 정형 모두 빅데이터 처리를 위한 인프라와 기술을 활용하면 가치를 얻을 기회가 많아 지겠죠.
빅데이터의 종류와 유형, 그리고 변화
빅데이터의 종류는 다음과 같습니다.
- 정형 : 고정된 필드에 저장된 데이터이다. 예) 관계형 데이터베이스, 스프레드시트 등.
- 반정형 : 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터이다. 예) XML, HTML 텍스트, JSON 등.
- 비정형 : 고정된 필드에 저장되어 있지 않은 데이터이다. 예) 텍스트 분석이 가능한 텍스트문서, 이미지, 동영상, 음성 데이터, GPS 위치 정보 등.
이 3가지 종류들의 변화를 보겠습니다.
정형데이터는 특수한 상황, 전문적인 기술을 다루는 분야에서 사람들에 의해 생성되는데 쉽게 생각해서 데이터베이스 시스템을 다루거나, SQL을 이용하는 전문가, 개발자, 엑셀과 같은 스프레드시트를 전문적으로 다루어 DBMS를 사용하는 경우를 생각하시면 됩니다. 비정형 데이터 역시 특수한 상황에서 사용되거 데이터가 축적되죠.
그에 반면에 비정형데이터 인터넷을 이용하는 일반 사용자들에 의해 축적이되는데 스마트폰의 등장으로 SNS 글, 문서, 이미지, 영상 등 비정형 데이터들이 빠르게 늘어나고 있습니다.
전통적인 데이터와 빅데이터 특징 비교