빅데이터/쉽게 읽는 빅데이터

6. 빅데이터 처리 과정 기술 (1) 소스, 수집

IKKIson 2019. 5. 23. 18:14

빅데이터 소스 생성과 수집 기술


1단계 데이터 소스의 생성2단계 수집을 위한 기술에 대해 설명하겠습니다.


내부 데이터를 수집하는 경우 자체적으로 보유한 내부 파일시스템, 데이터베이스 관리시스템 센서 등으로 정형 데이터를 수집합니다.


외부 데이터는 인터넷으로 연결된 외부의 이미지, 영상, 문서, 텍스트 등의 비정형 데이터를 수집합니다.


수집하는 기술은 다음과 같습니다.


방법

설명 

  로그 수집기

  내부에 있는 웹서버 로그를 수집합니다. 웹로그, 트랜잭션 로그, 클릭 로그 ,DB 로그, 사용자 로그 등이 수집됩니다.

  크롤링

  주로 웹 로봇, 크롤링 프로그램으로 거미줄처럼 얽혀 있는 인터넷 링크를 따라다니며 방문한 웹사이트의 웹페이지라든가 소셜 데이터 등 인터넷에 공개되어 있는 데이터를 수집합니다.

  센싱

  각종 센서로 데이터들을 수집합니다. 이미지, 음성, 온도, 전력, 압력, 화학물질, 전파/방사능, 수온, 강우/수 량 등.

  RSS 리더 / Open API

  데이터의 생산, 공유, 참여 환경인 웹2.0을 구현하는 기술로 필요한 데이터를 프로그래밍으로 수집합니다.

  ETL 

  Extraction, Transformation, Loading

 데이터의 추출, 변환, 적재의 약자입니다. 다양한 소스 데이터를 취합하여 데이터를 추출하고 하나의 공통된 형식으로 변환하여 데이터 웨어하우스에 적재하는 과정을 지원합니다. 여기서 데이터의 전처리와 저장 단계가 진행되기도 합니다.


크롤링에 대한 이미지 검색결과






빅데이터 저장 기술


3단계 저장 입니다. 대용량의 데이터 셋들을 저장하는 다양한 접근 방법들입니다.


 접근 방식

설명

기술 

  분산 파일 시스템

  컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근할 수 있는 파일시스템을 갖춥니다. 

  GFS (Google File System),

  HDFS (Hadoop Distributed File System), 

  아마존 Cloud의 S3 파일 시스템

  NoSQL

  데이터 모델을 단순화하여 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS, 데이터 저장장치에서 사용됩니다.

  Cloudata, HBase, Cassandra

  병렬 DBMS

  다수의 마이크로프로세서를 사용하여 여러 디스크의 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 데이터 베이스 시스템입니다. 

  VoltDB, SQP HANA, Vertica, Greenplum, Netezza

  네트워크 구성 저장 시스템

  서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리합니다. 

  SAN (Storage Area Network),

  NAS (Network Attached Storage)


AWS (아마존 웹서비스) 가입부터 활용까지