이끼의 생각

5. 빅데이터 처리 (2) 처리 과정 본문

빅데이터/쉽게 읽는 빅데이터

5. 빅데이터 처리 (2) 처리 과정

IKKIson 2019. 5. 23. 17:56

전 편에서 빅데이터 처리에 관한 특징들과 간단한 처리과정에 대해 알아보았습니다.

이번엔 조금 더 자세함 처리과정과 여기서 필요한 기술들에 대해 설명하겠습니다.




빅데이터 처리 과정과 기술들


마지막으로 빅데이터 인프라의 아키텍쳐가 되는 처리과정과 기술에 대해 설명해드리겠습니다.


1단계 [데이터소스] : (1)DBMS나 시스템의 내부데이터 그리고 (2) SNS 등의 소셜미디어, 공공데이터와 같은 데이터웨어하우스 등의 외부데이터, (3) 이미지, 영상 등의 미디어들이 처리를 위한 소스가 됩니다.


2단계 [수집] : 비즈니스 목적에 알맞은 데이터 소스를 수집합니다. 시스템이나 소프트웨어를 이용하여 로그를 수집하거나, 크롤링, 하드웨어를 이용한 세싱이 있습니다.


3단계 [저장] : 수집한 데이터들은 정형, 비정형, 반정형의 형태를 갖으면 적절한 방법으로 빅데이터 시스템에 저장을 합니다.


4단계 [처리] : 수집한 데이터들을 실시간으로 일괄 처리하게 되는데 일종의 데이터 정제과정입니다. 데이터셋에서 원하는 부분만 혹은 전체를 추출하고, 분석을 위해 데이터셋을 재배치하는 등의 데이터 셋의 폼을 바꾸는 과정입니다.


5단계 [분석] : 상황에 따라 앞선 처리과정에서 전처리가 될 수도 있고 분석과정에서 먼저 전처리를 해줍니다. 데이터들 분석할 수 있는 Type으로 전처리한 후 수학적인 기법을 적용하여 통계 분석, AI에서 대표적인 딥러닝, 머신러닝 기법들을 통해 예측, 분류 등의 분석결과를 만들어 냅니다.


6단계 [표현] : 분석결과를 시각화하는 과정으로 분석결과 그 자체가 될 수 있고 그래프, 스프레드시트, DB, 인포그래픽등 다양한 형태로 직관적이고 보기 편하게 표현합니다.


잠깐! 


실제 빅데이터 시스템을 구축할 때 요구사항에 대응하여 저장, 처리, 분석의 순서가 유동적으로 바뀌거나 여러번 작업할 수 있으며, 저장의 경우 상황에 따라 모든 단계에서 사용할 수 있습니다.


즉, 이 설명에서 단계는 정해진 순서가 아니며 쉬운 설명과 이해를 위해 정리하였습니다.







빅데이터 처리 과정별 기술 영역


과정 

 영역

설명 

생성

  내부데이터

  데이터베이스, 파일 관리 시스템 등 

  외부데이터

  인터넷으로 연결된 파일, 멀티 미디어, 스트림

수집

  크롤링

  검색 엔진의 로봇, HTML 크롤링 소프트웨어를 사용한 데이터 수집 

  ETL (Extration, Transformation, Loading)

  소스 데이터의 추출, 전송, 변환, 적재

저장

  NOSQL 데이터 베이스

  비정형데이터 관리

  스토리지 Storage

  빅데이터 저장, 저장소

  서버 Server

  초경량 서버

처리

  맵리듀스 MapReduce

  데이터 추출

  프로세싱 Processing

  다중 업무 처리

분석

  NLP Netural Language Processing

  자연어 처리

  기계학습 Machine Learning

  머신러닝, 딥러닝을 이용한 데이터의 패턴 인식

  직렬화 Serialization

  데이터 간의 순서화

표현

  시각화 Visualization

  데이터를 도표나 그래픽 등으로 표현

  획득 Acquisition

  데이터의 획득, 재해석




Comments