이끼의 생각

7. 빅데이터 처리 과정 기술 (2) 처리 본문

빅데이터/쉽게 읽는 빅데이터

7. 빅데이터 처리 과정 기술 (2) 처리

IKKIson 2019. 5. 23. 18:50

3단계 처리 단계에서 사용되는 기술들과 기법들에 대해 알려드리겠습니다.




빅데이터 처리 기술들


• 맵리듀스


관련 이미지


‒분산 병렬 데이터처리 기술의 표준, 일반 범용 서버로 구성된 군집화시스템을 기반으로 <키,값> 입력데이터 분할 처리 및 처리 결과 통합 기술, job 스케줄링 기술, 작업분배 기술, 태스크 재수행 기술 이 통합된 분산컴퓨팅 기술입니다.


• R


R 언어에 대한 이미지 검색결과


‒R 언어와 개발환경으로 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현 및 개선이 가능합니다.

- R언어는 통계용 언어로 데이터를 처리, 분석, 시각화에 모두 사용할 수 있습니다.


• 하둡

아파치 하둡에 대한 이미지 검색결과

‒정형·비정형 빅데이터 분석에 가장 선호되는 솔루션입니다.

- 하둡을 기반한 하둡 에코시스템을 구축하여 Zookeeper(주키퍼), Oozie(우지), Avro(에이브로), Parquet(파케이). Flume(플룸), Sqoop(스쿱), Pig(피그), Crunch(크런치), HBase, Hive(하이브), Impala, Tajo 등을 사용하여 다양한 처리가 가능합니다.


• 𝑁𝑜𝑆𝑄𝐿𝑁𝑜𝑆𝑄𝐿;𝑁𝑜𝑡−𝑜𝑛𝑙𝑦𝑆𝑄𝐿

‒전통적인 관계형 데이터베이스 RDBMS와는 다르게 설계된 비관계형 데이터베이스입니다.

- 프로토타입을 기준으로 다음과 같은 특징의 기술들이 있습니다.

* 컬럼: H베이스, 아큐물로

* 도큐먼트: 몽고DB, 카우치베이스

* 키 값: 다이나모, 리악, 레디스, 캐시, 프로젝트 볼드모트

* 그래프: Neo4J, AgensGraph, 알레그로그래프, 버투오소




빅데이터 처리 기법


기법

설명 

  빅데이터 일괄 처리 기술

  - 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 이를 다시 모아서 결과를 정리하는 분산 처리 기술 방식입니다. 


  - 구글 맵리듀스 (구글에서 분산 컴퓨팅을 지우너할 목적으로 제작, 발표한 소프트웨어 프레임워크, 함수형 프로그래밍에서 일반적으로 사용되는 맵Map과 리듀스Reduce 함수를 기반으로 주로 구성), 하둡 맵리듀스, 마이크로스프트 드라이애드Dryad 등이 있음.

  빅데이터 실시간 처리 기술

  스트림 처리 기술로 강화된 스트림 컴퓨팅을 지원하는 IBM의 InfoSphere Streams 인포스피어 스프림즈, 분산 환경에서 스트리밍 데이터를 분석할 수 있게 해주는 트위터의 스톰Storm 이 있습니다.

  빅데이터 처리 프로그래밍 지원 기술  

  분산 데이터를 처리하는 프로그래밍 언어인 구글의 소재Sawzall과 병렬처리를 하는 고성능 데이터-플로우 언어와 실행 프레임워크인 하둡Pig가 있습니다.




인프로 기술을 포함한 빅데이터와 연계된 기술들


용어

설명

  Cassandra 카산드라

  - 분산 시스템에서 대용량 데이터를 처리할 수 있도록 설계된 오픈 소스 데이터베이스 관리 시스템입니다.

  - 원래 페이스북에서 개발했으며 지금은 아파치 스프트웨어 재단에서 한 프로젝트로 관리합니다. 

  Hadoop 하둡

  - 분산 시스템에서 대용량 데이터 처리 분석을 지원하는 오픈 소스 소프트웨어 프레임워크 입니다.

  - 구글이 개발한 맵리듀스를 오픈 소스로 구현환 결과물로 가장 많이 사용되고 분산처리시스템의 기반입니다.

  - 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 한 프로젝트로 관리합니다.

  - 주요 구성요소로는 하둡 분산 파일 시스템인 HDFS, 분산 컬럼 기반 데이터 베이스인 HBase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스 포함합니다.

  HBase H베이스

  - 구글의 '빅테이블'을 참고로 개발된 오픈 소스 분산 비관계형 데이터베이스 입니다.

  - 파워셋에서 개발했으며, 현재는 아파치 소프트웨어 재단에서 한 프로젝트로 관리합니다. 

  MapReduce 맵리듀스

  - 분산 시스템에서 대용량 데이터 세트를 처리하려고 구글이 제안한 소프트웨어 프레임워크입니다.

  - 하둡에서도 구현된 대표적인 데이터 처리 프레임워크입니다. 

  NoSQL

  - Not-Only SQL 또는 No SQL 을 의미하는 단어입니다.

  - 전통적인 관계형 데이터베이스와 다르게 설계된 비관계형 데이터베이스입니다.

  - 대표적인 NoSQL 솔루션으로 Cassandra, HBase, MongoDB 등이 사용됩니다.







출처 및 자료 

incodom의 하둡 총정리 1편

incodom의 하둡 총정리 2편 

https://1004jonghee.tistory.com/entry/%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4-%EB%A0%88%EC%BD%94%EB%93%9C%EB%A6%AC%EB%8D%94RecordReader

Comments