일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- Android
- 모델
- AI
- Artificial Intelligence
- 시각화
- Django
- APP
- 빅데이터
- swift toast message
- 템플릿
- 장고
- Deep learning
- Pycharm
- model
- 기계학습
- IOS
- 인공지능
- 앱
- swift
- 디자인패턴
- BigData
- python
- Toast Message
- 머신러닝
- view
- ios toast message
- toast
- Machine Learning
- 딥러닝
- Today
- Total
이끼의 생각
7. 빅데이터 처리 과정 기술 (2) 처리 본문
3단계 처리 단계에서 사용되는 기술들과 기법들에 대해 알려드리겠습니다.
빅데이터 처리 기술들
• 맵리듀스
‒분산 병렬 데이터처리 기술의 표준, 일반 범용 서버로 구성된 군집화시스템을 기반으로 <키,값> 입력데이터 분할 처리 및 처리 결과 통합 기술, job 스케줄링 기술, 작업분배 기술, 태스크 재수행 기술 이 통합된 분산컴퓨팅 기술입니다.
• R
‒R 언어와 개발환경으로 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현 및 개선이 가능합니다.
- R언어는 통계용 언어로 데이터를 처리, 분석, 시각화에 모두 사용할 수 있습니다.
• 하둡
‒정형·비정형 빅데이터 분석에 가장 선호되는 솔루션입니다.
- 하둡을 기반한 하둡 에코시스템을 구축하여 Zookeeper(주키퍼), Oozie(우지), Avro(에이브로), Parquet(파케이). Flume(플룸), Sqoop(스쿱), Pig(피그), Crunch(크런치), HBase, Hive(하이브), Impala, Tajo 등을 사용하여 다양한 처리가 가능합니다.
• 𝑁𝑜𝑆𝑄𝐿𝑁𝑜𝑆𝑄𝐿;𝑁𝑜𝑡−𝑜𝑛𝑙𝑦𝑆𝑄𝐿
‒전통적인 관계형 데이터베이스 RDBMS와는 다르게 설계된 비관계형 데이터베이스입니다.
- 프로토타입을 기준으로 다음과 같은 특징의 기술들이 있습니다.
* 컬럼: H베이스, 아큐물로
* 도큐먼트: 몽고DB, 카우치베이스
* 키 값: 다이나모, 리악, 레디스, 캐시, 프로젝트 볼드모트
* 그래프: Neo4J, AgensGraph, 알레그로그래프, 버투오소
빅데이터 처리 기법
기법 |
설명 |
빅데이터 일괄 처리 기술 |
- 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 이를 다시 모아서 결과를 정리하는 분산 처리 기술 방식입니다. - 구글 맵리듀스 (구글에서 분산 컴퓨팅을 지우너할 목적으로 제작, 발표한 소프트웨어 프레임워크, 함수형 프로그래밍에서 일반적으로 사용되는 맵Map과 리듀스Reduce 함수를 기반으로 주로 구성), 하둡 맵리듀스, 마이크로스프트 드라이애드Dryad 등이 있음. |
빅데이터 실시간 처리 기술 |
스트림 처리 기술로 강화된 스트림 컴퓨팅을 지원하는 IBM의 InfoSphere Streams 인포스피어 스프림즈, 분산 환경에서 스트리밍 데이터를 분석할 수 있게 해주는 트위터의 스톰Storm 이 있습니다. |
빅데이터 처리 프로그래밍 지원 기술 |
분산 데이터를 처리하는 프로그래밍 언어인 구글의 소재Sawzall과 병렬처리를 하는 고성능 데이터-플로우 언어와 실행 프레임워크인 하둡Pig가 있습니다. |
인프로 기술을 포함한 빅데이터와 연계된 기술들
용어 |
설명 |
Cassandra 카산드라 |
- 분산 시스템에서 대용량 데이터를 처리할 수 있도록 설계된 오픈 소스 데이터베이스 관리 시스템입니다. - 원래 페이스북에서 개발했으며 지금은 아파치 스프트웨어 재단에서 한 프로젝트로 관리합니다. |
Hadoop 하둡 |
- 분산 시스템에서 대용량 데이터 처리 분석을 지원하는 오픈 소스 소프트웨어 프레임워크 입니다. - 구글이 개발한 맵리듀스를 오픈 소스로 구현환 결과물로 가장 많이 사용되고 분산처리시스템의 기반입니다. - 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 한 프로젝트로 관리합니다. - 주요 구성요소로는 하둡 분산 파일 시스템인 HDFS, 분산 컬럼 기반 데이터 베이스인 HBase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스 포함합니다. |
HBase H베이스 |
- 구글의 '빅테이블'을 참고로 개발된 오픈 소스 분산 비관계형 데이터베이스 입니다. - 파워셋에서 개발했으며, 현재는 아파치 소프트웨어 재단에서 한 프로젝트로 관리합니다. |
MapReduce 맵리듀스 |
- 분산 시스템에서 대용량 데이터 세트를 처리하려고 구글이 제안한 소프트웨어 프레임워크입니다. - 하둡에서도 구현된 대표적인 데이터 처리 프레임워크입니다. |
NoSQL |
- Not-Only SQL 또는 No SQL 을 의미하는 단어입니다. - 전통적인 관계형 데이터베이스와 다르게 설계된 비관계형 데이터베이스입니다. - 대표적인 NoSQL 솔루션으로 Cassandra, HBase, MongoDB 등이 사용됩니다. |
출처 및 자료
'빅데이터 > 쉽게 읽는 빅데이터' 카테고리의 다른 글
9. 빅데이터 처리 과정 기술 (4) 표현 (0) | 2019.05.23 |
---|---|
8. 빅데이터 처리 과정 기술 (3) 분석 (0) | 2019.05.23 |
6. 빅데이터 처리 과정 기술 (1) 소스, 수집 (0) | 2019.05.23 |
5. 빅데이터 처리 (2) 처리 과정 (0) | 2019.05.23 |
4. 빅데이터 처리 (1) 특징, 처리과정 (0) | 2019.05.23 |