일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- AWS
- libuv
- r
- Static
- cache
- socket
- javascript
- VCS
- git
- Heap
- redis
- reactor
- spring
- html
- reactive
- mybatis
- network
- ajax
- HTTP
- mongodb
- NoSQL
- nodejs
- Elk
- Lombok
- github
- Linux
- 네트워크
- Java
- 데이터통신
- effective
- Today
- Total
빨간색코딩
클라우데라 하둡(Cloudera Hadoop) 1 본문
작년 7월쯤에 리눅스도 잘못하는 내가 하둡을 쓰게되었다
아파치하둡은 자료도 많고, 설치법과 운용법이 널려있으니, 이거말고 클라우데라에서 배포하는 하둡에 대하여 써보겠다. 클라우데라 하둡설치에 대해서 나중에 포스팅할 예정이다
참고로 PPT로 뭐든 정리하는 습관이 있다. 본 글은 그 PPT를 풀어쓰는 거다. PPT가 더 보기좋을거라고 생각한다
먼저 클라우데라를 소개하면
- 하둡 기반 빅데이터 벤처기업의 대표적인 선두주자로 야후, 오라클, 출신 등의 사람들에 의해 2008년 설립
- 여기서 만든 CDH라는 하둡 배포판이 아파치 파운데이션이 만든 아파치 하둡 배포판보다 훨씬 더 많이 사용됨
하둡은
- 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크
- 하둡은 크게 분산 저장과 병렬 처리, 2개의 프레임워크로 구성
- 분산 저장은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저장하는 프레임워크
- 병렬 처리는 저장 환경 위에서 병렬로 데이터 Processing하는 프레임워크
- 여러 대의 컴퓨터를 모아 디스크를 묶어서 쓸 수 있게 하는 분산 저장소와, CPU를 동시에 쓸 수 있는 병렬 처리 소프트웨어 라이브러리
하둡의 목적은
- 매우 큰 데이터를 저장할 수 있어야 한다 -> HDFS
- 그 데이터를 이용해서 연산을 수행할 수 있어야함 -> 맵리듀스
하둡파일시스템을 HDFS라고 부른다. Hadoop Distributed File System
- HDFS마스터는 슬레이브 노드 사이의 저장 공간을 분할하고 데이터 저장 위치를 관리하는 책임을 담당
- 네임노드는 어떤 데이터노드가 각 파일 블록을 관리하는지 등과 같은 파일시스템에 대한 메타데이터를 메모리에 보관
- 데이터노드는 파일 읽기 및 쓰기를 위해 통신
- 파일은 블록으로 구성되며, 각 파일은 여러 차례 복제된다. 이는 파일의 블록별로 동일한 복사본이 여러 개 있다는 뜻이다.
'빅데이터' 카테고리의 다른 글
logstash grok pattern (0) | 2017.05.29 |
---|---|
logstash 5.4 설치 (0) | 2017.05.29 |
엘라스틱서치(elasticsearch) 5.4 설치 (0) | 2017.05.29 |
하둡의 기본 개념 (HDFS, heartbeat, MapReduce, MapReduce job) (0) | 2017.03.23 |