빨간색코딩

클라우데라 하둡(Cloudera Hadoop) 1 본문

빅데이터

클라우데라 하둡(Cloudera Hadoop) 1

빨간색소년 2017. 1. 11. 22:22

작년 7월쯤에 리눅스도 잘못하는 내가 하둡을 쓰게되었다


아파치하둡은 자료도 많고, 설치법과 운용법이 널려있으니, 이거말고 클라우데라에서 배포하는 하둡에 대하여 써보겠다. 클라우데라 하둡설치에 대해서 나중에 포스팅할 예정이다


참고로 PPT로 뭐든 정리하는 습관이 있다. 본 글은 그 PPT를 풀어쓰는 거다. PPT가 더 보기좋을거라고 생각한다

빨코 Cloudera Hadoop.pptx





먼저 클라우데라를 소개하면

- 하둡 기반 빅데이터 벤처기업의 대표적인 선두주자로 야후, 오라클, 출신 등의 사람들에 의해 2008년 설립

- 여기서 만든 CDH라는 하둡 배포판이 아파치 파운데이션이 만든 아파치 하둡 배포판보다 훨씬 더 많이 사용됨


하둡

- 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크

- 하둡은 크게 분산 저장과 병렬 처리, 2개의 프레임워크로 구성

- 분산 저장은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저장하는 프레임워크

- 병렬 처리는 저장 환경 위에서 병렬로 데이터 Processing하는 프레임워크

- 여러 대의 컴퓨터를 모아 디스크를 묶어서 쓸 수 있게 하는 분산 저장소와, CPU를 동시에 쓸 수 있는 병렬 처리 소프트웨어 라이브러리


하둡의 목적

- 매우 큰 데이터를 저장할 수 있어야 한다 -> HDFS

- 그 데이터를 이용해서 연산을 수행할 수 있어야함 -> 맵리듀스


정도로 정리할 수 있다. 학부생수준(내수준)에서 이해하기 쉽게ㅋㅋㅋ



하둡파일시스템을 HDFS라고 부른다. Hadoop Distributed File System

- HDFS마스터는 슬레이브 노드 사이의 저장 공간을 분할하고 데이터 저장 위치를 관리하는 책임을 담당

- 네임노드는 어떤 데이터노드가 각 파일 블록을 관리하는지 등과 같은 파일시스템에 대한 메타데이터를 메모리에 보관

- 데이터노드는 파일 읽기 및 쓰기를 위해 통신

- 파일은 블록으로 구성되며, 각 파일은 여러 차례 복제된다. 이는 파일의 블록별로 동일한 복사본이 여러 개 있다는 뜻이다. 

- Hdfs는 장애가 발생해도 데이터를 잃지 않는 견고성, 하드웨어 추가로 성능을 향상하는 확장성, 클러스터 내의 여러 노드에 데이터분할 등의 기능이 있다.

추가로 하트비트까지 살펴보면
- 데이터노드는 네임노드에게 하트비트를 3초마다 보낸다. 하드비트에는 디스크 가용 공간정보, 데이터이동, 적재량 등의 정보가 들어있다. 핸드셰이킹에 사용되며 네임노드는 하트비트를10초이상 못받으면 사용하지 못한다고 인식한다.

시간날때 맵리듀스와 맵리듀스잡에 대해 올려보겠다


Comments