클라우데라 하둡(Cloudera Hadoop) 1

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

빨간색코딩

클라우데라 하둡(Cloudera Hadoop) 1 본문

빅데이터

클라우데라 하둡(Cloudera Hadoop) 1

빨간색소년 2017. 1. 11. 22:22

작년 7월쯤에 리눅스도 잘못하는 내가 하둡을 쓰게되었다

아파치하둡은 자료도 많고, 설치법과 운용법이 널려있으니, 이거말고 클라우데라에서 배포하는 하둡에 대하여 써보겠다. 클라우데라 하둡설치에 대해서 나중에 포스팅할 예정이다

참고로 PPT로 뭐든 정리하는 습관이 있다. 본 글은 그 PPT를 풀어쓰는 거다. PPT가 더 보기좋을거라고 생각한다

빨코 Cloudera Hadoop.pptx

먼저 클라우데라를 소개하면

- 하둡 기반 빅데이터 벤처기업의 대표적인 선두주자로 야후, 오라클, 출신 등의 사람들에 의해 2008년 설립

- 여기서 만든 CDH라는 하둡 배포판이 아파치 파운데이션이 만든 아파치 하둡 배포판보다 훨씬 더 많이 사용됨

하둡은

- 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크

- 하둡은 크게 분산 저장과 병렬 처리, 2개의 프레임워크로 구성

- 분산 저장은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저장하는 프레임워크

- 병렬 처리는 저장 환경 위에서 병렬로 데이터 Processing하는 프레임워크

- 여러 대의 컴퓨터를 모아 디스크를 묶어서 쓸 수 있게 하는 분산 저장소와, CPU를 동시에 쓸 수 있는 병렬 처리 소프트웨어 라이브러리

하둡의 목적은

- 매우 큰 데이터를 저장할 수 있어야 한다 -> HDFS

- 그 데이터를 이용해서 연산을 수행할 수 있어야함 -> 맵리듀스

정도로 정리할 수 있다. 학부생수준(내수준)에서 이해하기 쉽게ㅋㅋㅋ

하둡파일시스템을 HDFS라고 부른다. Hadoop Distributed File System

- HDFS마스터는 슬레이브 노드 사이의 저장 공간을 분할하고 데이터 저장 위치를 관리하는 책임을 담당

- 네임노드는 어떤 데이터노드가 각 파일 블록을 관리하는지 등과 같은 파일시스템에 대한 메타데이터를 메모리에 보관

- 데이터노드는 파일 읽기 및 쓰기를 위해 통신

- 파일은 블록으로 구성되며, 각 파일은 여러 차례 복제된다. 이는 파일의 블록별로 동일한 복사본이 여러 개 있다는 뜻이다.

- Hdfs는 장애가 발생해도 데이터를 잃지 않는 견고성, 하드웨어 추가로 성능을 향상하는 확장성, 클러스터 내의 여러 노드에 데이터분할 등의 기능이 있다.

추가로 하트비트까지 살펴보면

- 데이터노드는 네임노드에게 하트비트를 3초마다 보낸다. 하드비트에는 디스크 가용 공간정보, 데이터이동, 적재량 등의 정보가 들어있다. 핸드셰이킹에 사용되며 네임노드는 하트비트를10초이상 못받으면 사용하지 못한다고 인식한다.

시간날때 맵리듀스와 맵리듀스잡에 대해 올려보겠다

'빅데이터' 카테고리의 다른 글

logstash grok pattern (0)	2017.05.29
logstash 5.4 설치 (0)	2017.05.29
엘라스틱서치(elasticsearch) 5.4 설치 (0)	2017.05.29
하둡의 기본 개념 (HDFS, heartbeat, MapReduce, MapReduce job) (0)	2017.03.23

'빅데이터' Related Articles

Comments

빨간색코딩

클라우데라 하둡(Cloudera Hadoop) 1 본문

클라우데라 하둡(Cloudera Hadoop) 1

'빅데이터' 카테고리의 다른 글

티스토리툴바