AWS에 Apache Hadoop 설치하기

😢 이 페이지는 다음 주소로 변경될 예정입니다.

요즘 한참 핫(!)한 빅데이터 스터디에 참여하게 되었다. AWS에서는 사실 EMR을 지원하는 등 직접 설치할 일이 없다고 하는데1 EC2 Micro 인스턴스에 Hadoop을 실습을 위해 설치했다. 예/복습 차원에서 간략하게 스터디 내용을 정리해보려고 한다.


Apache Hadoop

Apache Hadoop(High-Availability Distributed Object-Oriented Platform)은 Apache 재단에서 진행하는 오픈소스 프로젝트로 대량의 자료(빅데이터)를 처리할 수 있는 분산 시스템을 구축할 수 있게 돕는 소프트웨어 라이브러리다. 이 프로젝트는 다음의 모듈을 포함하고 있다.

  • Hadoop Common: Hadoop 모듈을 지원하기 위한 일반적인 유틸리티들
  • Hadoop Distributed File System (HDFS): 어플리케이션 데이터를 대량으로 처리할 수 있게 접근이 가능한 분산 파일 시스템
  • Hadoop YARN: job 스케쥴링과 클러스터 리소스 관리를 위한 프레임워크
  • Hadoop MapReduce: YARN을 기반으로 한 대형 데이터 셋 병렬처리 시스템

Continue reading AWS에 Apache Hadoop 설치하기