스터디

2012 BIG DATA 전문가로 가는길 (2012.07.18.DBGuide.)

서른마른다섯 2012. 7. 19. 10:44

빅데이터 기술 - Nosql 전문가로 가는 길

- Nosql 은 NOT ONLY SQL 이 아니라 Relation이 없는 SQL이라고 이해하는 것이 옳다

1. NoSql의 장점

 - 클라우드 컴퓨팅 환경에 적합

 - 유연한 데이터 모델 ( RDBMS와 다르게 비정형 데이터 구조 설계 )

 - Memory Mapping 기능을 통해 READ/Write가 빠름

 - OPEN SOURCE 이므로 구축비용이 저렴

2. Nosql의 종류 ( 약 120 여개의 Nosql DB가 있음 )

 - KEY-VALUE 기반 ( Riak, Voldemort, Tokyo, etc... )

 - DOCUMENT 기반 ( MongoDB, CoughDB, etc... )

 - BigTable 기반 ( Hbase, Casandra, Hypertable, etc... )

 - Graph 기반 ( AllegroGraph, Sones, etc... )

3. Nosql의 성장 가능성

 - Nosql 시장이 2018년까지 약 140억 달러의 성장할 것으로 예측

 - 2011년 7월 이후 급격히 상승

 - Trend는 MongoDB ( Nosql 제품군 평가에서 다방면으로 우수 판정을 받음 )

4. MongoDB의 특징

 - DOCUMENT 기반의 데이터 저장구조 (JSON Type)

 - Replica/Shard 기능을 제공

 - MapReduce 기능을 제공

 - 다중 트랜잭션 처리도 가능

 - Memory Mapping 기능을 통해 READ/Write가 빠름

 - 위치기반 인덱스 생성이 가능

참고 사이트 : nosql-DATABASE.org ( 모든 NoSql의 정보가 있음)


빅데이터 기술 - 하둡 전문가로 가는 길

- 현재의 데이터들은 비정형데이터들로서 데이터들 사이에서 규칙이나 패턴을 발견하기 어려우며 서로 다른 자료들입니다.

 넘쳐나는 비정형데이터들 속에서 의미 있는 정보를 뽑아내고 활용하고자하는 생각들이 모여 하둡(Hadoop)이 탄생

- 기존의 관계형 데이터 베이스 방식의 분석으로는 처리가 힘든 방대한 데이터를 고려하여 여러개의 컴퓨터에서 분산처리하여 분석된 결과를 제공하는 방법

1. 하둡 개요

 - GFS (Google FILE SYSTEM), MapReduce(구글에서 분산 컴퓨팅을 지원하기 위한 목적으로 제작한 프레임 워크) 소프트웨어 구현체

 - 아파치 Top-Level Project

 - 코어는 Java, C/C++, Python 지원

 - 대용량 데이터 처리를 위한 플랫폼

  => 분산파일 시스팀 (HDFS)

  => 분산 병렬 처리 시스템 (MapReduce)

2. 하둡 에코 시스템

 - 데이터 수집 시스템 (FLUME, CHUKWA, SCRIBE, etc...)

 - Nosql (MongoDB, Cassandra, HBASE, etc...)

 - MapReduce 분석을 위한 RDBMS와 하둡간 데이터 Import/Export 도구 필요 (sqoop)

 - workflow 관리 (Pentaho DI, Oozie)

 - Query 엔진 : MapReduce 작업을 수행하도록 해주는 mysql 기반 SQL 엔진 (HIVE)

 - CUDA : CPU보다 빠른 GPU를 이용하도록 만든 nvidia 기술

 - 실시간 처리 : 하둡 배치작업과 상호 보완적인 역할 수행, 이벤트 데이터를 저장하는 과정없이 실시간 병렬로 처리 (Storm, S4)

 - 분석 알고리즘

3. 하둡의 성장 가능성

 - 많은 기업들이 하둡을 적용해 나가고 있음.

 - 미국내 하둡 동향 - 캘리포니아에 50% 이상 집중

 - 매년 300% 증가

 - 많은 벤처사들이 하둡에 투자


참고 사이트

하둡개요 : http://hpenvy.tistory.com/561

하둡설치 : http://blog.acronym.co.kr/329


빅데이터 분석 - R 전문가로 가는 길

- 통계 계산 및 시각화를 위한 언어 및 개발 환경 제공하는 분석 엔진

- TB급 빅데이터의 처리는 여전히 힘들다. 하지만 통계 데이터의 신뢰성은 매우 높다.

1. R의 장점

 - 무료

 - 어떤 분석을 수행하든 부담이 없음

 - 데이터 핸들링(데이터 접근, 변형), 시각화(통계 시각화, 현실 데이터는 가정을 할 수 없음), 모델링(통계 모델, 통계 시뮬레이션)

  => 역동적 분석에 적합

 - 다양한 패키지 제공으로 적은 라인 코딩으로 강력한 기능 구현

2. R의 단점

 - 개발자가 배우기 쉽지 않다

  => 함수형, 절차형 언어의 혼합

  => 통계학자들이 만든 언어라 통계용어 난무

 - 통계학자도 배우기 쉽지 않다

  => 프로그래밍 언어

3. R의 성장 가능성

 - 해외 리서치 영역에서 R이 기본

 - 국내 대학 및 각종 교육이 활성화

 - 대형 벤더에서 R을 인터페이싱

 - 현재 데이터 분석툴로 엑셀 다음으로 큰 시장

 - 데이터 마이닝 툴로 R이 가장 많이 사용되고 두번째로 SQL이 많이 사용

 - 독보적인 하둡기반 BIG DATA 분석 플랫폼

4. RHive

 - SQL을 사용하여 명령을 실행하도록 해주는 패키지


QnA

1. 빅데이터가 정말 도움이 되는가?

 - 큰 데이터에 적합한 접근 방법을 사용하지 않는다면 그 데이터는 쓰레기 밖에 되지 않는다.

  따라서 접근 방법을 결정하는 데이터 과학자 또는 분석가의 역할이 중요하다

2. 데이터 과학자에 대한 요구사항

 - 빠르게 눈으로 직접 확인해야 것들이 많아졌다

 - 빠르게 다양한 포맷의 데이터를 병합하고 쪼개보고 꼬아봐야 한다

 - 빠르게 최신 알고리즘 부터 오래된 알고리즘까지 적용가능한지 시도해야 한다

'스터디' 카테고리의 다른 글

SQL Unplugged 2012 후기  (0) 2012.04.23