빅데이터 기술 - Nosql 전문가로 가는 길
- Nosql 은 NOT ONLY SQL 이 아니라 Relation이 없는 SQL이라고 이해하는 것이 옳다
1. NoSql의 장점
- 클라우드 컴퓨팅 환경에 적합
- 유연한 데이터 모델 ( RDBMS와 다르게 비정형 데이터 구조 설계 )
- Memory Mapping 기능을 통해 READ/Write가 빠름
- OPEN SOURCE 이므로 구축비용이 저렴
2. Nosql의 종류 ( 약 120 여개의 Nosql DB가 있음 )
- KEY-VALUE 기반 ( Riak, Voldemort, Tokyo, etc... )
- DOCUMENT 기반 ( MongoDB, CoughDB, etc... )
- BigTable 기반 ( Hbase, Casandra, Hypertable, etc... )
- Graph 기반 ( AllegroGraph, Sones, etc... )
3. Nosql의 성장 가능성
- Nosql 시장이 2018년까지 약 140억 달러의 성장할 것으로 예측
- 2011년 7월 이후 급격히 상승
- Trend는 MongoDB ( Nosql 제품군 평가에서 다방면으로 우수 판정을 받음 )
4. MongoDB의 특징
- DOCUMENT 기반의 데이터 저장구조 (JSON Type)
- Replica/Shard 기능을 제공
- MapReduce 기능을 제공
- 다중 트랜잭션 처리도 가능
- Memory Mapping 기능을 통해 READ/Write가 빠름
- 위치기반 인덱스 생성이 가능
참고 사이트 : nosql-DATABASE.org ( 모든 NoSql의 정보가 있음)
빅데이터 기술 - 하둡 전문가로 가는 길
- 현재의 데이터들은 비정형데이터들로서 데이터들 사이에서 규칙이나 패턴을 발견하기 어려우며 서로 다른 자료들입니다.
넘쳐나는 비정형데이터들 속에서 의미 있는 정보를 뽑아내고 활용하고자하는 생각들이 모여 하둡(Hadoop)이 탄생
- 기존의 관계형 데이터 베이스 방식의 분석으로는 처리가 힘든 방대한 데이터를 고려하여 여러개의 컴퓨터에서 분산처리하여 분석된 결과를 제공하는 방법
1. 하둡 개요
- GFS (Google FILE SYSTEM), MapReduce(구글에서 분산 컴퓨팅을 지원하기 위한 목적으로 제작한 프레임 워크) 소프트웨어 구현체
- 아파치 Top-Level Project
- 코어는 Java, C/C++, Python 지원
- 대용량 데이터 처리를 위한 플랫폼
=> 분산파일 시스팀 (HDFS)
=> 분산 병렬 처리 시스템 (MapReduce)
2. 하둡 에코 시스템
- 데이터 수집 시스템 (FLUME, CHUKWA, SCRIBE, etc...)
- Nosql (MongoDB, Cassandra, HBASE, etc...)
- MapReduce 분석을 위한 RDBMS와 하둡간 데이터 Import/Export 도구 필요 (sqoop)
- workflow 관리 (Pentaho DI, Oozie)
- Query 엔진 : MapReduce 작업을 수행하도록 해주는 mysql 기반 SQL 엔진 (HIVE)
- CUDA : CPU보다 빠른 GPU를 이용하도록 만든 nvidia 기술
- 실시간 처리 : 하둡 배치작업과 상호 보완적인 역할 수행, 이벤트 데이터를 저장하는 과정없이 실시간 병렬로 처리 (Storm, S4)
- 분석 알고리즘
3. 하둡의 성장 가능성
- 많은 기업들이 하둡을 적용해 나가고 있음.
- 미국내 하둡 동향 - 캘리포니아에 50% 이상 집중
- 매년 300% 증가
- 많은 벤처사들이 하둡에 투자
참고 사이트
하둡개요 : http://hpenvy.tistory.com/561
하둡설치 : http://blog.acronym.co.kr/329
빅데이터 분석 - R 전문가로 가는 길
- 통계 계산 및 시각화를 위한 언어 및 개발 환경 제공하는 분석 엔진
- TB급 빅데이터의 처리는 여전히 힘들다. 하지만 통계 데이터의 신뢰성은 매우 높다.
1. R의 장점
- 무료
- 어떤 분석을 수행하든 부담이 없음
- 데이터 핸들링(데이터 접근, 변형), 시각화(통계 시각화, 현실 데이터는 가정을 할 수 없음), 모델링(통계 모델, 통계 시뮬레이션)
=> 역동적 분석에 적합
- 다양한 패키지 제공으로 적은 라인 코딩으로 강력한 기능 구현
2. R의 단점
- 개발자가 배우기 쉽지 않다
=> 함수형, 절차형 언어의 혼합
=> 통계학자들이 만든 언어라 통계용어 난무
- 통계학자도 배우기 쉽지 않다
=> 프로그래밍 언어
3. R의 성장 가능성
- 해외 리서치 영역에서 R이 기본
- 국내 대학 및 각종 교육이 활성화
- 대형 벤더에서 R을 인터페이싱
- 현재 데이터 분석툴로 엑셀 다음으로 큰 시장
- 데이터 마이닝 툴로 R이 가장 많이 사용되고 두번째로 SQL이 많이 사용
- 독보적인 하둡기반 BIG DATA 분석 플랫폼
4. RHive
- SQL을 사용하여 명령을 실행하도록 해주는 패키지
QnA
1. 빅데이터가 정말 도움이 되는가?
- 큰 데이터에 적합한 접근 방법을 사용하지 않는다면 그 데이터는 쓰레기 밖에 되지 않는다.
따라서 접근 방법을 결정하는 데이터 과학자 또는 분석가의 역할이 중요하다
2. 데이터 과학자에 대한 요구사항
- 빠르게 눈으로 직접 확인해야 것들이 많아졌다
- 빠르게 다양한 포맷의 데이터를 병합하고 쪼개보고 꼬아봐야 한다
- 빠르게 최신 알고리즘 부터 오래된 알고리즘까지 적용가능한지 시도해야 한다
'스터디' 카테고리의 다른 글
SQL Unplugged 2012 후기 (0) | 2012.04.23 |
---|