반응형
하둡 매리듀스(Mapreduce)
매리듀스는 하나의 빅데이터를 많은 수의 작은 데이터 세트로 나눈 후에 여러 개의 서버나 컴퓨터로 내보내어 각각의 작은 데이터 세를 개별적으로 작업한 뒤 다시 합쳐서 모으는 기술
(많은 수의 데이터 처리에 부적합하며 많은 수의 데이터를 처리하는 경우 인메모리(In Memory)나 인데이터베이스(In database) 방식을 적용하는 것이 효율적)
하둡 파일 시스템은 1개의 데이터 파일에 입력된 데이터를 검색하는 것은 빠르지만, 데이터를 다시 꺼내어 정제하고 업데이트하여 분석하는 전처리(preprocess) 과정에는 효율적이지 못하고, 다양한 통계 분석이나 복잡한 고급 알고리즘을 사용하기 어렵다는 단점이 있다.
아직 몇몇 알고리즘(아파치의 머아웃Mahout 이용)을 제외하고는 오픈 소스든 상업용이든 대부분의 분석 알고리즘이 싱글 노드(simgle node)로 생성되고 있어, 다양한 분석 알고리즘을 분산 처리하여 하둡에서 사용하기에는 어려움이 있다.
출처 : 김옥기의 데이터 과학
반응형
'정보공유 > 인공지능' 카테고리의 다른 글
2017 글로벌 인공지능 스타트업 (0) | 2017.10.17 |
---|---|
돌핀어택(DolphinAttack) (0) | 2017.09.07 |
Must have Alexa skills (0) | 2017.07.10 |
텐서플로우 (Tensorflow) (0) | 2017.04.02 |
딥러닝 관련 링크 (0) | 2015.12.23 |