Big Data distributed Parallel Computing Software Framework
- 맵리듀스의 핵심은 두 함수
- 빅처리 프로세스는 최대한 단순하게 만들어야
- 교환법칙과 결합법칙이 성립해야
- 맵리듀스는 여러 노드에 태스크를 분배하는 방법
- 큰 작업에 대해 fork로 분할 반복하고 작으면 join으로 합치고
Limitations of MapReduce
- Memory cannot be wasted to hold the metadata of a large number of smaller data sets.
- The reduce phase cannot start until the map task is complete
- starting a new map task before the completion of the reduce task in the previous application is not possible in standard MapReduce
MapReduce Notion
MapReduce Usages