http://www.aliyun.com/zixun/aggregation/13584.html "> 대량 데이터 두 부분으로 나누어져, 하나는 시스템 건설 기술, 2, 대규모 데이터 응용 프로그램."
우선, 시스템 구축, 주류 기술 Hadoop, 지금 주로 기반 MapReduce 분산된 프레임 워크. 이제이 먼저 배울 수 있습니다. 하지만 제 요점은 전에 분산된 시스템 밖으로 나오는, 그것은 주로 중앙 집중식된 아키텍처, db2, 같은 oracle. 왜 분산된 아키텍처 지금, 중앙 집중식된 아키텍처 IO 성능에 의해 제한 됩니다 때문에, 밖으로 나올 경우 느리게 다른 하드웨어 기술, 대용량의 데이터 수요를 충족, 중앙 집중식된 아키텍처는 안정, 때문에 중앙 집중식된 아키텍처는 분산된 아키텍처에 우수한 성능 신속 하 게 해결할 수 있는 작업 차원의 압력은 작다. 이제 중앙 집중식된 아키텍처는 성능 필요 하지 또는 너무 비 싸. 기대 기술 전송 하 고 데이터를 매우 신속 하 게 처리할 수 있는 중앙 집중식된 아키텍처를 사람들의 눈에 다시 얻을 것 이다 있도록 합니다. 또, 대규모 데이터 응용 프로그램입니다. 데이터 마이닝 및 기계 알고리즘은 대량 데이터의 주요 응용 프로그램. 맞춤된 검색 및 추천, 소셜 네트워킹 발견, 정밀 마케팅, 정밀 광고, 실시간 최적 경로, 인공 지능와 같은 다른 응용 프로그램 시나리오가 있습니다. 시스템 지원 기술 또는 비즈니스 응용 프로그램의 조합 하 고 싶은 경우를 참조 하십시오.
시스템을 지금 구축 하는 기술을 학습 하는 경우 다음 책을 읽을 수 있습니다.
데이터 마이닝 및 기계 알고리즘을 배울 것이 좋습니다 먼저 데이터 마이닝의 소개를 보면 통계 분석 원칙, Mahout, r, matlab