대용량 데이터 처리의 영역, 내 자신의 연락처는 긴, 공식적인 프로젝트는 아직 개발 대형 데이터 처리 매력에 의해, 그래서 기사를 쓰기의 아이디어. 큰 데이터 데이터베이스 기술 카산드라, 몽고와 "NO SQL", Hadoop 등의 형태로 제공 됩니다. 데이터의 실시간 분석 이제 쉬울 것입니다. 이제 클러스터의 변화 더 신뢰할 수 있을 것입니다, 20 분 이내에 완료할 수 있습니다. 우리 테이블와 그것을 지원 하기 때문에? 하지만 이들은 좀 더 새로운, 미 개발 장점과 기존의 이러한 추측을 넘어 특별 한 기회.
알다시피, 25만 오픈 소스 기술을 시장에 오늘 있다. 우리 주위에, 이러한 복잡 한 시스템은, 우리가 본 적 차트를 봐 다음:
우리 아직 적어도 옵션 많은 선택. 당신의 목표는 무엇입니까? 무엇입니까 2000 회사의 다음 보물? 어떤 프로젝트에서 사용할 수 신뢰할 수 있는 후보자로 실제 제품 단계? 무슨 특별 한 주의를 지불 해야? 우리가 연구를 많이 했 고 테스트, 그래서 큰 데이터를 흔들어 5 새로운 기술. 이러한 도구 중 몇 가지 새로운 세트, 살펴보겠습니다.
폭풍과 카프카는 데이터 스트림 처리 앞으로의 주요 방법, 그들은 일부 대기업 배 고 파, Groupon, 알리바바, 날씨 채널 등에서 사용 된. 스톰, 트위터에, 태어난 분산된 실시간 컴퓨팅 시스템 이다. 폭풍은 실시간 컴퓨팅, 처리 하도록 하 고 Hadoop은 주로 일괄 처리 작업을 처리 하는 데 사용 됩니다.
카프카는 데이터 처리를 위한 도관으로 시스템의 일부인 LinkedIn에 의해 개발 된 메시징 시스템입니다. 그들 함께 사용 하는 경우 실시간으로 고 선형 증분 데이터를 얻을 수 있습니다.
왜 상관 해야 하나요?
폭풍과 카프카를 사용 하 여 데이터 스트림은 선형 방식으로, 각 메시지는 실시간으로 그리고 안정적으로 얻어진 확인 처리 됩니다. 폭풍과 카프카 초당 10000 데이터를 원활 하 게 처리할 수 있습니다.
데이터 흐름 처리 제도 같은 폭풍과 카프카 많은 기업 우려 하 게 우수한 ETL (풀 변환 부하) 데이터 통합 시나리오를 달성 하고자 합니다. 폭풍과 카프카는 또한 메모리 분석 및 실시간 의사 결정 지원에 좋다. 일괄 처리 Hadoop 제도의 기업의 사용은 실시간 비즈니스 요구에 대 한. 실시간 데이터 흐름 처리는 엔터프라이즈의 큰 데이터 솔루션에 필요한 모듈 "3v"-볼륨, 속도 다양 한 (용량, 속도 다양성)을 정상적으로 처리 하기 때문입니다. 이 2 기술, 폭풍과 카프카, 우리 (infochimps)를 위해 가장 권장된 기술 이며 그들은 또한 공식적인 구성 요소로 서 우리의 플랫폼의 일부가 됩니다. 드릴 및 Dremel 대규모, ad hoc 쿼리 데이터 검색의 빠르고 낮은 부하를 실현. 그들은 P 수준 데이터와 임시 쿼리 및 예측, 대응 강력한 가상화 지원에 대 한 2 차 검색의 가능성을 제공 합니다.
드릴 및 Dremel 뿐 아니라 데이터 엔지니어에 대 한 강력한 비즈니스 처리 기능을 제공합니다. 비즈니스 측면에 모두 드릴 것 이며 Dremel.drill 구글의 Dremel 오픈 소스 버전입니다. Dremel은 Google 대용량 데이터 쿼리를 지원 하기 위해 제공 하는 기술 이다. 회사는 모두 훈련에 주의를 일으키는 원인이 되는 자신의 도구를 개발 하 그것을 사용 합니다. 시작 하지 않습니다, 하는 동안 오픈 소스 커뮤니티에 더 성숙한 제작에 강한 대입니다.
당신은 왜 염려 해야 합니까?
드릴 및 Dremel Hadoop 보다 임시 쿼리 분석에 더 있습니다. Hadoop은만 단점이 있습니다 대량 데이터 처리 워크플로 제공 합니다.
Hadoop 생물권 MapReduce 광고 분석을 위한 매우 친숙 한 도구를 만드는. 많은 인터페이스 계층에서에서 응용 프로그램 sawzall 하이브를 돼지 Hadoop 친근 하 고 가까운 비즈니스, 하지만, SQL 시스템 처럼 이러한 추상화 체계적인 데이터 처리 프로세스에 대 한 중요 한 사실을-mapreduce (Hadoop)을 무시. 만약 당신이 실행 작업에 대 한 걱정? 상관 없어 하는 경우 발생 하 고 답변을 추구, 당신의 입을 그 문제에 대 한 종료 하 고 통찰력 있는 유지. "즉석 탐사"-이미 데이터 처리에 찍은, 만약 얼마나 빨리 할 최적화? 하지 새 작업이 나 대기, 실행 하 고 때로는 새로운 질문을 고려 한다.
힙 대비에 따라 워크플로 방법론에서 많은 비즈니스 기반 bi 및 분석 쿼리는 모두 기본 임시, 낮은 대기 시간 분석 합니다. 글 맵/리듀스 워크플로 많은 비즈니스 분석에서 금지 됩니다. 이러한 데이터 무료 인터랙티브 경험, 이러한 비교, 및 배율 비교를 수행 하는 등 궁극적으로 기본적인 새로운 비전을 생산, 작업 시작, 몇 시간을 위한 몇 분 기다려 기다려. 일부 데이터 과학자는 오래 드릴 및 Dremel Hadoop을 능가할 것 이다 그리고 동의 몇 매니아 즉시 포용 변경, 일부는 여전히 고려, 하지만 이들은 더 많은 쿼리 및 대기 시간이 낮은 상황에서 주요 이점은 추측 했다. Infochimps 우리는 Elasticsearch 풀-텍스트 인덱싱 엔진을 사용 하 여 데이터베이스 데이터의 검색, 달성 하고자 하지만 정말 큰 데이터 처리에 우리 생각 드릴 주류가 될 것 이다.
R은 오픈 소스에 대 한 강력한 통계 프로그래밍 언어입니다. 1997 년부터, 통계 분석가의 2 백만 이상의 R. 사용 이것은 통계 컴퓨팅 분야에 벨 연구소에서 태어난 신속 하 게 되었고 통계 언어의 새로운 표준 S 언어의 현대 버전. R은 복잡 한 데이터 과학 저렴 합니다. R은 SAS에 만들, 그리고 최고의 통계학자를 위한 중요 한 도구로 서 중요 한 지도자입니다.
당신은 왜 염려 해야 합니까?
지원 하기 위해 매우 강력한 커뮤니티를가지고 있기 때문에 찾을 수 있습니다 R의 클래스 라이브러리의 모든 새로운 코드를 작성할 필요 없이 가상 유형의 과학적인 데이터를 만드는. R은 그의 백성의 유지 보수와 새로운 일의 창조 때문에 흥미로운입니다. 연구 커뮤니티 빅 데이터 분야에서 흥미로운 장소 중 하나입니다. R는 큰 데이터 필드에 쓸모 있는 우수한 기술. 최근 몇 달 동안, 또한 새로운 기능의 수천은 점점 오픈 기술 자료. 분석가 의해 도입 되었습니다, 그리고 R와 Hadoop 함께 잘 작동으로 큰 데이터 처리의 일부 입증 되었습니다. 집중: R의 죽은 느린 느린 인터프리터를 좋아하지 않는 그것 때문에 줄리아는 흥미로운 r 교체입니다. 줄리아의 커뮤니티는 강한 지금, 하지만 즉시 사용 하지 않으면, 당신은 기다릴 수 있다. 괴물 및 giraph 그래픽 분석을 강화 하는 데 도움이 neo4j와 Infinitegraph, 같은 다이어그램 데이터베이스에서 Hadoop을 사용 하는 giraph에서 사용 됩니다. 골든 오브 다른 높은 수준의 스트림 처리 다이어그램에 따라 프로젝트의 예입니다. 볼 수 있습니다. 그래프 데이터베이스는 매력적이 고 소외 데이터베이스. 흥미로운 차이 많이 있으며 관계형 데이터베이스와이 관계형 형식 이론 보다는 그래프 이론에 대 한 생각 밖으로 시작할 때입니다.
또 다른 유사한 그래프 이론에 따라 놈 아에 비해 구글의 Pregel 이며 Giraph 그것의 오픈 소스 대안입니다. 사실, 이들은 구글 기술의 SHANZHAI 구현의 예입니다. 그래프는 네트워크 모델링 및 소셜 네트워크, 컴퓨팅에 중요 한 역할 하 고 임의의 데이터를 연결할 수 있습니다. 다른 상용 응용 프로그램 매핑 및 지리적 정보 컴퓨팅 이다. 계산에서 최단 거리를 B 위치로. 그래프는 바이오 컴퓨팅 및 물리적 컴퓨팅의 분야에서 또한 널리 이용 된다, 예를 들면, 그들은 특이 한 분자 구조를 그릴 수 있습니다. 거 대 한 그래프, 그래프 데이터베이스와 분석 언어와 프레임 워크의 대용량 데이터의 실제 구현 모든 부분입니다. 그래프 이론의 살인자 응용 프로그램. 대규모 네트워크 노드 문제에 어떤 해결책 든 지 노드 및 노드 사이의 경로 통해 처리 됩니다 많은 창조적인 과학자와 엔지니어는 문제를 해결 하기 위해 적절 한 도구를 사용 하 여에 대 한 매우 명확한. 그들은 모두 아름 답게 작동 하 고 널리 확산 될 수 있다 다는 것을 확인 하십시오.
SAP 하나 메모리 데이터베이스를 포함 하는 전체 메모리 분석 플랫폼 이며 일부 관련 도구 소프트웨어 분석 프로세스를 만들고 데이터 입력 및 출력에 대 한 올바른 포맷을 표준화 하는 데 사용 합니다.
내가 왜 염려 해야 합니까?
SAP는 응고 기업 사용자를 위한 강력한 제품의 개발에 무료로 사용 개체 시작 됩니다. 그것은 신생 기업, 하나를 사용 하 여 그들에 대해 생각을 시작 하는 단지 sap입니다. 그들은 커뮤니티 솔루션의 개발을 승인 하 고 하나 결과 돌고 있는이 특이 한 사례.
하나는 다른 프로세스와 같은 금융 모델링 및 의사 결정 지원, 웹사이트 개인화 및 스푸핑 감지 문제를 해결 하기 위해 충분히 빨리 되지 않습니다 가정 합니다. 꽃의 가장 큰 단점은 "전체 메모리", 분명 메모리의 부드러운 상태를 액세스 하는 것을 의미 하지만 이것은 또한 디스크 스토리지에 비해 비싼 부분 이다. 조직, 운영 비용에 대 한 걱정 없이 따라 하나는 신속 하 게 지연 대형 데이터 처리 도구입니다.
D3 원래 목록, 하지만 그것의 친밀에서 우리는 그 가치를 언급 하는 생각. D 3는 문서의 자바 지향 비주얼 라이브러리입니다. 그것은 강력 하 고 혁신적인 그래서 우리가 정보를 직접 볼 수 있고 우리가 정상적인 상호 작용을 할입니다. 그것의 저자는 마이클 Bostock, 뉴욕 타임즈 그래픽 인터페이스 디자이너. 예를 들어 h를 만드는 d 3을 사용할 수 있습니다™ l 테이블 배열의 수에서. 인터랙티브 진행률 표시줄 만들기를 모든 데이터를 사용할 수 있습니다. 여기 2013 오바마의 여론을 만든 d 3의 실제적인 예가입니다. D 3와 프로그래머 인터페이스를 만들 수 있으며 모든 종류의 데이터를 구성.
비록이 기사, 하지만 또한 나에 게 실질적인 번역 비용, 번역의 부족 난 희망 당신이 나 올바른 것입니다. 실제로,이 기사를 읽고, 난 개방 환경 덕분에, 그것을 좋아하는 사람들과 함께 그것을 공유 하 고 싶습니다, 그리고 그래서 미국 IT 분야에는 항상 너무 놀라운, 물론, 우리 계속.
그것은 서 바이 영웅 담을 밖으로 BitWare 현재 문제를 해결 하기 위해 다른 기술을 다른 회사에는 Hadoop의 공식 사용 이후 거의 1 년 되었습니다. 하지만 문제는 항상 몇 가지, 물론, 많은 기업 들 또한 Hadoop의 사용의 시작. 이것은 그렇게 이해할 수 있는 큰 환경 이다.입니다.
다음은 문서에 대 한 개인적인 이해가입니다.
폭풍과 이후, 11에서 카프카에 주목 하기 시작 했다, 알리에 폭풍 또한 전반적인 하지만 두 번째 라인 응용 프로그램, 그냥 살 폭풍 Nathanmarz에 더 연 삭에서 더 안정적이 고, 일부 온라인 응용 프로그램의 일부. 이 기술에 대 한 전반적으로, 난 여전히 매우 낙관적 이제 Hadoop을 사용 하 여 실시간 처리를 달성할 수 없다 때문에 사용 하는 주 데이터베이스에 대 한 HBase를 사용 하 여, 그래서 여전히 일시적으로 해결 될 수 있다, 하지만 여전히 폭풍, 카프카는 하지 않습니다, 하지만이의 사용과 함께 하려고 하 매우 좋은 것 이다, 자신에 의해 실행 되지 않았다.
드릴이 전에 아파치 오픈 소스 프로젝트는 또한 종이, 무기력을 보고 매우 아니다 Google Dremel 쳐다보면서 이제 발생 하지 않았다 이러한 환경, 그리고, 커뮤니티 단지 화재 후속, 많은 시간이 너무 일시적으로 보류 하 고 이해.
바이, 시간 전에 R 언어, 너희들 다음 문 R 언어 작업의 사용에서은,이 있을 수 있습니다만 대기업 능력 진짜 마이닝 측면을 가질 수 있습니다, 우리는 지금 기본 비즈니스 사용 하지 않은, R은 여전히 매우 친숙 한 다른 기술적 수단을 사용 하 여 서로 다른 환경에서 내 개인 작업 하지만 마치, 의사 사운드 광 타격 상자, 우리는 전기 바람 불고, 동일한 현실화 바.
그래프 데이터베이스 분야에서 정말 자세한 응용 프로그램, 입력 같은 회사, 그래서 아직 기회가 그것을 보류입니다.
스파가이 회사 들었지만 이름, 구체적인 접촉, 판매 솔루션 견적 좋지, 않다 지금 얻을 가시성을 개선 하는 것은 여전히 필요 하다. 이제는 오래 씹 어 시간이 끝났습니다.
마지막 영상 JS 클래스 라이브러리, 관심은 큰, 비즈니스 괜찮습니다 그래서 프런트 엔드를 할 수 없습니다.