데이터 분석 ≠hadoop + nosql, 먼저 완성 하는 기존의 기술 10 바로 가기 봐 하실 수 있습니다.

출처: 인터넷
작성자: 사용자
키워드: 될 수 있는 모든 볼륨

그것은 정말 큰 데이터 기술, 비즈니스를 유혹 하 고 유혹 Apache Hadoop에 게 더 많은 폭력. Hadoop은 대규모 확장 가능한 데이터 스토리지 플랫폼의 가장 큰 데이터 프로젝트의 기초를 형성 하는. Hadoop은 강력한, 하지만 그것은 배우는 에너지 및 기타 자원을 많이 투자 하는 회사가 필요 합니다.

만약 당신이 올바른 응용 프로그램, Hadoop 실제로 회사의 비즈니스를 향상 시킬 수 있습니다 하지만이 hadoop의 응용 프로그램 가시와 고민. 다른 측면에서 많은 회사 (하지 구글, 페이스 북 이나 트위터, 물론) 동일한 양의 데이터를 분석 하 고, 거 대 한 Hadoop 클러스터를 요구 하 고 그들은 단순히 끌리는 인기 문구 "빅 데이터"에 의해.

Dabid 휠러 말했다, "컴퓨터 과학에 있는 모든 문제는 간접 솔루션의 다른 수준"와 Hadoop 비슷한 간접 솔루션 이며 당신의 상사 몇 가지 인기 있는 단어를 끌 때, 오른쪽 소프트웨어 아키텍처 결정 매우 어려울 것 이다.

Hadoop에 투자 하기 전에 재판을 받이 필요가 있는 몇 가지 대안 다음과 같습니다.

데이터를 알으십시오

데이터의 전체 제품

Hadoop은 대규모 데이터 집합에 대 한 효과적인 솔루션.

기가바이트 파일 시스템 HDFs 그래서 MB만 있다면 당신의 파일 여러 파일 (zip 또는 tar) 메가바이트 또는 기가바이트의 수백을 더 통합할 것 이다. HDFs 파일을 분할 하 고 64 mb에서 저장 128 M, 또는 더 큰 청크.

데이터 집합 매우 작은 경우에, 그것은이 거 대 한 생태계를 사용 하 여 적절 한 되지 않습니다. 이 데이터의 좋은 이해 하 고 어떤 유형의 쿼리 필요와 데이터 인지 정말 충분히 큰 분석 필요 합니다.

다른 한편으로, 주어진 계산 지침 큰 있을 수 있습니다, 거기 수 있습니다 오류 데이터베이스를 통해 데이터의 볼륨을 측정. 때로는 수학적 계산의 배열 또는 작은 데이터 집합의 분석 수 있습니다 있도록 결과 데이터의 실제 볼륨 보다 훨씬 큰 키가 데이터의 진정한 이해는.

데이터 증가의 속도

테라바이트의 데이터 웨어하우스 또는 다른 데이터 원본에 데이터를 할 수 있습니다 하지만 Hadoop 클러스터를 구축 하기 전에 고려해 야 할 하나의 요소는 데이터의 성장 이다.

귀하의 애 널 리스트는 몇 가지 질문 간단한와 같은:

데이터 증가 얼마나 빠른가? 이러한 데이터는 매우 빠른 속도로 성장 하 고? 얼마나 큰 데이터 볼륨 몇 달 또는 몇 년에 있을 것입니다?

많은 기업 들에 대 한 데이터 증가 연간. 이 경우 데이터 성장 속도가 빠릅니다 하지, 보관 하 고 대신 Hadoop을 직접 실행 하는 옵션을 고려 하는 것이 좋습니다.

처리 하는 데이터를 줄이는 방법

데이터의 매우 큰 볼륨을가지고 할 수 십년 동안 업계에 의해 테스트 되었습니다이 옵션에 따라 데이터는 매우 다루기 쉬운 크기를 줄이는 것이 좋습니다 좋습니다.

보관을 고려합니다

데이터 보관의 오래 된 데이터를 별도 저장소 이며 물론 시간 저장에 필요한 실제 요구 사항에 기반 합니다. 이 응용 프로그램에서 데이터의 매우 잘 이해 하 고 데이터를 사용 하 여 필요합니다. 예를 들어 전자 상거래 회사의 대규모 데이터 처리의 데이터를 활성 데이터베이스 및 오래 된 주문으로만 3 개월 별도 저장소에 저장 됩니다.

이 방법은 또한 당신의 데이터 창 고에 적용할 수 있습니다. 물론 보고 및 쿼리에 대 한 최신 데이터를 저장할 수 있습니다 하 고 사용 하 여 자주 사용 되는 데이터에에서 저장할 수 있습니다 별도 저장 장치.

데이터 제거를 고려합니다

가끔 우리는 바쁜 우리가 유지 하기 위해, 필요한 정확 하 게 얼마나 많은 데이터를 모르고 데이터를 수집 하 고 많은 사용 하지 않는 데이터를 저장 하는 경우 그것은 확실히 줄일 수 있는 효과적으로 데이터를 처리할 수 있는 속도. 당신의 비즈니스 요구 및 데이터 삭제 수 있습니다 여부 검토 및 저장 하는 데 필요한 데이터의 종류를 분석 파악 뿐만 아니라 저장 공간을 절약 하지만 효율적인 데이터 분석 속도 증가.

일반적인 최상의 데이터 웨어하우스, Created_date, Created_by, Update_date, updated_by 등에 대 한 추가 열을 만드는 것입니다. 이러한 추가 열을 사용 하면 데이터의 효과적 사이클을 볼 수 있도록 정기적인 접속 통계 데이터에서 수행할 수 있습니다 있습니다. 여기 데이터 제거의 로직에 초점을 먼저 생각 하 고 실현 해야 해야 합니다. 보관 도구를 사용 하는 경우 데이터 정리는 매우 쉽게 될 것입니다.

모든 데이터는 중요 하다.

모든 당신의 비즈니스 관련 데이터를 저장 하는 유혹을 저항 하지 못할 수 있습니다 그리고 수 있습니다 당신은 많은 소스 데이터, 로그 파일 등 마케팅 활동 데이터, ETL 작업에. 모든 데이터는 비즈니스에 중요 한 모든 데이터는 데이터 웨어하우스에서 유지에 도움이 되지 않습니다 이해 해야 합니다. 데이터 소스에서 원하지 않는 데이터를 필터링, 그것 전에 데이터 웨어하우스에 저장 됩니다. 그냥 필요한 데이터를 분석, 모든 데이터를 저장 하지 마십시오.

어떤 데이터를 수집 하려면 통지

온라인 비디오 편집 비즈니스, 당신은 사용자가 하 고 모든 작업을 저장 해야 합니까? 이 데이터의 매우 큰 볼륨에서 발생할 수 있습니다 그리고 당신은 메타 데이터만 저장 하는 것을 고려할 수 있습니다 찾을 경우 데이터 웨어하우스 데이터를 처리 하기 위해 부족 한 것입니다. 비디오 편집 매우 극단적인 예 이지만, 그것은 해도 우리에서 다른 사용 사례에서이 정보를 고려 하 고 있습니다.

정리해 보면, 비즈니스의 요구에 따라 필요한 데이터만 수집 됩니다.

지능형 분석

이해 하는 비즈니스 분석가 고용

지금까지, 당신은 귀하의 비즈니스에 큰 도움이 될 것입니다 당신이 한 후에 모든 위의 고 이해 사업 분석가의 1을 고용 하는 둡을 사용 하기로 데이터의 중요성에 대 한 명확한 이해를 가져야 한다.

데이터 분석에서 값을 가져오는 방법을 알지 못한다면, Hadoop 효과가 없습니다, 그리고 직원에 게 사업에 대 한 깊은 이해에 대 한 투자에 날 림으로 하지 않습니다. 더 실험 하 고 동일한 데이터를 분석 하 고 이익을 위해 기존 인프라를 사용 하는 방법을 찾을 수 있는 새로운 방법을 사용 하도록 권장 합니다.

통계 샘플링을 사용 하 여 의사 결정을 위한

통계 샘플링 연구자와 수학자 데이터의 큰 볼륨에 합리적인 결론을 유추를 사용 하 여 아주 오래 된 기술 라고 할 수 있습니다. 이 단계와 우리 크게 데이터의 볼륨을 줄일 수 있습니다. 데이터 포인트의 수백만 또는 수십억의 추적, 대신 단지 데이터 포인트의 수백 또는 수천의 추적의 문제 이다. 이 방법은 정확한 결과와 우리을 제공 하지 않지만, 그것은 큰 데이터 집합의 이해의 높은 수준을 가질 수 있습니다.

리프팅 기술

당신은 정말 관계형 데이터베이스 처리의 제한에 도달 했습니다?

다른 영역을 탐험 하기 전에 당신은 또한 여부 관계형 데이터베이스 문제를 처리 하기 위해 계속 수에서 찾아야 한다. 전통적인 관계형 데이터베이스 오랜 동안 사용 되었습니다 그리고 많은 조직에서는 이미 사용할 수 TB 급 데이터 웨어하우스를 관리 하. 따라서 Hadoop을 이동 하기 전에 다음과 같은 방법을 고려 하십시오.

데이터 분하시오

데이터 분할은 몇 가지 더 나은 유지 보수 또는 액세스 섹션으로 데이터의 논리적 또는 물리적 부문, 많은 인기 있는 오픈 소스 관계형 데이터베이스 (예: MySQL 파티셔닝 및 포스트 그레스 partitionging) 조각화 지원.

전통적인 데이터베이스에 데이터베이스 조각화를 고려

데이터베이스 조각화 데이터를 다른 노드에서 논리적으로 조각화 될 수 있습니다 드물게 노드 조인 공유 크로스 할 적합 전통적인 관계형 데이터베이스의 성능 한계를 개선 하기 위해 마지막 수단입니다. 네트워크 응용 프로그램에서는 사용자 조각화 기반 및 사용자 관련 정보를 저장 하는 동일한 노드에서 성능을 개선 하는 일반적인 방법입니다.

조각화는 많은 제한, 모든 시나리오에 적합 하지 않습니다 그리고 거기 너무 많은 사용 경우, 노드 jion를 교차 하 고 조각화가 작동 하지 것입니다.

요약

Hadoop의 배포 회사 인간과 물자 자원의 엄청난 금액을 요할 것 이다 그리고 그것은 기존 인프라를 업그레이드 하 여 목표를 달성 하는 것이 좋습니다.

(CSDN)

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.