이러한 경우 회사는 대용량 데이터의 사용에 그들의 성과 공유 하고자 많이 보았습니다. IT 산업 (용어)에 어떤 패러다임 변화에 특정 테마 뉴스 미디어, 투자자 및 혁신, 강력한 상업 가격 지원이 필요로 하는 변화에 관심을 많이 유치. 이 일반적인 경우는: 고객 서비스, 분산 컴퓨팅, 서비스 지향 아키텍처 및 자바 같은 언어.
우리는 또한 출현의 유리한 생태계를 보았다, 핵심 지원 기술, 대용량 데이터의 빠른 찬양 또는 확장 기능 경우, 큰 데이터 생태계는 빠르게 기술 공급자의 그룹에 초점을 맞춘.
그래서 어떤 동향 큰 데이터 생태계에서 나 볼 수 있습니다?
SQL 확장성 및 일관성을 위해 하 둡에
기술 회사의 많은 수는 Hadoop 등 큰 데이터에 대 한 솔루션을 제공 하 없는 sql 기술을 구축 하려고 합니다. 그러나, SQL 언어 지원의 폭과 깊이, 다르지만 SQL 전문 분석가와 이러한 혜택을 사용 하 여 SQL 언어에 큰 데이터를 조작 하는 것이 가능 하다.
(참고: 현재 대형 데이터 저장소는 관계형 데이터베이스에 기반 하지 않은, 이후 SQL 통해 데이터 조작의 전통적인 방법으로 직접 사용할 수 없습니다, 예: Hadoop에 저장 된 데이터는 SQL을 통해 직접 쿼리할 수 없습니다.) 따라서, 전통적인 SQL 언어 해야 작동, 예를 들면 중간: Hadoop에 하이브는 MapReduce를 읽고 Hadoop에 데이터 조작 SQL 변환. )
구조화 및 반 구조화 된 데이터에 대 한 통합된 지원
언제 든 지 구조화 되지 않은 데이터의 성장, IDC 예측 데이터의 수, 가장의 구조화 되지 않은 형태로 저장 될 것 이다 하 고 40%에서 하루. 2020 년 데이터의 총 금액을 50%로 성장할 것입니다 도달 한다 40ZB. 구조화 되지 않은 데이터에서 주로 온다: 메일, 포럼, 블로그, 소셜 네트워크, POS 시스템 및 기계 데이터를 생성. 캡처하고 이러한 대용량 데이터 볼륨 분석, 혁신 하나 뿐 아니라 그들의 큰 데이터 솔루션을 확장 해야 합니다.
검색 최적화
전에 그들은 건초 더미에서 바늘 처럼 보이는 거 대 한 양의 데이터에서 볼 수 있습니다 전에 사용자의 실제 검색 요구에 밖으로 찾는 거의 불가능 하다. 하지만 언제 든 지 더 큰 데이터 솔루션 검색 지원에 통합 됩니다. 이런 점에서 지도자 이다: Lucidworks, ibm, 오라클 (그것의 수집 endeca) Autonomyandmarklogic. 어디 Lucidworks Lucene, Solr, hadoop, mahout 및 NLP의 오픈 소스 더미를 결합 합니다.
ETL 확장 및 지원
많은 사람들이 생각 Hadoop 보안의 첫 번째 사용은 ETL에 대 한 일괄 처리 기능 때문에. 그러나, ETL 솔루션에 기반한 복잡 한 Hadoop 플랫폼의 모든 인프라를 참조 하는 경우에 그것을 해결 하기 위해 다른 순수 인포, talend, syncsort, cloveretl ETL 도구를 사용할 수 있습니다. 수 년에 걸쳐이 회사 ETL 솔루션의 가장 값 조합을 만들려고 분투 하 고 지금 더 우리 전화: 데이터 통합 솔루션.
순수한 ETL 공급자는 대용량 데이터에 대 한 솔루션을 제공 하려고 합니다. 이러한 지원 포함 하기 쉽습니다: ETL, elt에서 변환 포함 하 둡 둡 내부. 이로써 순수 ETL 솔루션 Hadoop 자체의 강력한 기능을 사용 하 여 빌드 환경을 사용 하는 회사. 시간의 개발이 순수 영어 교육 회사에서 배열 하는 큰 데이터 솔루션 지원: Newsql과 NoSQL.
또한, 많은 전통적인 데이터베이스 공급 업체 포함 되었거나 ETL 솔루션 인수 때와 마찬가지로 ETL 및 영어 교육에 대 한 지원을 포함 많은 큰 데이터 솔루션 기업 기대 합니다.
안정화 하는 큰 데이터 이동
나의 이전 기사에서 Hadoop 아파치 오픈 소스 프레임 워크를 사용 하 분석의 맥락에서 특히 배치 지향, 분산 환경에서 사용 되었습니다. 언제 든 지 회사 지배 하 고 실시간 의사 결정에 대 한 많은 양의 데이터 리소스를 사용 하는 방법에 초점을 시작 하 고 우리는 '빅 데이터 이동' 영향 및 성장에 대 한 상당한 도움을 기대 하 고. 이 "방문" 다양 한 산업에서 데이터의 큰 스트림을 처리 하는 데 사용 하는 정보의 실시간 흐름을 나타내는: 자본 시장, 의료 7, 에너지와 소셜 미디어.
데이터 마이닝 및 분석 기법을 증가
대용량 데이터 분야에서 산업 세그먼트 데이터 분석 및 통계 기능 그들의 플랫폼에서 확장 하는 필요를 알고 있다. 일반 분석 뿐만 아니라 기능 또한 매우 데이터 마이닝 기능을 추가합니다. Teradataaste 지원 통계, 텍스트 마이닝, 이미지, 감정 분석, 등을 포함 한 많은 분석 기능을 포함 합니다. Ibmnetezza, 같은 다른 회사, R, r 패키지, 병렬 알고리즘 패키지 및 매트릭스 관련 패키지의 모든 종류를 지 원하는 대 한 지원을 추가 했습니다. 미래에 우리는 큰 데이터 솔루션이 계속 증가 하는 많은 수에서이 기능을 볼 수 있습니다.
R 언어에서 이익
R 언어 더 인기 있는 오픈 소스 통계 언어 될 것입니다 의심의 여지가 있다. Revolutionanalytics 회사 성능이 R 버전의 "산업" 사용의 개발에 크게 향상 된 및 다른 기업의 특성에 맞게. 조금 더 많은, 그들은 Hadoop과 Puredata에 적용할 수 있는 r 확장 팩을 개발 했습니다. 대학 또한 복잡 한 통계 분석 처리 능력 R, 사용 하는 기능을가지고 더 많은 학생 들을 수 있는 넓은 범위의 R-언어 코스를 제공 합니다. 그것은 R 많은 큰 데이터 솔루션에 포함 될 것 이다 고 크게 성능 향상을 위해 언어를 향상 시킬 것입니다 예견 될 수 있다.
대용량 데이터 환경의 개발, 관련된 산업의 발전에 의해 동반 되어야 합니다. 오늘날의 경쟁 환경에서 기업 데이터 기반 전략을 구현 하는 경쟁 우위를 얻을 것 이다.