특히, 우리는 IBM의 infosphere에서 데이터를 추진 하는 방법에 대 한 얘기 하자® biginsights™ (Hadoop 기반 플랫폼) Infosphere 데이터 탐색기. Infosphere 데이터 탐색기는 탐구 하 고 여러 기업 및 외부 데이터 원본에서 데이터를 결합 하 여 비즈니스 사용자가 복잡 한 도구입니다.
만약 당신이 많은 주위에 큰 데이터 초기 사례 분석에 초점을 했습니다, 당신은 당신이 모르는 무엇을 알고 하지 않습니다 믿을 수 있습니다. 실제로, 큰 데이터 응용 프로그램에서 데이터를 삭제 또는 여러 가지 이유로 무시 수 있습니다 비즈니스 통찰력을 수집에 자주 집중 된다. 회사는 단순히 프로 빙 또는 큰 데이터 분석을 포함 하는 포괄적인 정보 관리 전략을 개발 하기 위해 점점 보고 있다. 특히, 그들은 그들의 전반적인 정보 관리 전략에 (를 포함 하 여 관계형 DBMS, 엔터프라이즈 콘텐츠 관리 시스템, 데이터 웨어 하우스, 등) 기존 데이터 시스템과 대용량 데이터를 통합 합니다.
이 문서가 도전 한 측면을 분석 하 여, 프레임 워크와 방법론 크고 전통적인 데이터 원본 인덱싱 나열 하 고 이러한 서로 다른 데이터 원본에 새로운 통찰력을 발견 웹 기반 인터페이스를 제공 합니다. 특히, 그것은 어떻게 설명 합니다 데이터 탐색기 (데이터 검색 플랫폼) Infosphere biginsights 관리에 대 한 인덱스는 큰 데이터 지 속성 형식 기존 엔터프라이즈 데이터와의 통합을 지원 합니다. 두 데이터 탐색기 biginsights IBM의 대용량 데이터 플랫폼의 중요 한 구성 되므로 우리는 먼저이 플랫폼 및이 두 가지 중요 한 제품 개요.
IBM의 대형 데이터 플랫폼 개요
IBM의 대형 데이터 플랫폼은 조직 탐구, 분석, 그리고 스트리밍 데이터, 전통적인 비즈니스 데이터, 그리고 "비 전통적인" 데이터 또는 비즈니스 인텔리전스 및 엔터프라이즈 분석 플랫폼에 통합 이전 힘들었을 보조 데이터를 포함 하 여 다양 한 데이터를 관리할 수 있도록 설계 되었습니다. 이 플랫폼 및 다음 두 가지 중요 한 구성 요소에 초점에 대 한 간단한 보고로 시작 하자: Infosphere 데이터 탐색기 및 Infosphere biginsights.
그림 1에 다른 상용 제품 기능의 그것의 부유에 IBM의 대용량 데이터 플랫폼의 아키텍처를 보여 줍니다. 위에서 아래로, IBM의 플랫폼 포함 다양 한 기능 및 시각화 하 고 다양 한 데이터 소스에서에서 통찰력을 발견 기술 분석 응용 프로그램을 개발 및 환경 관리에 표시 됩니다. 데이터 탐색기 더 자세히 나중에 해당 구성 요소 설명 하겠습니다 그래서 IBM의 대용량 데이터 플랫폼에 대 한 중요 한 시각화와 검색 기능을 제공 합니다. 그림 1에 표시 된 가속기 수십 기업 소셜 미디어 및 로깅 컴퓨터 데이터를 분석 하는 솔루션을 신속 하 게 배포할 수 있도록 미리 만들어진된 소프트웨어 아티팩트를 포함 하는 IBM의 툴킷입니다. 3 데이터 처리 엔진 사용 다양성, 볼륨, 및 큰 데이터에 내재 된 속도에 효과적으로 대응 하는 조직. Hadoop 기반 시스템 (biginsights는 나중에 자세히 살펴보겠습니다), 스트리밍 컴퓨팅 플랫폼 (Infosphere 스트림), 및 데이터 웨어하우스 플랫폼을 포함 하는이 엔진 (분석 또는 d b 2에 대 한 Puredata™ 같은®). 마지막으로, IBM의 대용량 데이터 플랫폼은 또한 관계형 DBMS, 추출/변환/로딩 플랫폼, 비즈니스 인텔리 전스 도구, 콘텐츠 관리 시스템, 그리고 더 많은 포함 한 다른 인기 있는 엔터프라이즈 소프트웨어에 대 한 연결을 포함 합니다.
그림 1입니다. IBM의 대형 데이터 플랫폼 아키텍처
Infosphere biginsights 개요
Infosphere Biginsights는 IBM 유지 하 고 여러 형태로 대용량 데이터 분석을 위한 플랫폼입니다. 오픈 소스 아파치 하 둡 프로젝트에 따라, Biginsights는 회사 발견 하 고 대량의 데이터를 무시 하거나 비현실적 또는 전통적인 방법을 사용 하 여 데이터를 처리 하기 어려운 하기 때문에 일반 시간에 폐기 수에 숨겨져 있는 비즈니스 통찰력을 분석 하도록 설계 되었습니다. 이러한 데이터의 예로 로깅 포함, 흐름, 소셜 미디어 데이터, 뉴스 소스, 전자 메일, 전자 센서 출력, 그리고 심지어 일부 트랜잭션 데이터를 클릭 합니다.
기업이 효율적으로 이러한 유형의 데이터에서 값을 파생 하려면 몇 가지 오픈 소스 프로젝트를 Hadoop 생태계, 뿐만 아니라 강화 하 고이 오픈 소스 소프트웨어의 가치를 확장 하는 IBM에 의해 개발 된 기술에서 Biginsights Enterprise Edition에 포함 되어 있습니다. 그림 2에서와 같이, 이러한 기술 분석 도구, 개발 도구, 플랫폼 개선, 및 엔터프라이즈 소프트웨어 통합 응용 프로그램 가속기에서 스팬. 예를 들어 biginsights 고객 문서, 전자 메일, 및 메시지에서 콘텐츠 및 컨텍스트를 추출에 복잡 한 텍스트 분석을 사용할 수 있습니다. 응용 프로그램 개발자는 사용자 지정 Java™ mapreduce, JAQL, 하이브, 돼지, 그리고 텍스트 분석 응용 프로그램의 개발을 가속화 하는 이클립스 기반으로 마법사를 사용할 수 있습니다. 통합된 웹 콘솔에는 관리 및 비즈니스 사용자가 웹 기반 카탈로그를 통해 IBM 제공 또는 자체 개발 응용 프로그램을 실행 그들의 biginsights 환경 모니터링 관리자 수 있습니다.
이 문서에서는, 우리는 biginsights 기능, 텍스트 분석 및 응용 프로그램 수명 주기 도구 등의 하위 집합에 집중할 것 이다.
그림 2입니다. Infosphere biginsights 아키텍처
Infosphere 데이터 탐색기 개요
Infosphere 데이터 탐색기를 사용 하면 인덱스의 구조적, 비구조적, 많은 수 및 다른 데이터 원본에서 반 구조화 된 데이터를 수 있습니다. 그것은 또한 대규모 데이터 검색 응용 프로그램 및 360도 정보 어플리케이션을 구축 하는 기능을 제공 합니다. Infosphere 데이터 탐색기 다른 내부 및 외부 데이터 저장소에 저장 된 데이터의 대규모 컬렉션에 따라 데이터를 이동 하지 않고 사용자가 다른 엔터티 (예: 고객, 제품, 이벤트, 파트너, 및 등)에 대 한 정보 보기를 만들 수 있습니다.
오늘날의 기업에 대 한 중요 한 과제는 사용자가 신속 하 게 비즈니스 문제를 해결 하거나 작업을 완료 하는 데 필요한 정보를 찾을 수 없습니다. 일반적으로, 데이터는 다른 조직에 의해 관리 되는 특정 응용 프로그램을 지 원하는 다른 시스템에 분산 됩니다. 또한, 새로운 데이터 소스 지 중요 한 자원, 고 있습니다 사람들이 고려해 야 할 그들 그들의 일상 업무에 중요 한 결정, 소셜 미디어, 모바일 장치에서 소스 트위터와 같은 고 등에서 할 수 있습니다.
이 예제는 연락처 정보와 같은 고객 정보, 구입한 제품, 서비스 정보, 보증 정보는 다른 비즈니스 응용 프로그램에 저장 된 CRM, 같은 지원 티켓 시스템, 포털, 시장에. 추가 판매는 고객에 게 연락 하 고 싶은 판매원을 상상해 보세요. 그는 먼저 고객의 정보를 요약 하거나이 모든 정보를 이해 하는 것 5 사람들과 의사 소통을 10 응용 프로그램에 로그인 해야 합니다.
데이터 탐색기는이 중요 한 문제를 해결합니다. 정보 많은 다른 시스템에 사일로, 저장 그리고 사용자 필요가 일관 된 방식으로 모든 데이터를 보고 신속 하 게 그들에 게 가장 관련 된 정보를 탐색. 도전은 여기 직원 들은 가장 결정 필요로이 정보를 제공 하는.
그림 3입니다. Infosphere 데이터 탐색기 아키텍처