NoSQL 생물 의학 큰 데이터 릴리스 시간 처리 하는 방법: 2012.05.31 12시 24분 소스: 중관촌 저자: Shelanjing
대규모 데이터에서 대용량 데이터를 구별 하는 하나의 중요 한 특성은 많은 양의 혼합 구조 데이터의 처리. 생물 의학 분야에서 이러한 많은 데이터 처리 있다. 왕 유, 건강 서비스의 연구소에서 연구원 및 의료 정보는 군사 아카데미의 의학, 중국의 클라우드 컴퓨팅 그 의치 대용량 데이터를 처리 하는 데 NoSQL을 사용 하는 회의 4 번째 세션에서 공유에 연결 합니다. 왕 유 말한다 큰 데이터 통합 응용 프로그램 커버 건강 관리 데이터, 대규모 시퀀싱 데이터 및 대용량 데이터 관리, 통합, 분석은 대용량 데이터 아래 그것에 도전.
왕 유는 의학 의학, 생물 공학, 정보 기술 관련 등의 조합 이다 분야, 정보 기술, 연결, 그들은 유전 공학을 통해 하려는 신약 개발, 약물 연구 및 개발, 통합, 기본적인 의료 연구의 결과 더 공부 하는 연구 과정에 따라 말을 해야 우리는이 차트, 암 연구에 5 년간 문학 및 마약 대상 유전자 연구, 정보 기술, 연구의 중요 한 분야로 진화 하 고 큰 데이터 충격을 발생 하는 빠른 봐를 걸릴 수 있습니다. 첫 번째 큰 데이터 소스 높은 처리량, 맞춤된 진단 및 치료 기본적으로 인간과 인간의 유전 차이 통해를 직접 적절의 비동기 향상 된 진단 및 치료에 맞춤된 약물,이 과정은 더 복잡 한, 3 십억 달러의 비용.
큰 데이터의 4 개의 소스
5 개월 마다, 블루 라인 스토리지 동향, 빨간색을 두 번 하는 시퀀싱 기능 2005 기술의 급속 한 발전은 시퀀싱 용량 성장입니다. 경우,이 추세에 비추어 2015 세계 각국의 사람들이 1 백만 그들의 자신의 개인 시퀀싱 문제가 있을 것입니다 예상 된다, 그것 수 있습니다 지금 상상 될 인간의 건강과 의학에 대 한 효과 측정 가능한 경우 그들은 더 나은 개별된 치료 및 생물 기술의 도움으로 약물 치료를 인도 할 수 수 있다는.
우리는 계산 능력과 시퀀싱 기능에 점진적 증가 볼 수 있습니다.
약물 개발의 분야에서 큰 데이터의 또 다른 소스는 또한 생물학, 신약의 개발에 고 암, 약물 목표를 찾는 찾는 찾고 개발 모델 오히려 집중 과정, 중소 기업도 결핵에에서 대 한 기본 설정의 뒤에 이전 기초 연구에서 화합물에 화합물.
데이터의 세 번째 소스 임상 의학, 실험실 데이터 이며 같은 데이터 피츠버그 대학 의료 센터 UPMC는 미국에서 2 TB 도달 매우 빠르게 성장 하는 의료 기관에 데이터를 만들기 위해 결합 됩니다.
건강 관리에서 4 번째 큰 데이터 제공, 모바일 의학은 지난 2 년 동안에서 뜨거운 지역, 비즈니스 조사 1.4 십억 달러에 도달할 것 이다, 10 배 시간, 휴대용 생리 장비 2010에 비해, 모바일 인터넷의 발달로 대중화도 크게, 특히 Web2.0 보건 서비스 및 건강 네트워크, 그들의 자신의 개인 건강 정보에 대 한 모든 헤아릴 수 없는, 모바일 인터넷 800 백만의이 수는 인터넷에 연결할 수 있는 경우 상상할 수 있는이 중요 한 큰 데이터 원본의 미래입니다.
우리가 볼 4 개의 주요 데이터 소스, 위의 사실이 4 개의 데이터 소스 생물학 분야는 고립, 미래 생물학 원하는 통합 되 고, 데이터 마이닝, 임상 의사 결정 지원 분석 이러한 목표를 달성 하거나 우리가 많은 대용량 데이터 관리 및 많은 과제의 분석을 볼 수 있는 말을 합니다. 사실, 이러한 문제는 매우 해결 하기 어려운 지금 클라우드 컴퓨팅 기술 일부 개척자를 사용 하 여 및 혁신 및 기업 다양 한 클라우드 컴퓨팅, 문제를 해결 하기 위해 노력 하 고 또한 고 예비 결과, 클라우드 플랫폼의 사용은, 발표 하는 서비스의 형태에 기본 솔루션 등 클라우드, 일반 중소-중소 연구 기관 수 연구소, 타인의 어깨에 서 서 고 이동이 오픈 서비스를 즐길 수 있습니다.
큰 생물 학적 데이터 응용 프로그램의 4 가지 측면
여기에 구름의 존재에 영향을가지고 클라우드 생물학에 큰 데이터 응용 프로그램에 초점을 4 가지 있습니다. 이 4 개의 측면 있습니다 유전자 시퀀싱, 임상 약물 연구 및 관리, 및 건강 관리. 첫 번째 경우 석 궁, 사람의 건강 분석 이전에 개발을 완료 하는 단일 서버를 의미 하는 게놈 넓은 분석에 대 한 프로세스 소프트웨어 이며,이 소프트웨어는 아마존의 클라우드 플랫폼에서 Hodoop에 의해 시간 축소. 결과적으로, 그것은 지금에 32CPU 핵 임무 압축 3 시간 미만, 100 달러 미만의 전체 비용의 작품의 많은 부분 이다. DNAnexus를 호출 하는 프로젝트의 시작은 석 궁, 사실, 클라우드 컴퓨팅 속도를 더 중요 한 것은 DNS 데이터 분석을 사용 하는 방법에 관련 된 회사에서 우리 회사 실험실에 의해 시퀀싱 악기, 인간 게놈 테스트 데이터를 통해 제공 하는 서비스를 볼 수 있습니다. 600 g 100 g 사이 원시 데이터 시퀀싱 데이터를 매우 유연 하 고 다양 한 범위를 제공 하는 클라우드 서비스 플랫폼으로 서비스의 도입 및 맞춤 워크플로 데이터를 효율적으로 관리할 수 있습니다 및 시퀀싱 결과 사용자의 최고의 형태로 잘 표현 될 수 있다 또는 제 3 자 데이터 보안 및 신뢰할 수 있는 공유.
이것은 작년에서 그것의 기본적인 비즈니스, 회사의 더 유명한 포인트의 다이어그램, 구글 투자 15 백만 달러, CPI 데이터베이스에 게 연락 하는 Google의, 그것의 시퀀싱을 수행 하기 위해 아마존 플랫폼 기반으로 했다 Analysis Services, 아마존 10 CPU, 미래의 소위 사용 Google 클라우드 플랫폼으로 마이그레이션됩니다. Dnanexus 미국 연구 및 개발 투자 뿐만 아니라 매우 신속 하 게, 일부 기업은 비슷한 일 때문에 할 유전자 시퀀싱 분석, 모두 서로 다른 진단 및 치료, 지도에 결과에 따라이 분야에서 데이터 마이닝은 매우 중요 한.
셋째, 임상 의료 데이터 관리 응용 프로그램, 미국 회사 Explorys, 그것은 제 3 자 기관에 서비스를 제공 하는 사설 클라우드 모델 기반, 제 3 자 기관 그들의 자신의 임상 데이터, 재무 데이터는이 플랫폼을 호스팅 운영 데이터를 넣을 수 있습니다, 그리고 실시간 데이터 분석의 가장 큰 혜택을 제공 하는 플랫폼 이 크기 호스팅 13 백만 인, 콘텐츠의 약 440 십억, 60 t B 정도의 데이터 규모, 2013 년에 70 TB에 도달 하면 상위 Hodoop에 기술.
4 응용 프로그램은 전자 의료 기록, 회사는 또한 연습 퓨전,이 작은 이며 중소 미국 이라고 미국, 감소 비용 SaaS 방식으로 사용할 수 있습니다, 그들은 100000, 20 백만 등록된 한 환자를 확장 기능 의사 배치, 환자의 진단 및 치료 계획을 제공 하 고 계약, 심지어는 환자의 개인 관리, 그들은 또한 제공 합니다.
최고 임상 의료 응용 프로그램, 연구 센터, 텍사스 앤더슨 종양학 센터의 대학에 따라 다섯 번째 응용 프로그램은 그들의 자신의 병원 임상 서비스를 충족 하기 위해 미국에 사람들 Analysis Services 그들은 사설 클라우드 구축 합리적인 가상화 및 동적 처리 기능에 대 한 리소스를 제공, 사설 클라우드 지금 모습 처럼 그것은 8000 프로세서의 이상 3 테라 바이트의 데이터를 지원할 수 있습니다, 그리고 그들은 매우 다양 한 수행, 종양 병 리 연구, 역학, 질병 모델 연구의 원인의 정확한 예측, 그들은 해결 하기 위해 사설 클라우드 기술 구축 해야, 그들은 두 고려 사항이 한편으로, 큰 개인 의료 기관 병 리에 대 한 우려는, 자신의 데이터를 그들의 CIO, 의사 소통, 공용 클라우드 서비스 플랫폼 서비스 품질 보증의 제공을 할 수 있을 수 있습니다 발견 그들의 큰 공급 업체의 몇 가지에 따라 매우 큰, 1 십억의 데이터를 사용 하 여 따라서 당신이 당신의 자신의 개인 클라우드 데이터 센터에 투자 하.
여섯 번째 경우 약물 연구 및 개발 프로세스 관리 약물 연구 및 개발 관리는 매우 오랜 시간, 데이터 볼륨이 매우 큰 프로세스, SaaS 서비스를 제공 하는 데이터 관리의 연구 과정에 대 한 일본 후지쯔,이 서비스는 주로 작은 일본어 이며, 중소 기업, 미국에는 할 더 나은, AMAG, 회사 회사 완전히 2009 년에서 비즈니스 했다 그것의 자신의 서버를 구매 하지 않았다 그리고 그것의 비즈니스의 모든 SaaS 모드 소프트웨어 서비스, 스토리지를 포함 하 여 많은 홈 SaaS 서비스는 지금 사용은 이제 6 TB의 Egnyte 저장 용량, 그들은 매우 밝은, 현재, 그들의 데이터 보안을 효과적으로 보장 됩니다.
마이크로 소프트의 HealthVault, 많은 사람들이 의해 도입 된 마지막 경우는 플랫폼을 알고 있어야 합니다, 그리고 그것은 2007 년에 풀어 놓 였다, 목표 개인 및 가족 건강 악기 관리, 지금 손에 수 의료 레코드를 가져오는 제 3 자 기관에 휴대용 장치에서 입력된 업로드와 같은 기능을 달성 하는 것입니다. 오픈 SDK 또는 타사 응용 프로그램과 통합을 지원 하기 위해 오픈 인터페이스를 제공 하 여 저장소 활성화 모드로 응용 프로그램을 제공 합니다. 이것은 마이크로소프트의 자신의 개인 클라우드, 지금 안 드 로이드에 구름으로 알려져, 앞 섹션에서는 웹, 물리적 감지 장치는 표준 인터페이스 모델을 제공 합니다. 위의 요약 하도록 문을, 큰 데이터를 할 하려고 생명 큰 데이터 응용 프로그램에서 볼 수 있습니다, 그들은 더 많은 기반 공용 클라우드 나 사설 클라우드, 궁극적으로 큰 데이터 열 수를 제공할 수 있을 것으로 기대. 지금 큰 데이터 연구에서 유럽과 미국에 있다.
위에서 라고 할 수 있다 응용 프로그램을 볼 수 있습니다, 그들은 사용 하 여 클라우드 컴퓨팅 보안 및 대역폭의 더 많은 고려 비용 문제, 지역, 클라우드 데이터 교환 오버 헤드가 발생 종종 극단적인 큰 데이터 집중 귀하의 비즈니스 실적은 매우 큰 데이터를 처리할 때 고려 하는 많은 제조 업체, 드래그 왜 많은 응용 프로그램을 클라우드로 마이그레이션할 이유 자체는 큰 데이터를 클라우드로 마이그레이션, 현상은 매우 생물 의학 분야에서 특히 분명 아마존에서 지금 좋습니다, 아마존에서 TB 데이터의 생물 의학 분야를 포함 하 여 배포한 데이터 흐름 위의 아마존에 자연스럽 게이 데이터를 사용할 수 있습니다. 클라우드 컴퓨팅 놀이 Hadoop에서 매우 중요 한 역할을 합니다. 우리는 시퀀싱 기술, 임상 의료 기록, 정상으로 생물학의 신속한 응용 프로그램의 대중화와 함께 우리는 다양 한 얼굴을 볼 수 있는 응용 프로그램은 기본적으로 큰 데이터 응용 프로그램, 클라우드 컴퓨팅을 위한 좋은 모델을 제공 하는 큰 데이터 응용 프로그램, 의료 데이터를 적용 하 고 통합 추진 한다 그리고 우리 자신의 생명 데이터 집합 자원을 구축할 시장 모델을 사용 하 여.