큰 데이터 및 생명 과학

출처: 인터넷
작성자: 사용자
키워드: 대용량 데이터 연구 게놈

2014 년 6 월 13 일, 저널 과학 제목 "큰 생물 학적 영향 큰 데이터에서" 과학 진흥 (AAAS) 과학 및 기술 출판 컨설턴트, 마이크 5 월에 작성 한 문서를 출판. 현재 핫스팟 개념으로 큰 데이터 보기이 문서 텍스트를 컴파일합니다. 이 종이 먼저 큰 데이터의 3 레벨 의미를 빗 고 분석 하 고 해석 하는이 세 가지 의미. 더 많은 게놈 데이터를 대부분의 조직에서는 대용량 데이터를 사용 하 여 전망의 알고 있습니다.

이 문서는 메서드 또는 일부 조직 개발 또는 대용량 데이터를 분석 하는 개발 도구를 나열 합니다. Biodatomics, 예를 들어 100 번 배 전통적인 소프트웨어 분석 보다 빠른 Biodt 소프트웨어를 개발 했다, 큰 데이터를 처리할 때 토론토, 캐나다, Acd/연구소 회사에 의해 개발 된 컴퓨팅 시스템 다양 한 데이터 포맷을 통합할 수 있습니다 캘리포니아 주 IBM 텍스트 마이닝 도구 Almaden 연구소;를 개발한 톰슨 로이터 numedii 마약 재사용 기반 대용량 데이터. 위의 세 가지 의미 뿐만 아니라 대용량 데이터,이 기사는 또한 큰 데이터 "복잡성" 포함 되어야 하 고 개발한 GNS 의료, 매사 추세 츠, 데이터의 복잡성에 따라 심판 분석 플랫폼을 열거 언급. 궁극적으로,이 기사는 큰 데이터를 개발 하기 위해 모든 노력 한다 미래 생물학과 의학 발전에 큰 데이터 기여할 수 있는 방향으로을 주장 하고있다.

큰 데이터 및 생명 과학

큰 데이터는 가장 뜨거운 개념 중 하나는 순간에 그리고 그것은 또한 쉽게 오해 하는 개념. 이름에서 알 수 있듯이, 빅 데이터, 데이터의 많은 것을 의미 하지만 그건 그냥 리터럴 의미. 큰 데이터 (3V) 의미의 3 개의 층을 포함 하는 광범위 하 게,: 많은 양의 데이터 (볼륨), 빠른 처리를 데이터 ("데이터" 처리의 속도), 소스 (다양성)의 다양성. 이 정보 분석을 위한 대용량 데이터 도구에 의존 하는 중요 한 기능입니다.

Crandall, 감독의 연구소의 전산 생물학 미국에서 조지 워싱턴 대학에서 생물학 데이터, 사실, 수집 하는 에너지를 많이 지출 하는 동안 생물학에서 병목 현상이 이제는 큰 데이터 말한다. 예를 들어 2002 년 8 월, 첫 번째 사람에 대 한 완전 한 게놈 시퀀싱 운동 그들은 13 년, 그리고 3 십억 염기 시퀀스 3 십억 달러를 경험 하도록 구성 했다 인프라를 사용 하 여 20 연구 기관에서 전문가에 집중 했다. 현재, 사람에 대 한 시퀀싱만 1000 달러, 일주일 이상 320 게놈을 생산 해야 합니다. 연구원은 볼륨, 속도, 및 큰 데이터의 가변성을 다루는 방법을 개발을 계속, 연구원 정보 분석의 새로운 방법을 개발 하기 시작 했습니다.

데이터 원본 및 생명 과학의 형태 등 유전자 시퀀싱, 분자 경로, 다른 인구. 연구자는이 문제를 해결할 수, 데이터는 잠재적인 재산으로 바뀔 것 이다, 문제는 이러한 복잡 한 정보 처리 하는 방법. 지금, 큰 데이터를 분석 하 고 번역 기본 생명 과학 메커니즘의 이해로와 인구 건강에 분석 결과의 응용 프로그램 수 있는 기술과 도구에 대 한 필드를 찾고 있습니다.

(1) "수량" 계속

증가 하

수십 년 전, 제약 회사 데이터를 저장 하기 시작 했다. Keith Crandall, 보스턴, 미국에서 머 크 연구소의 연관 감독 머 환자의 수천 수만 년에 대 한 관련 된 임상 시험을 조직 하는 과정 되었습니다 환자 기록의 수백만에서 필요한 정보를 식별 하는 기능을가지고 말한다. 현재,이 회사는 차세대 시퀀싱 기술, 각 샘플 데이터의 메가바이트를 생성할 수 있습니다. 대형 제약 회사 얼굴 같은 큰 크기 순서 데이터의 도움이 필요합니다. 예를 들어 스위스 로슈에서 브린 로버츠, 로슈의 연구 데이터는 세기 보다는 더 많은 두번 2011-2012 년에 암 세포의 수백의 대규모에서 생성 하는 데이터 보다 더 많은 시간을 말한다. 로버츠가 이끄는 연구팀이 저장 된 데이터에서 더 유용한 정보로 활용할 수 있을 예정 이다. 그 결과, 팀 Pointcross, 캘리포니아 주 회사 로슈의 25 관련 데이터에 대 한 보고 유연 하 게 될 것 이라고 하는 플랫폼 구축에 협력. 이러한 데이터를 포함 하 여 단지의 수천의 지식을 활용할 새로운 약물 오늘 인수를 사용 합니다.

많은 양의 데이터를 다루는 생물학 연구원 결과 데이터를 처리 하는 회사와 같은 특수 장치를 필요 하지 않습니다. 예를 들어 생활 기술 공사 (현재 과학 열 피셔의 부분) 이온 개인 작업 게놈 시퀀싱 악기 (이온 개인, 게놈 기계). 이 새로운 장치는 8 시간 이내 2 gigabases까지 시퀀싱 될 수 있습니다. 따라서 연구자의 실험실에서 운영 될 수 있습니다. 생명 기술 회사는 또한 연속 최대 10 개의 gigabases 일 수 있다 4 시간 더 큰 악기를 있다.

그러나, 새로운 세대 시퀀싱 학문 및 산업 분야에서 생명 과학 연구에 대 한 혜택 및 문제를 제공합니다. Crandall 불평으로 그들은 컴퓨터 시스템은 많은 양의 데이터를 분석 하는 필요를 충족 하기 위해 개발 하지 않는 한 이렇게 많은 유전자를 공부에 유효 하지 않습니다. 이 상태에 따라, 팀 지도 교수 W. 보스턴 대학 의료 보조 에 반 존슨 시퀀싱 (차세대 시퀀싱, ngs) 플랫폼, 컴퓨터의 기가바이트도 DNA의 gigabases 정보 변환의 새로운 세대에 의해 생성 하는 데이터의 분석을 개발 하기 위해 협력. 소프트웨어는 DNA 샘플 병원 체를 식별 하기 위해 참조 게놈을 비교 합니다. 있도록 각 샘플 분석 데이터의 조금을 확실히 Crandall 20000 메가바이트의 데이터를 저장 하는 각 샘플 및 이러한 샘플의 수천이 있다 말한다.

사실, 데이터 등 다 수 연구자 완전히 사람들의 다양성을 고려 하는 그들의 실험을 디자인 해야 하기 때문에 건강 관리에 대 한 실제로 매우 유용 하다. Chas Bountra, 케임브리지 대학에서 변환 의학 교수 했다 500000 사람들 로부터 얻은 결론 10에서 얻은 그 보다 더 설득력.

건강 관리에 게놈 데이터의 점점 더 많은 효과 볼 것으로 예상 하는 연구자도 있다. 예를 들어 유전 정보가 생체, 또는 특정 질병 (일부 분자는 특정 유형의 암에 서만 표시)의 지표를 밝힐 수 있다. 유전체학, 질병을 이해 하는 사람들을 위한 강력한 기반을 제공 합니다 박사 길 McVean, 옥스포드 대학, 영국 Wellcome 신뢰 센터의 인간 유전학 센터에서 게놈의 교수를 말한다. 게놈이이 표식에 따라 질병 및 대상 치료의 특정 종류와 관련 된 바이오 마커를 식별할 수 있습니다. 예를 들어 분자 암의 어떤 종류를 운전 하 고, 때문에 그것은이 분자 암 치료 대상 수 있습니다. 이 아이디어를 적용, 3 3 백만 달러 기증에 의해 리-아성 카 케임브리지의 대학에 McVean의 팀은 만드는 리 카 싱 건강 정보 및 디스커버리 센터 (리 카 싱 센터에 대 한 건강 그리고 발견)입니다. 센터는 큰 데이터 연구 기관으로 설정 됩니다. McVean는 중앙 결합 분석 데이터 프로세스 게놈 연구와 그래서 그들은 몇 가지 큰 데이터를 수집 하 고 대용량 데이터 분석의 과제를 극복할 수 있다 결론.

(2) 분석의 고속

두 번째 V, 속도, 데이터 처리 및 분석 Gaoyao 속도로 데이터를 의미 합니다. 연구원은 많은 양의 데이터를 분석 하는 높은 속도에서 작동 해야 합니다.

과거에는, 유전자 관련 데이터 분석에 병목 현상이 있었습니다. 앨런 Taffel, 메릴랜드, Biodatomics 감독 믿고 사용 하 고 작품은 효율적인 생물 정보학 인력에 의존 어렵기 때문에 일반적인 분석 플랫폼 실제로 연구팀은 출력 (용량)을 구속. 종종 걸리는 일 또는 큰 DNA를 분석 하는 주.

이러한 관점에서 Biodatomics는 게놈 데이터 분석을 위한 400 개 이상의 도구를 제공 하는 Biodt 소프트웨어를 개발 했다. 사용 하 여 모든 데스크톱 컴퓨터에 적용할 연구자 쉽게 소프트웨어 패키지에 이러한 도구를 통합 하 고 소프트웨어 또한 클라우드를 통해 저장 될 수 있다. 소프트웨어 보다는 더 많은 100 배 배 처리 정보에 대 한 기존 시스템 보다 더 빨리 그리고 그것은 하루 또는 1 주일 전에, 이제 단 몇 분 또는 몇 시간 걸립니다.

일부 전문가 들은 새로운 도구를 시퀀싱 하는 데 필요한 생각 합니다. Jaroslaw 졸라, Rutgers 대학 뉴저지에서 전자 컴퓨터 공학 부 교수는 시퀀싱 기술의 새로운 세대에서는 다양 한 데이터를 저장 하는 방식, 데이터를 변환 하는 방법을 데이터를 분석 하는 방법에 따라 소스에서에서 데이터를 처리 하기 위해 새로운 컴퓨팅 전략을 말한다. 즉, 생물학 연구원 첨단 컴퓨터 기술을 사용 하는 법을 배워야 필요 합니다. 그러나, 졸라는 정보 기술 직원은 전문가 의해 필드, 효율성을 보장 하면서 알고리즘, 소프트웨어 및 하드웨어 아키텍처의 복잡성을 숨기고 쉽게 마스터 수 있는 방법을 개발으로 압력을 한다. 현재, 졸라의 팀은이 일에 있으며 새로운 알고리즘을 개발.

(3) 다양성

첫째, 생물 실험실은 종종 다양 한 형태의 문서에 있는 데이터를 생성 하는 장치를 있다. 따라서, 토론토, 캐나다, Acd/연구소에 의해 개발 된 컴퓨팅 시스템 큰 데이터를 다룰 때 다양 한 데이터 포맷을 통합할 수 있습니다. Acd/연구소의 글로벌 전략 감독 (감독의 세계 전략) 시스템은 동일한 환경, 개발에서 Spectrus 데이터베이스에 여러 데이터 풀링 용이 하 게 하는 다양 한 장치에 의해 생산 150 개 이상의 문서 형식을 지원할 수 있다. 데이터베이스는 클라이언트 또는 웹 페이지를 통해 액세스할 수 있습니다.

큰 생물 학적 데이터는 또한 새로운 변화를 반영합니다. 예를 들어 Definiens, 독일 연구원, 조직 형 (조직 phenomics), 조직 또는 기관 샘플 셀 크기, 모양, 흡수 염료 및 셀 관련 물질 등 구조 관련 정보를 분석 합니다. 이러한 데이터는 연구, 개발 하는 동안 세포의 특성에 변경 내용 추적, 유기 체에 환경 요인의 효과 결정 하거나 특정 장기/조직 세포에 약물의 효과 측정 등의 숫자에서 사용할 수 있습니다.

구조화 된 데이터, 데이터 테이블 같은 약물 치료 과정 또는 생물학 과정 등의 모든 정보를 공개 하지 않습니다. 사실, 구조화 되지 않은 형태로 존재 하는 살아있는 유기 체 그리고 생물학 과정을 설명 하는 방법의 수천이 있다. 머 크의 존슨 저널 텍스트 문서 처럼 약간은 고 문헌 데이터를 발굴 하기 어렵다 생각 합니다.

몇 년 동안, 텍스트 마이닝 도구에 근무 하 고 현재 "가속된 약 발견 솔루션을 사용 하는 분석가 및 연구자 잉 첸, 분석가 및 캘리포니아 주에서 (IBM의 Almaden), IBM의 Almaden 리서치 센터 연구원 "(가속된 약물

검색 솔루션)입니다. 플랫폼 특허, 과학 문헌, 기본적인 화학의 컬렉션 이며 1 6 백만 이상 (예: 화학 물질과 분자 사이 상호 작용의 메커니즘), 생물 학적 지식을 화합물 구조, 거의 7 000에에서 질병. 이 시스템을 사용 하 여, 연구원은 질병을 치료 하는 데 유용 수 있는 화합물에 대 한 볼 수 있습니다.

다른 회사는 질병, 질병을 치료 하는 방법을 연구 하는 기초의 생물 학적 메커니즘을 기존 리소스를 도청 하는 최선을 다하고 있습니다. NUMEDII, 톰슨 로이터 회사 실리콘 밸리에 본사를 둔 기존 약물 (마약 재사용)로 알려진 마약 재사용의 새로운 사용을 찾는 데 전념 하 고 있습니다. NuMedii의 수석 과학자, 크레이그 웹, 게놈 데이터베이스, 통합 지식 소스 및 생물 정보학 메서드를 사용 하 여 신속 하 게 약물의 새로운 사용을 발견 말한다. 회사는 다음 신속 하 고 저렴 한 의약품을 개발 하는 약의 원래 사용에 안전에 따라 임상 시험을 설계 되었습니다. 회사의 프로젝트를 설명 하는 웹: 연구원 이상 2 500 난소 암 샘플에서 유전자 표현 데이터를 수집 하 고 기존 약물 난소 암을 치료 하거나 치료 난소 암의 분자 하위의 몇 가지 유형을 잠재력을가지고 있는지 예측을 여러 컴퓨터 알고리즘을 결합 하 여.

(4) 복잡

스티븐 식 칼, 노바 티 스의 생물 의학 연구소 (NIBR 생물 의학 연구에 대 한 노바 티 스 연구소)의 이사 3 v 기준 복잡 한 (복잡) 추가. 그 프로세스가 특정 환자를 통해 제약 연구원 환자의 특정 그룹을 이동 하 고 다음 데이터를 통합 하는 사실에 의해 복잡 하 게 주장 하고있다. 건강 관리 영역에서 대용량 데이터 분석의 복잡성은 게놈 데이터, 단백질 그룹 데이터, 셀 신호, 임상 연구, 그리고 심지어 환경 과학 연구 데이터와 같은 정보를 다양 한 종류의 조합으로 인해 더욱 증가 됩니다.

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.