노벨 수 상자, 생화학자 사이의 연결은 무엇입니까 프레더릭 생어 (프레드릭 Sanger)와 애플 창업자 스티브 잡스 (스티븐 잡스)?
1977 년 2 월, 프레드릭 생거와 그의 동료 첫 유기 체, 살 균 소 phiX174의 5,375 뉴클레오티드의 완전 한 게놈 순서를 발표 했다. 그 이후로, 그것은 과학자 감지 더 복잡 한 종 게놈 넓은 연구 지루한 될 것입니다 분명 되고있다. 다행히도, 유전체학의 발전은 곧 솔루션이 있다. 불과 4 개월 후, 쿠퍼 티 노, 캘리포니아에 새로운 작은 회사 전자 제품 애호가 게 애플 II를 판매 하기 시작. 과학자 들은 또한 신속 하 게 발견이 상대적으로 비용 효율적인 새로운 컴퓨팅 시스템은 저장 하 고 유전자 데이터 분석에 이상적입니다.
요즘, 분자 생물학에서 컴퓨터의 도움 되지 않습니다. 고도로 자동화 된 시퀀싱 악기 매일 새로운 데이터의 메가바이트의 수백을 생성 하는 경우 연구원은 정기적으로 유전자 사이 새로운 링크를 찾을 거 대 한 온라인 데이터베이스 검색을 수 있습니다. 사실, "생물 정보학"의 새로운 과학 분야는 분류 하 고 생물학에 있는 성장 새로운 정보 공부 나타.
많은 연구 기관 너무 많은 데이터를 처리 하기 위해 전문된 컴퓨팅 센터를 설립 했다. 그러나, 최근, 생물 정보학 전문가를 피하기 위해 더 많은 지출, 클라우드 컴퓨팅에 (또는 분산 컴퓨팅) 컴퓨터 업계에서 또 다른 전략을 빌려 시작 했다. 클라우드 기반 시스템은 지역화 된 스토리지 및 분석 데이터를 다른 그리고 그들은 수백 대의 원격 서버에 더 집중적인 작업을 할당할 프로그램. 클라우드 컴퓨팅은 유전체학의 얼 회사 추가 기술 홍보에 더 많은 사용자 친화적인 인터페이스를 디자인 하기 시작 했다 그들의 자신의 소프트웨어, 하지만 지금 컴퓨터 전문가 서버를 작성 했다.
제한 없이 계산
구름에 대 한 가장 확실 한 인수 컴퓨팅은 새로운 시퀀싱 데이터의 절대 금액. "우리의 조직 생산 하루 1 백만 메가바이트 수 아니다." "마이클 Schatz, 뉴욕에서 차가운 Quangang 연구소에서 양적 생물학의 조교 수 말했다. 이것을 3 일에 단일 데스크톱의 전체 하드 드라이브를 채우기 위해 충분 하다.
세계적으로, DNA 시퀀싱 기구 생산 대략 15 십억 조 (PB) 바이트의 데이터를 년 (이 여전히 빠르게 성장), 1PB는 1000 TB 슐츠에 설명 합니다. 15 십억 메가바이트 데이터 용량이 큰 DVD 구울, 새겨진된 디스크 스택 최대 2.5 마일 높은, 그냥 원시 데이터입니다. 현미경 사진 및 다른 phenotypic 정보 실험 데이터도 저장 문제를 곱하면 수 있습니다.
다행히도, 일부 기업은 강력한 재정 및 계산 경험 있고이 크기의 데이터 문제를 해결할 수 있다. 예를 들어 Google 수집 및 사용자에 대 한 일정 정보의 수십억의 수만 처리 합니다. "그들은 거래 데이터와 함께 지난 1 년 동안 세계에서 생산 되는 데이터의 양을 초과 하는 1 일에." "Schatz 말했다.
Google에는이 수요를 충족 시키기 위해 수백 대의 서버는 세계 각국 "구름"에 작업을 할당할 클라우드 컴퓨팅 기술도 사용 하는. 아마존의 EC2 시스템 등 컴퓨팅 시스템을 배포 하 여 연구원은 "구름" 누구 든 지 비슷한 대형 서버를 빌릴 수 있다 마찬가지로 저렴 한, 편리한 서비스를 얻을 수 있습니다.
그러나, 클라우드 컴퓨팅을 선택을 재촉 하기 전에 연구원은 그들의 필요 및 로컬 리소스 평가 해야 한다. 일부 과학자 들은 먼 공동 작업자와 데이터를 공유할 필요가 없습니다, 그들은 컴퓨팅, 원격 클라우드 시스템 신속 하 고 저렴 보다 서비스의 그들의 자신의 기관 사용할 수 있습니다. Schatz는 경험을 수행 하는 것이 좋습니다: "의 수백만의 수백 보다 더 있는 경우 데이터 및 공유, 다음 클라우드 컴퓨팅 플랫폼을 위해 조은 가장 적합 한." "
일부 연구 기관 전용 컴퓨팅 센터 클라우드를 사용 하 고 따라서 없는 컴퓨팅. "전통적으로, 당신은 큰 데이터 센터를 구축 하 고 많은 장비를 구입 하 거 야." 하지만 그것은 단지 비싼, 하지만 대부분의 시간, 기계는 공회전. 그래서 클라우드 컴퓨팅, 그리고 나머지 시간을 사용 하는 경우 서비스 요금을 지불 단지에 대해 좋은 점은 당신이 그것을 소요 하지 않는다. 리처드 네덜란드, 독수리 유전체학, UK의 최고 경영 책임자.
또 다른 "구름"
많은 수의 원격 서버, 클라우드를 위한 일반 서비스에 액세스 하는 데 뿐만 아니라 컴퓨팅은 기본 소프트웨어 제공. 많은 클라우드 컴퓨팅 산업 이제 무료, 오픈 소스 도구를 Apache Hadoop 플러그 등 넓은 범위 아파치 서버 소프트웨어에 의존. 전자는 주로 각 서버와 네트워크 간의 기본 통신 후자는 복잡 한 계산 작업을 수행 하 고 수천 대의 서버 사이에서 효과적으로 할당 하는 동안 합니다.
웹 회사 처음에 맞게 자신의-hadoop를 다루는 모든 세계의 페이 스 북 사진이이 아키텍처를 개발 하 고 야 후 검색. 그러나 2009 년에,, Schatz와 그의 동료 시작 했다 게놈 데이터에서 그것을 사용 하 여. 그 이후, Hadoop 클라우드 생물 정보학에 대 한 첫 번째 선택 되고있다 컴퓨팅. "생명 과학에서 사실 한 번에 조 또는 1 십억 조 데이터의 수백만의 수백을 분석 하는 표준 이다." "Schatz 말했다.
Hadoop의 큰 장점 중 하나입니다 작업의 단순 적어도 과학자 컴퓨터 프로그래밍에 익숙한. "당신이 알고 자바 프로그래밍은 매우 큰 클러스터에서 대규모 분석 작업을 실행 하기에 충분 한, 이것은 Hadoop의 큰 장점." 옌스 Dittrich, 자르브뤼켄, 독일에서 Sarren 대학에서 정보 시스템의 교수 Hadoop을 추적할 프로세서, 무엇을 하 고는 없습니다 그리고 프로그래머 독립 실행형 작업 같은 알고리즘을 작성할 수 있습니다. 또한, Hadoop 하단에 복잡 한 작업을 처리 하 고 수천 대의 서버에 프로그램을 할당할 수 있습니다.
전반적으로, 클라우드 컴퓨팅, 특히 Hadoop가지고 몇 가지 단점이 있다. 클라우드 컴퓨팅에서 데이터를 분석 하려면 연구자 넣어 해야 합니다 먼저 데이터. 인터넷 속도가 빠른 경우에 조 데이터 업로드의 수백만 또한 몇 시간을 해야 합니다. Hadoop이 많은 데이터베이스에서 사용 되는 고급 인덱싱 시스템 부족, 때문에 어떤 종류의 분석에 대 한 효율적입니다. 일부 인덱스 아키텍처는 더 나은, 프로그램 특정 쿼리에 필요한 데이터의 특정 파편을 확인할 수 있다. 및 일부 시스템은 색인, 그들은 전체 데이터 집합을 검색, 자주 오래 걸릴 해야 합니다.
Dittrich와 그의 동료는이 두 가지 문제를 해결 하기 위해 최근에 시작 했다. 팀의 새로 인덱싱 시스템 클라우드로 데이터를 업로드할 때 여러 데이터 집합의 인덱스를 생성 하 고 자주 낭비 컴퓨팅 시간 후속 분석을 최적화 하기 위한 효과적인 도구를 만드는 데 사용할 수 있습니다 관입 하 둡 개발. 이러한 인덱스는 처리 과정을 가속화할 수 있다 그리고 몇 가지 연구 문제에도 가속 수는 백배. "솔직히,이 최종 답변을 하지 않습니다, 그리고 그것에 따라 다릅니다 분석 작업... 하지만 대부분의 작업에 대 한 우리 아주 잘 수행 했습니다. "Dittrich 말했다.
새로운 기술 Hadoop 더 강력 하 게, 경우에이 분야에서 전문가 들은 아직도 그것은 일반적인 솔루션 되지 것입니다 강조. Dittrich 및 Schatz 모두 클라우드 기반 시스템 생물학 질문 몇 가지 잘하는 것이 좋습니다 하지만 다른 영역에 없는. 연속 읽기, 유전 이체를 식별 하 고 RNA 식 패턴을 통해 그들을 분류 그들은 모두 큰 데이터 집합에서 개별 조각에 대 한 정보를 검색 하기 때문에 클라우드 솔루션에 대 한 자격된 대상입니다. 다른 한편으로, 신진 대사 통로 모델링 로컬 컴퓨팅 시스템은 더 적합 한 작은 데이터 집합에 대 한 복잡 한 계산 이다.
다른 사람에 대 한 큰 데이터
Hadoop은 그들의 자신의 컴퓨터 프로그램을 작성 하는 게 익숙하지 않는 생물학에 유용 합니다. 일부 기업은 이러한 과학자 들을 대상으로 되 고 클라우드 컴퓨팅 데이터 분석을 위한 사용자 친화적인 인터페이스를 제공 하기 시작.
"구름의 다양 한 유형이 있다 함. 이 글의 네덜란드 라고 말했다. 응용 프로그램 서비스 또는 "서비스로 소프트웨어"의 포괄적인 아키텍처 프로토콜 (일컬어 "인프라 서비스")를 임대 하는 가장 기본적인 서버에서 (서비스, SaaS 소프트웨어), 쉽게 사용할 수 있습니다. SaaS, 클라우드 인프라, 데이터 저장 및 생물 정보 소프트웨어 서비스 회사를 제공합니다. 많은 경우에, 연구원은 회사에 직접 시퀀싱 결과 보낼 하 고 포인트-앤-클릭 네트워크 환경에서 일반적인 유형의 분석을 수행할 수 있습니다. 이제, 샌디에고, 캘리포니아, Illumina와 다른 시퀀싱 회사 그들의 자신의 SaaS 시스템을 제공 하는 하 고 다양 한 신생 새로운 시장 탐험을 시작 하는 키를 누릅니다.
모든 서비스 회사는 그것의 자신의 방법이 있다. 예를 들어 eaglegenomics 회사 각 사용자에 대 한 소프트웨어에 맞게 각 미리 프로그램을 연결 합니다. "사람들이 일반적으로 찾는 우리와 말, ' 우리 SNP 예측 또는 돌연변이 지역화에 대 한 분석 프로세스를 구축 해야 '" 네덜란드, 그리고 회사는 다음 게시 된 알고리즘을 사용 하 여 및 "형태로 그들을 함께 통합 한... 이 질문에 응답할 수 있는 워크플로. 연구원은 다음 클라우드 서버에 데이터를 분석 하이 사용자 지정 프로세스를 사용할 수 있습니다. 경험된 많은 사용자 스스로 컴퓨터 코드를 탐색 하거나 변경할 수 있습니다.
일부 연구 자들은 더 편리한 클라우드 포털을 찾을 하 고 싶다면, 몇몇 회사는 지금 기존 문제를 해결 하기 위해 소프트웨어를 제공 합니다. "생물학 사용할 수 있습니다 기능을 많이 우리의 서버에서 웹 브라우저에 로그인 버튼을 클릭 하 여 간단 하 게." "캘리포니아 마운틴 뷰에 SaaS 공급자, DNAnexus의 CEO 겸 공동 설립자 안드레아스 Sundquist 말했다.
SaaS 업체는 종종 그들의 자신의 독점 코드 및 사용자 인터페이스 개발, 클라우드 서비스를 구매할 때 과학자 들은 기본 알고리즘 참조 여전히 해야 합니다. "연구자는 실제로 선호 하는 알고리즘을 게시 된 피어 검토 하 여 테스트를 널리 이해 하 고 중요 한 데이터에 새로운 기술로 실험 경향이 보수의." "네덜란드 라고 말했다.
다행히도, 대부분의 새로운 바이오 정보 회사 그들의 시스템을 논의 하고자 하는. "나선형으로 통합 된 모든 알고리즘은 피어 검토, 그리고 우리는 아주 잘 이해 하는 순간에 사람들이 사용 하고자 오픈 소스." "아디 나 Mangubat, CEO의 나선형 유전학 회사 시애틀, 워싱턴에서 말했다. 사용의 용이성, 나선형 게시 된 알고리즘에서 자신의 사용자 인터페이스와 데이터 처리 레이어를 둔다. 대부분의 SaaS 임대 수 연구원 기본 소프트웨어 코드에 직접 액세스와 함께, 분야에서 다른 회사를 따라 했습니다.
클라우드 커버
클라우드 컴퓨팅은 여전히 비교적 새로운 것, 그리고 일부 지역에서 연구원은 특히 약리학 및 생물 의학 과학자의 분야에서에서 그것에 대해 여전히 회의적인. 그들은 중요 한 특허 데이터와 환자 정보 보유. "사람들이 느낄 것입니다 확실히 로컬 클러스터는 클라우드 환경에서 보다 통제 하 게 쉬운," 그는 말했다. "Mangubat 말했다.
정말이 문제에 대 한 이유가 있다. 연구 3-4 분 최근 의료 안전 사고는 미국에서의 임상으로 휴대용 저장 장치나 노트북의 손실로 인해 되었습니다 나타났습니다. "만약 그들이 사용 하는 구름... 때문에 당신은 수 없습니다 단지 환자의 데이터는 노트북에 처음에 노트북 컴퓨터를 훔친 큰 문제가 되지 않습니다. "Sundquist 말했다.
사실, 은행, 정부 및 전자 상거래 회사 이미 가져온 데이터 클라우드 스토리지로,으로 서버 장치에 대 한 보안 시스템 꽤 완료 되고있다. 대상으로 의료 연구 시장 일부 기업 데이터 보안 법을 매우 염려도 있습니다. "우리의 기본적인 원칙 중 하나는 우리는 엔터프라이즈 수준 보안 제어와 임상 및 진단 작업에 필요한 특성을 보장 하기 위해 이다." "Sundquist 말했다.
경우에 과학자 맨 클라우드 인프라를 임대 하 고 자신의 알고리즘을 쓴, 그들은 보안을 싶을. Mangubat 인기 아마존 EC2 클라우드 서비스 임대 의료 데이터의 물리적 보안을 준수 하기 위해, 그래서만 연구자의 소프트웨어는만 잠재적인 약점 지적.
퍼지 스토리지
클라우드 컴퓨팅은 데이터 보관, 어떤 연구원 서버 임대를 서명 하기 전에 물어 봐야에 대 한 또 다른 일반적인 관심사. SaaS 회사 붕괴 또는 연구원은 다른 시스템을 변경 하려는 경우 임대 압축 데이터를 경로 분명히 해야한다. "디스크에 모든 것을 오목 하 고 그들의 하드 드라이브의 큰 더미를 보낼 수 있는 서비스를 제공 하는 우리 그리고 당신은 '결혼' 구름 모든 인생을." "Mangubat 말했다.
그러나, 범용 스토리지, 클라우드 제공할 수 있습니다 사고와 지역 재해에 대 한 보호로 클라우드 서비스는 일반적으로 여러 위치에 데이터를 복제. "어쩌면 데이터 센터 중 하나는 유성에 의해 명 중, 다른 화산 폭발, 하지만 여전히 다른 데이터 백업 받을 수 있습니다," 고 말했다. Sundquist는 설명 했다.
클라우드 스토리지 또한 디지털 정보 보관에 문제를 해결 도울 수 있다. 예를 들어 몇 년 전 표준 컴퓨터 플로피 디스크에 저장 된 데이터 아니다 자주 읽을 수 있는 디스크 드라이브 및 운영 체제는 때문에. 클라우드 스토리지에서 노동자는 끊임없이 새로운 미디어, 데이터를 이동 하 고 버전 제어 시스템 소프트웨어의 이전 버전을 유지할 수 있습니다. 나중에, 연구원은 이러한 데이터 및 분석을 위한 도구를 복구할 수 수 있어야 합니다.
그러나, 모두가 같은 솔루션으로 만족입니다. "로 그것을 커버 수 없습니다 파일이입니다. "Dittrich 말했다. 방지 하기 위해 귀중 한 시퀀스 데이터 컴퓨터 프로그램 및 인간의 실수에 의해 파괴 되 고, 그 다른 매체에 저장 하는 추가 백업을 권장 합니다. "한 번만 쓸 수 있는 매체를 사용 하 여 백업을 만들 수 있는 좋은 방법입니다 그리고 비 검열 DVD는 좋은 아이디어 이다, 한 번만 구울 수 있습니다 그리고 결코 다시 처리할 수 있습니다." "그는 말했다.
하지만 수십억 조 데이터의 축적 하 고, 일부 전문가 들은 게놈 데이터에 대 한 최종 저장 시스템 DNA 자체는 컴퓨터와 생물 간의 연결을 완료 될 수 있습니다. 그것은 저렴 하 고 나중에 데이터 보관에서 원래 시퀀스 데이터를 얻을 보다 저장된 생물학 견본 순서를 더 빨리 수입니다. "순간, DNA 시퀀싱 소요 일 및 비용 너무 많이, 하지만 앞... 시퀀싱은 더 많거나 적은 단지 순간의 문제, 그것은 데이터 저장 매체를 될 수 있습니다. "Schatz 말했다.
원본:
앨런 비둘기입니다. 생물학 구름 시계. 과학, 6 월 2013. doi:10.1126/science.opms.p1300077
(책임 편집기: 유산의 좋은)