적용 된 과학 조사에서 저자 그들이 만든 키 구조 결정 개요 클라우드 환경에 높은-성능 컴퓨팅 기반 상용 유전자 재결합 응용 프로그램 이식에 그들의 경험과 그들의 좋아하는 큰 데이터 디자인으로 순수 HPC 유형 디자인에서 이러한 결정을 선회의 과정을 설명 합니다.
프로젝트의 목표는 훌륭한 확장성을 달성 하 고 관련된 비용을 제어할 수 있는 상용 유전자 분석 응용 프로그램을 구현 하는입니다. 응용 프로그램은 고성능 컴퓨팅 (HPC) 클래스의 인프라에서 내부적으로 실행 되도록 설계 되었습니다 그리고 그 인프라의 용량 한계에 도달 하는. 동시에 분석의 양은 급속 하 게 증가할 전망 이다. 그 결과, 사람들이 클라우드 환경에 응용 프로그램을 포팅 시도 하.
또한, 시간 제약 응용 프로그램 구성 방식에 사소한 변화만을 허용 하는 원래 응용 프로그램을 재설계에서 우리를 방지 합니다. 우리 간단히 계산 유전체학 IT 관점에서의 문제를 표시 하 여 시작 됩니다.
생물의 게놈 시퀀스를 이해 하는 일반적인 접근에는 다음 단계가 포함 됩니다.
각각 고정된 길이 (예를 들어 30-200 기본적인 쌍) 많은 수의 조각 (조각), 임의로 중복으로 여러 사본의 원래 게놈 (일반적으로 30-60). 조각의 각 짧은, 많은 수의 작은 파일을 생성 하는 시퀀스를 읽습니다. 이전에 알려진된 유기 체 게놈 ("참조 게놈")를 사용 하 여 참조 게놈에 각 시퀀스 파편의 위치에 대 한 최상의 추측을. 각 종족의 게놈은 일반적으로 많은 다른 때문에이 합리적인 방법인 것을 보인다. 통계 방법은 재조합 게놈의 각 위치에서 가능성이 가장 높은 기본적인 쌍을 결정 하기 위해 사용 되었다. 데이터 압축의 목적을 주어,이 방법은 표현할 수 있는 델타의 형태로: 단일 염기 다형성 (특정된 위치에 유전자 돌연변이), 또는 삽입 또는 삭제 (indels), 전체 게놈의 길이 변화를 나타냅니다.
게놈은 매우 큰 있기 때문에 (예를 들어 인간 게놈의 길이가 3.3 십억 기본적인 쌍), 수준 2 분석 계산의 많은 데이터도 전에 의미. 품질 데이터 읽기 (읽기-품질)의 사용을 고려 하는 경우 각 들어오는 기본적인 쌍 1 바이트 정보에 의해 인코딩됩니다. 따라서, 60 조각 (완전 한 DNA 분자)를 포함 하는 들어오는 데이터 집합은 약 3.3 * 109 * 60 또는 200 g B의 데이터를 포함, 가정 하는 많은 양의 CPU와 저장 매체, I/O 연결을 집계 하 고 커널에 대해 500 ~ 2, 500 시간을 계산 하.
과거에는, 이러한 문제를 다루는 슈퍼 컴퓨터 또는 HPC의 범위 내에서 했다. 빠르고, 큰 중앙 파일 시스템을 사용 해야, 입력된 데이터 집합은 시스템에 또한 두어야 한다 그리고 그것에 참여 하는 대규모 상태 비저장 서버 팜이이 계산을 수행 합니다.
이러한 데이터 집합을 처리 하는 것은 관리 보일 수도 있지만, 합리적인 시간 범위 내에서 같은 데이터 집합의 수천 수만 처리 하는 것은 한 도전 이다. 제한 요소 중 하나는 게놈 시퀀싱 비용 성장을 계속 하 고, 구축 및 처리 시스템의 다 수를 운영 하는 데 필요한 자본 투자를 계속 성장 이다.
이러한 이유로 클라우드 컴퓨팅 매력적인 모델 되고있다. 그것은 가변 가격, 많은 컴퓨팅 파워를 제공 한다 그리고 고 수 있습니다 필요에 따라 서버를 임대 필요 하지 않습니다 때 그들을 반환. 그러나, 구름의 전체 활용, 다음 도전은 극복 되어야 한다:
데이터 클라우드 통해 WAN에서 효율적으로 전달 하 고 적절 한 도구 집합을 사용 하. 클라우드 스토리지 제품 종류의 적절 한 조합을 클라우드 빠르고, 비싼 HPC 유형 저장소를 제공할 수 없습니다 있기 때문에 선택할 필요가 있다. 일 안무 계정 저장 구조 및 해당 확장에 걸립니다. 기본적인 수평 클라우드 확장 패턴 인프라에 반영 해야 합니다. 만약에 가능 하다 면, 당신은 클라우드 하드웨어, 소프트웨어 및 가상화의 최고의 조합을 선택 해야 합니다.
이 문서의 나머지 다음과 같이 구축 된다:
소개: 관련 작업에 대 한 일반적인 개요를 제공 하 고 다른 배경 지식 소개. 2 부: ibm의 기본 소개® smartcloud™ 엔터프라이즈. 3 부: 우리는 포팅 시스템에 대 한 선택 시스템 인프라를 소개. 제 4 부: 결과 소개 하 고 현재 인프라와 대안 간의 비교 제공. 5 부: 결과 및 교훈의 토론. 결론: 잠재적인 미래의 작업 방향에 설명 하 고이 문서의 주요 포인트를 요약.
현재, 일부 클라우드 공급 업체는 인스턴트 지불의 모드를 사용 하 여 많은 컴퓨팅 기능을 제공할 수 있습니다. 어떤 경우에는 작업 부하와의 일관성을 보장 하기 위해 고객 선택할 수 있습니다 기본 하드웨어를 사용 하 여.
그래서, 최근 몇 년 동안에서 예 성공적인 게놈 워크플로 구름에서 실행 되도록 설계 되었습니다. 연구팀은 "있는 그대로" 그것을 처리 하 고 구름의 힘을 활용 하는 응용 프로그램을 개선 하는 클라우드 시스템 (예: 아마존 탄력 있는 계산 구름, 아마존 EC2) 사용 하기로 컴퓨팅.
우리의 작업은 기본적으로 다음과 같은 방법으로 다른.
작업 제한 시간 내에 원래 응용 프로그램을 변경할 수 있는 능력은 제한 됩니다. 이 제한을 확실히 디자인에 결함을 만들 것입니다, 우리는 흔히 생각 한다. 때문에 주된 초점을 그들은 가장 짧은 가능한 거리에 전송 하 고 성능, 식별 하 고 모든 병목 현상을 제거에 거의 포괄적인 설계를 수행할 수 있습니다 우리가 하려고 하는 데이터 바이트를 추적 하 여 총 비용입니다. 우리는 IBM SmartCloud 기업에서이 문서에서 제공 하는 모든 작업을 처리 합니다. 우리가 지원 하 고 IBM SmartCloud 엔터프라이즈 개발 팀과 긴밀 한 접촉을 유지 하기 때문에 우리는 특별 한 기회 백색 상자, 클라우드 인프라를 볼 수 있고 운영 가이드로이 정보를 사용. 우리는 더 나은 미래에 같은 데이터 집약적 작업 부하를 지 원하는 클라우드 구성으로 실험을 수 있습니다.
즉, 많은 데이터 집약적인 응용 프로그램 사용자 지정 비싼 슈퍼 컴퓨터 또는 HPC 클러스터를 사용 하 여 우리의 마음에 기록 됩니다. 바라 건 대, 우리의 경험과 의사 결정 프로세스를 만드는 데 도움이 됩니다 누가 안정성을 증가 하 고 응용 프로그램을 지 원하는 작업의 처리 비용을 절감 하려고 하는 사람들.
클라우드 환경 소개
IBM SmartCloud 기업은 가상화 인프라 서비스 (IaaS) 제품 사용자가 즉각적인 지불 모드에서 리소스를 빌려 하 고 시간에 가장 많은 리소스를 가격 이다. 그것의 계산 노드 커널 가상 머신 (KVM)를 사용 하 여 가상 컴퓨터 관리 프로그램으로와 직접 가장 비용 효율적인 임시 저장 하드 디스크는 가상 컴퓨터 (VM)을 제공 하를 첨부. 또한, IBM SmartCloud 기업 한 번에 VM에 연결할 수 있는 네트워크 연결 저장소 블록 메모리를 제공 합니다. VM 블록 스토리지 및 1Gbps의 속도에서 가상 컴퓨터에 연결 되어 있습니다.
IBM SmartCloud Enterprise 라는 전세계 데이터 센터의 수 구성: 포드. 대부분의 경우에만 포드 (즉, 데이터 리소스에서에서 가장 최근의 포드)에 배포 가능한 토폴로지를 설치 해야 합니다. 그러나, 여러 포드 토폴로지 없습니다 일반적인 데이터는 세계 각국에서 온 수 있습니다 다르며 포드의 효과적인 용량 때문에.
IBM SmartCloud Enterprise 32 비트 64 비트 백 금, 구리에서 여러 VM을 제공 하 고 각 유형에 시간당 요금에 대 한 다른 임시 저장소 할당. 영구 (블록) 클라우드 스토리지도 여러 단위로 사용할 수 있으며 용량과 초당 I/O 작업 수에 의해 청구 수 있습니다. 데이터 전송 IBM SmartCloud 기업 내외 또한 트래픽을 기반 비용을 생성 합니다.