키워드:빅 데이터 빅 데이터 그들은 그들은 큰 데이터를 미국 빅 데이터 그들은 우리 매우 큰 데이터 그들은 우리는 아주
마틴 리치는 매우 큰 데이터 작업으로 바쁘다. 그는 광범위 한 연구소, 공동 MIT와 하버드 대학, 그가 13PB의 데이터를 저장 하기 위한 책임이 슈퍼 컴퓨터를 사용 하 여 컴퓨팅을 위한 CIO로 일했다. 그와 그의 팀 인간 게놈 매핑 노력에 주목할 만한 기여를 만들었습니다.
연구소, 전에 그의 팀 제약 거 대 한 머 개발에 대 한 연구를 지원합니다. 자, 그의 새 직장은 그것의 부사장 생명 공학 회사 바이오 젠, 팀에서 현재 일부 데이터 과학자가 연구. 이 팀은 바이오 젠 회사의 연구 및 개발을 위해 대용량 데이터 분석 과정.
그가 떠나기 전에 광범위 한 생물학 연구소의 비영리 단체, 우리의 편집자 리치 인터뷰. 그는 큰 데이터에 어려움 Cio 얼굴 및 기술과 대용량 데이터를 처리 하는 데 필요한 기능을 설명 합니다. 리치가 말한다 큰 데이터 분석에 대 한 투자에서는 초기 $2 백만 조에 $4 백만 조, 오픈 소스 도구와 함께 일할 의향이 몇 전문가 함께 상승 했다. 최소 값 데이터 과학자는 종종 기업에 대 한 진짜 유용한 데이터를 찾을.
Q: 어떤 조언을 할 일반적으로 당신은 큰 데이터 인프라 구축에 조언을 제공 하는 CIO 컨설턴트?
리치: 엔터프라이즈의 큰 데이터 프로젝트 계획은 식별 하는 첫 번째 단계가입니다. 이 프로젝트에 대 한 가장 큰 요구 사항 이란 무엇입니까, 이것이 가장 중요 한 문제는 초기 단계에서 어떤 기술 또는 구매 필요로 하는 무슨 고려를 하지.
Q: 광범위 한 연구소에서 큰 데이터 프로젝트에 대 한 그들의 가장 큰 요구 하는 것이 무엇입니까?
리치: 내부 데이터 생성, 소화 및 저장의 문제를 해결 하기 위해 당시 가장 큰 수요가 이었다. 그 당시 등 광범위 한 공공 기관 및 민간 부문, 누가 인간 게놈 지도 만들 수 있는지 사이 경쟁이 했다. 이 외부 추진력 때문에 우리 빠르게 프로젝트를 만드는 방법에 대 한 생각은. 우리가 느려 또는 프로젝트를 포기 하거나 프로젝트를 구현 하는 빠른 방법을 발견 합니다.
이것은 확실히 나를 위해, 도전 특히 이후 생명 공학에 대해 많이 알고 하지 않습니다. 그들은 실험의 일부를 아웃소싱 하 고 생성된 된 데이터를 전송 하 고 갑자기 그들은 조-바이트 전송, 있고 그들은 질문: "어떤 종류의 데이터를 하드 드라이브에 있습니까?" 이 데이터를 어떻게? 나는 그것을 계산 하는 경우 나 어디는 데이터를 배치 합니까? 어떻게 계산 합니까? "나 생활 과학자의 그룹에 볼은 그들은 데이터 처리에 대 한 매우 강한 수요가 그들의 첫 번째 질문은:"이이 데이터는 어떻게 처리 합니까? 나는 그것을 어디 둬야 하는가? "
Q: 그들은 저장 됩니다?
리치: 많은 회사는 회사 안에 놓일 것 이다. 일부 회사는 구름에 있을 것입니다 하지만 데이터의 양이 작고 사용 되지 않습니다. 생명 과학의 분야에서 데이터는 보통 유전학 및 유전체학, 약물 정보 또는 환자 기록, 포함 그리고 관심사의 많은 경우 방화벽 외부에 저장 됩니다.
그래서, 당신은 확실 때 그들을 저장 하는 방법에 대해 생각 하는 데이터, 다음 작업이 필요한 이유입니다. 다음은 데이터를 처리 하기 컴퓨터를 사용 하는 방법. 그것은 처리 해야 할 때 또는 아마존 같은 클라우드 내부 컴퓨터에 저장 될 필요 합니까? 왜 데이터를 처리 해야 하는 또 다른 추측을 포함이 내부적으로 첫 번째.
Q: 데이터를 얻을 수 쉽습니다?
리치: 실제 취득 과정 간단 하지 않습니다. 전송 속도 감안할 때, 일부 회사는 구름에서 이송 됩니다. 일부 하드 드라이브 전송 사용합니다. 질문을 많이 관련 된 있다, 같은, 당신은 보스턴에서 데이터 하지만 데이터 센터는 노스 캐롤라이나 주, 그리고 내가 해결 하기 위해 필요한 질문은 어떻게 해야 합니까 수백억 바이트의 데이터 서버를 회사 네트워크를 통해, 그래서 어떻게 해야 합니까?
Q: 어떻게 회사 데이터 수집을 처리 합니까?
리치: 일부의 경우, 당신이 하드 디스크에 데이터의 무리에서 볼 때 사업에서는 부정적인 서버에 전송 되는 데이터 처리입니다. 경우에 따라 회사 데이터 센터 보다는 오히려 일반적인 엔터프라이즈 데이터 네트워크에 데이터를 이동 하기 때문에 차례 차례로 그들의 내부 네트워크를 영향을 미치는 그들의 내부 네트워크에서 데이터를 사용 하려고 합니다. 다른 IT 부서와 밀접 하 게 일하고 있다.
이 부분에 엔터프라이즈의 다른 부분 그것은 함께 작동 하는 방법에 따라 달라 집니다. 난 네트워크 속도 리 미터는, 잘 작동 하는 다른 부서와 유연은 되도록 설계 되었습니다. 이러한 프로젝트는 전통적으로 표준 IT 인프라 없습니다. Oracle 데이터베이스에 많은 데이터를 개발 하려고, 오라클 일부 외부 하드웨어를 구매 해야 하지만 또한 NoSQL, CouchDB, MongoDB와에 일반 데이터베이스 관계를 이해 하는 전문가 데이터베이스 필요.
다음 단계는 능숙 하 게 오픈 소스 기술, 하 둡, OpenStack, 등을 사용할 수 있는 고도의 자격 갖춘된 사람들의 그룹을 찾는 것입니다. 재능은 팀에 매우 중요 하 고 종종 동료 불평을 듣고: "어디 있나요 진짜 말?" "
Q: 어떤 분야 Cio 찾을 거 야 재능?
Q: 배운 베이에서 CTO에서 중요 한 지역 경제학자를 이다. 경제 데이터에 금을 보고 좋아하고 그들은 뿌리 깊은 문제를 해결 하기 위해 데이터를 사용 하 고 싶다. 갑자기 큰 데이터를 실현 하는 경제학자의 그룹 말했다: 와우, 우리가 결코이 정도의 데이터 처리 했습니다.
Q: 그래서 당신은 오픈 소스 도구를 사용 하지 않도록 데이터 마이닝 같은 유일한 찾기 사람 수 있습니까?
리치: 나는 한 번 큰 데이터 분야에서 일 하는 물리학자의 그룹을 보았다. 입자 가속기에서 직원 매일 기계에 의해 생성 된 PBS 수준 데이터의 수에서 자신을 담가 해야 합니다. 경제, 물리학 및 파생 상품을 좋아하는 사람들은 전형적인 데이터 분석가: 그들은 같은 데이터. 내가 너무 심각 하 게 그들을 하지 않았다 때문에 경제학자의 필드에서 적임자를 찾을 거 야.
Q: 몇몇 회사는 큰 데이터에 대 한 가장 큰 오해는 무엇입니까?
리치: 나는 기업의 많은 그들은 처음에 신중 하 게 데이터를 처리 하는 방법을 알고 있습니다 생각 하지 않습니다. 데이터 관리, 주석, 및 데이터를 사용 하는 방법에 영향을 미칠 수 있는 조직에 더 적은 시간을 할애. 우리는 우리의 프로젝트는 완료 되 면 5 개월 후, 아무도 통계에서 볼 데이터 보고. 어떻게 해야 합니까 당신의 데이터와 함께 지난 2 년 동안? 그 삭제? 또는 새로운 조직? 현재 드롭 데이터 스토리지 비용을 감안할 때, 우리는이 데이터를 저장할 수 있습니다.
Q: 어쩌면 그것은 당신이 무슨 말을 하는지, 사람들이 직면 하는 큰 데이터 시작, 그들은 경향이 근?
리치: 그것은 단지 IT 부서를 근, 그것은 데이터 수집기에 동일 이다. IT 부서는 데이터 수집에 대 한 책임는 IT의 관점에서 IT 부서 장기, 고려 하지 않습니다 하지만 수집가 현재 데이터, 또는 그들은 수집 된 데이터에 초점에만 초점을 맞추고 있다.
Q: 대용량 데이터의 목표를 달성 하기 위해 충분 한 데이터를 더 수집 해야 휴대 전화, 더 정확 하 게 예측, 당신은 이것을 이해할 수 있다?
이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이
페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.
커뮤니티에서 표절 사례를 발견한 경우
info-contact@alibabacloud.com
으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.