그것은 큰 데이터에 관해서 라면, 그것은 지금 수시로 불린다, 인기 있는 단어 그리고 그것은 업계의 많은 영역을 포함. Http://www.aliyun.com/zixun/aggregation/13782.html에서 "> 비즈니스 분석, 큰 데이터 자주 의미에서 고객, 판매 예측, 공급 업체, 그리고 다른 많은 입력 정보를 사용 하 여 비즈니스에 대 한 최고의 결정 모두 단기 및 장기를 포함 하 여. 상품 거래는 완전히 다른 방법으로 큰 데이터를 사용할 수 있습니다, 아마도 그들은 기후 데이터는 위성의 다른 이미지를 볼에서 분석을 찾는 것입니다 하 고 관련된 문자 메시지 거래를 결정 하는 긴 기간 또는 단기를 위해 적당 한. 이러한 경우 분석 도구의 완전히 다른 세트를 요구, 매우 효과적입니다, 완전히 다른 컴퓨팅 형식 및 저장 환경를 사용 하 여 고 정보로 데이터를 처리 하는 알고리즘에서 매우 다릅니다.
최근, 제프 레이 튼와 다양 한 다른 종류의 알고리즘 차트 분석에서 MapReduce, 이미지 변화 모니터링, 및 다른 프레임 워크를, NoSQL, 효과적으로이 알고리즘을 실행 하는 시스템 구조 등을 토론 하는 저녁에서 만났다. 물론, 전문 장비 많은 공급 업체에서 곧 공급 될 수 있다. 나를 위해 너무 큰 데이터를 정보로 데이터를 선회 다음 고 지식 과정입니다.
이것은 새로운 현상이 아니다. 이건 내 유명 견적입니다. 약 400 년 전, 미스터 프랜시스 베이컨 말했다, "지식이입니다 힘." "때 우리가 데이터에서 더 많은 그리고 더 많은 정보와 지식을 추출, 제프와 나 믿고 시스템 아키텍처 많게 바꿀 것 이라고," 고 말했다. 정보 추출 및 파일에서 분리 하지 않고 정적 파일이 없을 것입니다.
제프와 나는 문제를 해결 하는 방법, 데이터의 종류는 중요 한 새로운 컴퓨팅 시대에 이동 하는 방법을 설명 합니다. 저녁 식사 동안 우리와 하향식 및 상향식, 두 개의 서로 다른 방향으로 서 대용량 데이터를 해결 하는 방법을 알아 냈 어. 제프와 나 어떻게 데이터 자체와 어떻게 추출 된 데이터의 종류에 따라, 스펙트럼, 그리고 어떤 하드웨어 데이터를 분석 하는 데 사용할 필요가 어떤 끝을 논의 했다. 물론, 우리는 저녁 식사 하는 동안 운영 체제, 파일 시스템, 그리고 다른 큰 데이터 아키텍처에 필요한 시스템 소프트웨어를 논의 했다. 편집기의 승인으로, 제프와 나는 "제프와 헨리의 큰 데이터 탐험." 발사 준비 "
큰 데이터 알고리즘 필요 하드웨어 및 대용량 데이터 아키텍처에 대 한 이야기를 시작 하려고 해요. 예를 들어:
· 건축의 어떤 종류는 mapreduce 문제, 미래의 차트 문제 또는 이미지 변경 모니터링을 해결 하기 위해 미래 필요 합니까?
· Ssd, sas 드라이브 또는 엔터프라이즈 SATA 드라이브 필요 하십니까?
· 저장 컨트롤러의 어떤 필요한가?
· 주요 데이터 보관 문제는 무엇입니까?
· 미래에 어떤 종류의 인터페이스는 필요-sas는, 파이버 채널 이더넷 또는 다른?
· 계획 된 CPU 수요를 충족 또는 GPGPU, Fpga, 또는 뭔가 덜 눈에 띄는 필요 합니까?
· 메모리 요구 사항에 대 한? 미래 DDR-3/4/5 메모리 요구 사항에 맞게 계획 하는가?
· 레이어 및 큰 메모리 저장을 해야 하나요? 예를 들어 CPU 채널, SGI 자외선 연결 된 기계 또는 전문 메모리 시스템 및 프로세서, Cray Urika 같은 확장 여?
· CPU 건설 않아도 캐시 일관성 검사, 그리고 캐시 일관성 대역폭 필요 데이터 형식 분석에 대 한 유용한?
· 운영 체제는 장치 보다 높은 기본 하드웨어를 주소입니다?
· 언어, 컴파일러, 디버거, 및 시스템 하드웨어를 실행 하는 전체 생태계에 대 한?
· 오늘날의 데이터 정보와 새로운 지식이 되었기 때문에 데이터의 보안을 잊지 마세요 당신의 경쟁자, 원수, 및 직원 인터뷰 안 한다에서 정보를 저장 하는 방법?
아마 당신은 일부 사용자가 뭔가 보고 하 고 다른 사용자만 익명 데이터에서 찾을 수 있다. 병원 환자 데이터는 주요 예; 의사를 제외 하 고 실제 의료 기록을 볼 수 없습니다 하지만 팀 상태, 치료 방법 및 결과 보고를 할 수 있습니다. 보안 생성 및 정보는 별도 위치에의 보존 등 큰 문제가 있을 것입니다. 그것은 개인 데이터 또는 회사의 비밀, 그것은 해커를 위한 유혹입니다. 모두가 모든 것을 볼 수 있다, 모든 것을 추적 해야 합니다, 흔적을 검토 하는 등.
여기 질문은 다음과 같습니다.
· 이러한 시스템에서 실행 하는 응용 프로그램의 경우는 어떨까요?
· 할 일부 쿼리 우선 다른 사람?
· 응용 프로그램 데이터 읽기 처리를 촉진 하기 위하여는 어떻게 작성 합니까?
· 얼마나 많은 스레드는 응용 프로그램에 필요, 병렬 프로그래밍 모델? 그렇다면, 프로그래밍 모델은 무엇입니까 또는 그것은 SMP 모델을 요구 하는가? 어떤 프로그래밍 모델을 사용 해야 합니까?
프로그램에 응용 프로그램 단축키를 받을 수 있나요? 90% 응답 전산 처리의 50%를 얻을 것입니다. 90% 응답 프레임 기간에 적합 한가? 또는 삶과 죽음 사이의 선택, 제작 하는 경우이 경우 90% 대답 충분 하지 않습니다.
다행히, 웨이터는 봉사 하 고 음식이 맛, 또는 제프와 이러한 문제를 논의 하기 위해 충분 한 시간이 없을 것 이다.
물론, 우리는 어떤 결론에 온 하지. 우리의 저녁 식사 후 우리는 앞으로 몇 일 동안 그것을 논의 제프와 회의 및 우리의 두 번째 연례 공동 쓰기 프로젝트의 주제를 "빅 데이터" 하기로.
대용량 데이터를 처리 하는 방법을
앞으로 몇 개월 동안 나는 스택을 통해 단계 하 고 하드웨어와 스택 이동 시작 됩니다 큰 데이터 문제와 바쁜. 내가 말했듯이 여러 번, 자세한 사항은 중요 한 (적어도 몇 시간 동안). 제프는 스택의 중간 부분에 다른 쪽 끝에서 시작 됩니다. 우리는 운영 체제 또는 어딘가에 컴파일 및 함수 라이브러리에 합류 한다.
왜 저장 사이트 컴파일러, 디버거, 및 유사한 것 들, 왜 내가 읽어야 이러한 관련 얘기를 요청할 수도 있습니다? 좋은 질문. 대답은 우리가 정보화 처리 데이터 지향에서 우리의 세계에 변화를 볼 것 이다. 모든 변경, 것입니다 그리고 우리 공룡 스타일 오래 된 방법을 사용 하 여 우리의 독자를 싶지 않아. 우리는이 변화는 주요 변경 하는 방법을 이해 하는 열쇠는 자리를 차지할 시작 믿습니다. 스토리지, 그것의 유일한 부분입니다 그리고 스토리지, 뿐만 아니라 또한 새로운 운영 환경 및 요구 사항을 이해 해야 성공 하려면.
이것은 우리가 믿는 우리 아무도 때문에, 모든 콘텐츠에서 전문가가 될 것입니다 또는 될, 하려고 하지만 성공 즉, 당신이 관심을 지불 하 고 모든 측면, 또는 것과 몇 가지 독특한 것 들, 미래의 개발에 적합 하지 않은 생각을 이해 해야 말을 하지. 큰 데이터는 클라우드 스토리지 보다 더. 또한 보관, 백업, 또는 다른 전술 문제에 대 한. 그것은 당신이 무엇에 대해 얘기 하 고 조직의 성공에 도움이 될 정보를 추출.
(편집기: Lu Guang)