의료 큰 데이터

출처: 인터넷
작성자: 사용자
키워드: 전통에 대 한 이야기

요약: 데이터 분석 프레임 워크 (전통적인 데이터 분석 프레임 워크, 대용량 데이터 분석 프레임 워크) 의료 큰 데이터 첫 번째 섹션에서 언급 한 모든 기능을가지고. 큰 데이터 제공 다양 한 이점을, 전통적인 데이터 처리 하는 동안

데이터 분석 프레임 워크 (전통적인 데이터 분석 프레임 워크, 대용량 데이터 분석 프레임 워크)

의료 큰 데이터는 첫 번째 섹션에서 언급 한 모든 기능. 의료 데이터는 다양 한 이점을 제공, 하는 동안 큰 데이터 전통적인 데이터 분석 방법 및 소프트웨어 문제가 많은 게 다양 한 특성을 제공 합니다. 데이터의 가용성 및 컴퓨팅 파워의 제한에 의해 제한 큰 데이터 시대의 도래 하기 전에 기존 데이터 관리 및 분석 다른 아이디어와 프로세스 채택. 전통적으로, 문제에 대 한 연구는 가설에 기반 하 고 "왜" 대답을 기대 하는 것 들의 인과 관계를 연구.

빅 데이터 시대에 대규모 데이터의 출현의 다른 각도에서 데이터 보다 상세 하 고 포괄적인 보기를 제공 합니다, 따라서 사람들의 호기심을 열고 탐험, 욕망과 데이터 나에 게 말하는 무슨을 알고 싶은 사람은 내 추측 데이터 유효성은 여부에 뿐 아니라. 점점 더 많은 사람들이 큰 데이터 관심 없는 종속성의 단체를 발굴 하 고 비교, 분석, 일반화, 그리고 공부를 ("왜" 됩니다만 궁극적인 목표 보다는 옵션)을 사용 하는. 큰 데이터 및 기존 데이터의 차이 하나는 그림에서와 같이 다양 한 분석 프로세스를 리드:

그림 나

대규모 데이터와 다양 한 분석 아이디어 직면 하는, 관리와 큰 데이터의 분석 및 전통적인 데이터 분석의 차이 증가 합니다. 단일 미리 구조화 데이터베이스 특정 질문 아니다 분명 완벽 하 게 많은 양의 데이터 및 기타 문제를 다루는 유능한. 데이터의 혼합된 다양성 일부 설문 조사 데이터에 반영 될 수 있습니다. SAS 조사가 보여준다 구조화 되지 않은 데이터는 조직에서 데이터의 총 금액의 85%를 위한 계정 수와 그 비-디지털, 구조화 되지 않은 데이터를 계량 및 결정 분석 (Troester, 2012)에 사용 해야 합니다.

다른 SAS 조사, 2013 년에 완전 한 의견 그들은 큰 데이터를 했다 제공 461 기관의 26%만 (Russom, 2013) 구조 보여주었다. 또한, 기관, 데이터 분석의 일반적으로 없습니다 단일 소스. Alteryx의 조사에 따르면 조사 200 기관의 6%만 자신의 데이터는 가장 하나의 소스 보고 공통 되는 5-10 소스, 그림 II (Alteryx, 2014)에 배포 했다.

설문 조사도 조사 샘플의 90%를 표시 데이터 통합 문제, 37% 표시 다른 그룹 데이터를 제공 하는 데 필요한 했다 30% 그들은 그들이 원하는 데이터를 가져올 수 없습니다 했다 보여주었다 일반적으로 60% ~ 80%는 데이터 분석가 시간의 데이터 처리 준비 단계 (Alteryx, 2014)에 소비 했다 추정.

그림 2 세

이 효과적인 데이터 관리, 데이터베이스 구축 및 데이터 분석 과정의 중요성을 보여줍니다. 전통적인 데이터 관리 프로세스 등 추출 (추출), 변환 (변환), 로드 (부하). 통해 ETL, 데이터 주어질 수 있다 적절 한 구조를 특정 분석 결과 대 한. 특정 데이터 준비 분석 프로세스는 그림 3에에서 표시 됩니다: 1 단일 또는 여러 소스에서 데이터를 추출. 2 정화, 포맷, 표준화, 집계, 추가, 또는 다른 특정 데이터 처리 규칙을 따릅니다. 특정 데이터베이스에 처리 된 데이터를 로드 하거나 특정 파일 형식에 저장 3. 4는 데이터 분석을 위한 다양 한 방법을 사용합니다.

그림 3

ETL의 중앙 콘텐츠는 여전히 큰 데이터에 적용 하지만 인해 큰 데이터의 많은 수 및 데이터베이스 및 데이터 관리의 다양성 및 높은 및 더 복잡 한 요구 사항을 처리 전체 데이터의 선형 처리는 아주 노동 집약, 소재, 그리고 시간이 되고있다.

또한, 큰 데이터 및 다양성의 신속성은 덜 단일 중앙 데이터베이스에 데이터를 저장 가능 합니다. 이 경우에, 가장 인기 있는 아이디어를 데이터 처리, 즉, 스토리지 노드 (예: 네트워크 데이터베이스)의 수의 데이터를 저장할 데이터를 처리 하는 각 노드에 (또는 초기 분석 하지만 고객의 특정 문제에 따라 처리의 범위 후에 분열과 조정), 있으며 다음 함께, 집계 하나 또는 여러 개의 데이터베이스를 다음 필요에 따라 유용한 결과 얻기 위해 적절 한 분석 방법 선택 제공. ETL 전체 큰 데이터 관리 분석의 과정을 통해 실행 됩니다. 그림 4에서는 대부분 데이터 처리 분석 플랫폼 도구 중의 일부의 이름과 대략적인 큰 데이터 관리 분석 프로세스를 보여 줍니다.

그림 4

SAS 데이터 웨어하우스 연구 연구소 (TDWI) 사람들이 대용량 데이터 분석을 위한 하드웨어 및 소프트웨어를 선택할 때 더 나은 결정을 내릴 수 있도록 설문 조사를 실시 했다. 대용량 데이터 기술, 기능, 및 사용자 작업에 대 한 설문 조사 제공 하는 세 가지 선택: 1 지금 사용에서 하 고 계속 사용 될 것입니다. 2 3 년만에 사용 됩니다. 3 사용 하 여 계획. 그림의 왼쪽 5 다양 한 대용량 데이터 분석 플랫폼 도구에 응답 하는 응답자의 비율을 보여 줍니다. 그림의 오른쪽 5 플랫폼 도구의 잠재적인 성장 및 약속을이 도구 응답자의 비율을 보여 줍니다.

그림 5

잠재적인 성장 및 헌신의 포괄적인 고려에 따라, 또한 추가 조사 4 그룹으로 큰 데이터 분석 플랫폼 분할: 첫 번째 그룹은 온건 하 게 최선을 다하고, 중간 강한 성장 잠재력, 두 번째 그룹은 성장 잠재력을 중간에 적당히 강한의 지, 세 번째 그룹은 적당 한 헌신, 겸손 한 성장 잠재력에 약한 4 보통 약한 성장 잠재력에 강한 헌신에 대 한 그룹. 그림 6는이 그룹의 콘텐츠 배포를 보여 줍니다. 공간 제한,이 문서는 각 특정 콘텐츠, 관심이 독자 자세한 소개를 문학을 참조할 수 있습니다 나열 된 플랫폼 도구에 정교 하지 않습니다.

그림 6

그림 5 및 그림 Liudu 가장 인기 있는 플랫폼을 표시 하 고 데이터 처리 방법을 오픈 소스 무료 Hadoop MapReduce. 그들의 잠재적인 성장 및 헌신, 그것은 수 수 예견는 Hadoop MapReduce 및 처리 및 대용량 데이터의 응용 프로그램을 추진 하 고 운전을 계속할 것 이다.

여기, 하자 Hadoop의 MapReduce 개념 간단히 소개 합니다. Hadoop은 분산된 데이터 처리 프레임 워크 자바 기반. 그것은 읽기 및 쓰기 여러 하드웨어 장치에 저장 된 데이터를 높은 처리량을 제공 합니다. 더 중요 한 것은, 그것은 매우 큰 데이터의 관대 하 고 병렬 응용 프로그램에 대 한 항상 사용 가능한입니다. 여러 이름 (Namenode) 노드와 데이터 노드 (Datanode) Hadoop 프레임 워크 구조에 의하여 이루어져 있다. 큰 데이터 파일의 수백만의 수만 여러 데이터 노드에 저장 된 파일 정보의 더 작은 조각으로 분리 하 고 모든 컴퓨터 하드웨어 장치 수 있습니다.

메타 데이터 라고 하는 이러한 파일에 대 한 데이터 특성 정보 이름 노드 (namenode)에 저장 됩니다. Namenode는 주로 파일 시스템 네임 스페이스를 관리 하 고 클라이언트 액세스를 파일. Hadoop의 프레임 구조는 그림 7에서 표시 됩니다.

그림 7

액세스 하 고 데이터 파일을 조작, 클라이언트 파일 정보 블록 위치, 파일 이름, 기타 등등의 특성 정보를 추출 이름 노드를 연결 합니다. 클라이언트는 다음, 해당 데이터 노드에서 직접 데이터 블록을 읽습니다 이러한 특성 정보를 바탕으로. Hadoop 자체 중복 및 복제 기능을 하나의 하드웨어 저장 장치 오류가 발생할 경우, 각 데이터 노드에 대 한 기본적으로 3 백업 등 손실 없이 데이터를 복구할 수 있다.

또한, Hadoop 프레임에 추가 되는 새로운 데이터 노드 데이터 노드 당 데이터 로드 균형 자동으로 수 있습니다. 마찬가지로, 이름 노드 데이터 속성 정보를 저장 하는 단일 이름 노드 오류가 발생 하면 데이터 특성 정보를 복구 하는 데 사용할 수 있는 중복 및 복제 기능을 가질 수 있습니다.

MapReduce 동시에 대용량 데이터를 처리 하는 데 사용할 수 있는 프로그래밍 모델입니다. 같은 프로그램 작성 하 고 Hadoop의 MapReduce 프로그래밍 모델에서 프레임 워크에서 다양 한 언어 (자바, 루비, 파이썬, 등)에서 실행 될 수 있습니다. 열쇠는 세 단어: 지도, 그리고 병렬 처리. 우리는 MapReduce의 일반적인 작동 원리를 이해 하는 예를 사용 합니다. 예를 들어 우리는 130 문자 문자열의 "오픈 웃음 멜론 밤 마을 Chesche 멜론 밤 주위 다음 등나무 덩굴 감싸 주위는 꽃 꽃잎 놀이 인형", 작업의 각 단어의 발생 수를 계산 하는 것입니다.

가장 간단한 방법은 id의 인덱스를 설정 하 고 메모리의 발생 수를 계산을 순차적으로 각 단어를 읽을 경우 숫자 값은 1, 새로운 단어를 경우, 추가 값의 최대. 순차적 방식에서 이렇게 하 고 길이와 복잡 한 문자열의 선형 증가 소요 된 시간. 게놈 데이터, 같은 시대의 수백만 시간을 보낸 매우 놀라운 될 것입니다. 병렬 처리는 상당한 양의 시간을 저장할 수 있습니다.

우리가 먼저 블록, 식별 인덱스에 대 한 다음 각 파일 블록 여러 작은 파일에 원본 파일을 분할 하 고 값 추가 (하지 누적, 그냥 간단한 단일 지점), 그리고 다음 감소 메서드를 사용 하 여 단어와 값의 해당 항목을 계산 하는 우리 같은 단어를 함께, 순서. 숫자 8 특정 예제 단계를 보여 줍니다.

숫자 8

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.