대규모 데이터 응용 프로그램
오바마 행정부는 2012 년 3 월에에서 "큰 데이터 연구 및 개발 프로그램"을 발표. 응답, 국립 과학 재단, 국립 보건원, 국방부, 에너지 부와 미국 지질 조사국은 큰 데이터 혁신에 투자 하고있다. 미국에 있는 많은 회사 그들의 제품 또는 운영 백엔드의 일환으로 큰 데이터 수집 및 활용 기능을 그들의 비즈니스 활동을 실시는. 연구 그룹, 정부 및 민간 부문 또한 포함 한 다양 한 테마의 큰 데이터 집합의 생성 속도: 기후 변화, 교통 패턴, 건강과 질병 데이터, 구매 행동 및 대화형 소셜 미디어를 통해 사회적 행동. 큰 데이터 응용 프로그램의 예로:
INRIX 회사와 뉴저지 교통부 간의 파트너십. INRIX 회사 신호와 자동차와 휴대 전화의 GPS 장치에서 데이터를 사용 하 여 주요도 속도 데이터를 수집 하 고 즉시 어떤 주요도 조건에 뉴저지 교통부의 경고 그리고 드라이버의 자동차 GPS 장치 또는 위험한 조건에 드라이버를 경고 하기 위해 휴대 전화에 경고를 보냅니다.
기후 회사 기후 공사는 연방 작물 보험 및 기후를 일으키는 농부 손실의 차이 대 한 보상 정책을 만드는 날씨 보험 회사. 회사 분석 및 온도, 강 수, 토양 습기 및 센서의 광대 한 네트워크를 통해 20 백만 미국 농지의 수익률 예측. 뜨거운 일 및 토양 수 분 데이터의 일을 알고, 후 모델 필요한 농민과 회사 지불 하는 데 필요한 보험료 날씨 보험 금액을 예측 하는 그들을 돕기 위해 설립 되었다.
뉴욕 주 뉴욕 주에 기후 변화의 영향 평가 교통, 에너지, 보건, 농업 등의 분야에서 기후 변화를 태 클을 위한 전략을 제공 하 고 큰 데이터 기술의 범위를 사용 합니다. 응용 프로그램 또한 미국 센터에 질병 통제, 다른 10 주와 도시 "" 국가 및 도시 계획을 읽고 작업은 도입 되어 연구 하 고 기후 변화, 그리고 큰 거래 데이터 기술 가장 중요 한 구성 요소 중 하나입니다.
정부 데이터 오픈
큰 데이터 전략의 기초에 수시로 건설은 정부 데이터 오픈. 열린 정부 데이터는 미국에서 완전히 새로운 개념이 아닙니다. 년 동안, 정부 정보 및 데이터를 변경 하 고 수집 하 고 정부 데이터 배포 방법과 수단 또한 이러한 변화 받은. 열린 정부 데이터는 새로운 과학 연구를 생성 경제 성장을 촉진, 정책 수립에 대 한 정보를 제공 하 고 봉사 하는 사람들을 위한 새로운 정책을 개발 하. 열린 정부 데이터에 정책 옵션 혁신 및 대규모 데이터 세트, 개방과 투명성, 정부에서의 응용 프로그램 및 다른 많은 분야에서 연구에 대 한 광범위 한 의미를 가질 것 이다.
오바마 행정부의 열린 정부 계획의 일환으로, 미국 정부 data.gov 웹사이트 2010 년에서 하도록 설정 공개 "높은 가치" 데이터 집합을 엽니다. 정부의 개방형 데이터 플랫폼 이제 사용자에 게 직접 원시 정부 데이터의 엄청난 금액을 제공 하 고 사용자 데이터를 그로 인하여 정부 활동 및 과거에 달성 하지 않았습니다 방식으로 더 복잡 한 사회 문제에 대 한 우리의 인식을 심화의 새 값을 활용할 것으로 예상. 이러한 기술적 접근 여부, 개방과 투명성의 데이터를 기존 데이터에 기반 하는 새롭고 혁신적인 인식 생성 하는 공공, 단체, 지역 사회와 사회의 다른 구성원을 허용 하면서 홍보. 공용 플랫폼으로 협업을 추진 하 고, 데이터 집합을 저장, 지역 사회 참여를 증진 및 참여 기회를 제공 하는 도구 수 있습니다. 또한, 데이터 저장 하 고이 플랫폼을 통해 Csv, xml, Excel 등 여러 형식에 있을 수 있습니다. 각 데이터 형식을 제한 하거나 데이터의 응용 프로그램을 용이 하 게 수 있는 구체적인 의미가 있다.
현재 정책 분석
큰 데이터 및 열린 정부 데이터는 중요 한 문제는 정부 정보 및 데이터의 관리, 사용, 재사용 및 액세서빌러티 정책입니다. 미국은 한 복잡 하 고 변화 하는 정보 정책 (법, 규정 및 정보, 정보, 그리고 정보 처리 및 보관, 데이터 가용성, 개인 정보 보호, 보안 문제, 디지털 자산 관리, 보관 및 보존 간의 균형을 찾기 위해 보급의 세대에서의 정보, 수명 주기를 관리 하는 메모. 이 정책 프레임 워크에 동안 아직도 조정 되 고, 현재 미국 정책 프레임 워크 큰 데이터를 제기한 문제를 해결 하기 위해 충분 한 여부에 대 한 질문을 제기 하는 기술적 진보를 뒤진 간격과 다음과 같은 주요 문제를 제기:
우리 데이터의 가용성을 보장할 수? 빅 데이터 시대에 우리의 개인 정보는 어떻게 보호 우리가? 어떻게 품질 및 데이터의 정확성 보장 우리? 우리가 현재 보관 및 보존 조건 하에서 디지털 자산을 어떻게 관리 합니까? 우리는 빅 데이터 시대에 강력한 데이터 재사용 정책을 개발할 수 있습니다?
다음 현재 상황에 대 한 상세한 분석 및 미국 정보 정책 프레임 워크의 히스테리시스 큰 데이터 및 열린 정부 데이터의 시대에서 이며 정보 정책의 조정에 대 한 조언을 제공.
(i) 데이터 가용성 및 배포
미국 사무실 관리 및 예산 데이터 수집 및 보급, 정부 기관에 광범위 한 지침을 제공 합니다 하 고 정부 기관, 공정이 고 효과적인 방식으로 대 중에 게 정보를 게시 해야 합니다 원칙을 설정 합니다. 정부 기관 설정 하 고 "정보 출시 제품 목록"을 유지 해야 합니다. 정부 기관 해야 고려 하지 않습니다에 대 한 중요 한 정보에 액세스 하는 시민 들의 능력에 차이. 정부 기관의 다양 한 정보를 유포 하는 전략을 개발 해야 합니다. 때 전자 매체, 적절 한 관리를 포함 하는 그 규정을 사용 하 여 작성 및 제출 동등 하 게 적용 됩니다. 정부 기관 평가 하 고 수집 하 고 문서를 저장 하는 가장 적합 한 방법을 결정 해야 합니다.
사무실 관리 및 예산 미국 정부 기관 웹사이트의 정보 관리에 광범위 한 지침이 있습니다. 정부 기관 모든 사용 가능한 온라인 애플 리 케이 션의 표준화 된 위험 평가 실시 하 고 다양 한 개인 정보 보호 관련 조치를 구현 하기 위해 정부 기관 요구 해야 합니다. 다른 정책 도구 관련 정보 수집 및 보급 포함: 1. 정부 기관은 제한 된 영어 능력, "연방 프로젝트와 활동"와 관련 된 사람에 게 정보에 대 한 적절 한 액세스를 제공 하는 데 필요한. 이 정책의 목표는 e-정부 시민, 특히 사람들의 영어 네이티브 스피커에 의해의 사용 사이의 격차를 해결 하기 위해입니다. 2. 장애인 공공 교육에 모든 전자 재료에 평등 접근을가지고 하는 것을 제공 합니다. 규정, 정부 장애인 서비스와 혜택을 제공에서 하 고 정치 및 공공 간의 통신의 행위에를 제외 하지 아니한다. (a) 정부 활동에 장애인의 동등한 참여를 보장 하 고 정부 정보에 대 한 액세스 설정 정보 및 통신 기술의 사용 그들의 일반적인 권리. 3. 온라인 정보 및 통신 기술의 가용성은 승진 하 고 구현. 4. 전자 및 정보 기술 획득, 유지 또는 연방 정부에 의해 사용 온라인 정보 및 장애인에 대 한 서비스에 대 한 액세스를 보장 하기 위해 특정 내게 필요한 옵션 조건을 충족 해야 합니다.
(ii) 개인 정보 보호, 보안, 정확성 및 보관
정부 웹사이트에는 양방향 커뮤니티, 인터넷 바이러스 또는 다른 공격 경로 사고 정보 누출의 가능성을 높일 뿐 아니라 정부 환경, 침입의 가능성을 증가 되 고 있다. 정보 정책 프레임 워크는 또한이 변화를 해결 하기 위해 적응 되었습니다. 예를 들어 사무실 관리 및 예산 정부 기관을 정보 훼손 하지는 보장 정확도, 기밀성 및 정부 기관의 기대와 사용자의 요구에 맞게 내게 필요한 옵션을 확인 하 고 적절 한 보안 조치를 취할 필요 합니다.
그러나, 현재 정책 큰 데이터의 오용의 다 수의 솔루션을 보증 하지 않습니다. 개인 식별 정보, 정부 데이터 및 정보 보안에 대 한 우려와 큰 데이터 공용 데이터의 정확도 관련. 품질, 신뢰성 및 대용량 데이터의 정부, 연구 단체 및 비-정부 기관 및 민간 부문에 대 한 주요 관심사입니다. 미확인 또는 검증 데이터 또는 잘못 된 방법으로 수집 된 고품질 데이터 결정 및 정책 수립의 범위를 심각 하 게 영향을 미치는 잘못 된 연구 결과 발생할 수 있습니다.
Data.gov의 데이터 관리 정책을 포함 하 여 이러한 문제를 해결 하려면 전용: 정부 기관 수집 하 고 데이터의 정확성, 적시성 및 전반적인 품질을 보장 하기 위해 데이터에 대 한 책임을 요구. 정부 기관은 DataSet가 명확한 레이블 버전 제어 해야 합니다. 정부 기관은 데이터를 data.gov에 발표 국가 안보를 포함 하지 않는 확인 해야 합니다. 정부 기관 들은 발표 데이터 기밀성 및 개인 정보 보호 요구와 일치 하는지 확인 한다입니다.
정보 라이프 사이클을 따라 사용, 저장, 및 큰 데이터의 보존에 도전이 있다. 개방 상태와 큰 데이터의 접근성은 대용량 데이터의 사용을 촉진 하는 데 크게 다릅니다. 또한, 특정 분야에 응용 프로그램 데이터 간의 차이가 있다 (즉, 특정 분야에서 과학자에 의해만) 및 광범위 한 학 제 적인 데이터 응용 프로그램 (즉, 학 제 분야 및 공통 연구 분야에 걸쳐 응용 프로그램).
같은 시간에 대규모 과학적인 데이터에 대 한 전문된 데이터베이스 설립 요구를 설정 합니다. 데이터 커뮤니티를 구축의 한 요소로 통합 하 고 다른 소스와 부서에서 데이터 관리 긴급 한 필요는. 이러한 데이터 흐름 사이 정부, 민간 부문, 공공 기업, 장비 및 개인 진정으로 도움이 될 지역 사회와 국가 발전에 대 한 정보를 제공 하 고 수렴 해야 합니다. 그것은 그러므로 설정, 채택 및 공식 집합이 데이터 관리 표준 및 명명 규칙 및 조직 구조 데이터 호환성을 보장 하기 위해 다양 한 엔터티 간의 관행을 준수 하는 데 필요한. 또한, 연구자는 데이터 집합의 정보 사용 되도록 잘 정의 된 데이터 파일 생성 및 코딩 된 복사본을 필요가 있다.
큰 데이터 정보 정책 환경을 더 복잡 하 게 및 "집계" 다른 웹 사이트에서 데이터의 조합을 말합니다. 사무실 관리 및 예산 공개 웹 사이트 열려 있는 데이터를 제공 하기 위해 정부 기관 및 산업 표준 형식, 통합, 사용자와 라인에 분해, 조작, 또는 그들의 요구에 맞게 데이터를 분석 해야 합니다. 현재 집계 된 데이터는 종종 공식 인증 및 확인 절차를 결여 된다. Data.gov 웹사이트 옮겨 봐, "정부 기관 페이지에서 데이터가 다운로드 되 면 정부 더 이상 보장할 수의 품질과 직접." 또한, 미국 정부 data.gov에서 가져온 데이터의 모든 분석 하지 못할 수 있습니다. 이 조건 Data.gov의 책임 제한, 하지만 두 개의 데이터 사용 문제 여전히 해결 되어야 필요 합니다.
큰 데이터의 규칙은 또한 무시 될 수 있는 문제 이다. 디지털 규칙 포함 유지, 보존 및 주기, 디지털 자산 생성, 수집 및 사용 디지털 자산 고는 평가의 개념 등 다양 한 디지털 자산을 통해 전자 연구 데이터의 가치. 새로운 전자 데이터 자산의 지속적인 성장, 그것은 대용량 데이터의 전체 수명 주기 위한 효과적인 데이터 관리 전략을 개발 하는 데 필요한.
마지막으로, 디지털 "오픈 스페이스" data.gov 커뮤니티 등에서 적은 영구적이 고 마지막 문서와 거의 모든 파일 관리 하 고 이러한 문서 기반 작업 보관 키를 누릅니다. 자, 비-정부-타사 응용 프로그램 또는 소프트웨어, 지속적인 데이터 조정 및 수정, 데이터 소유권의 사용으로 스토리지 진보와 보관은 엄청난도 전에 직면.
정책 및 지배 구조 원칙
정책 논쟁을 고려 때 민간, 비영리 부문 및 정부 협력 정책 수립 때 우리 정부 데이터와 대용량 데이터 법안을 열 또는 일련의 정책 및 지배 구조를 개발 하기 어려운 찾으십시오. 정부는 데이터 개방과 대형 데이터 기술의 사용에 관해서 원칙의 세트를 개발 해야 합니다. 그리고 이러한 지침만 시작 하지 끝. 큰 데이터 혁신의 이해를 깊게 하기 위해 계속, 우리는 구축 하 고 강력한 정책과 거 버 넌 스 프레임 워크를 유지 해야 합니다. 딩 원리는:
1. 잘 아니 해도 정부 간의 데이터 공유, 민간 및 공공 사회 개인, 민감한 개인 정보를 포함할 수 있습니다 그리고 이들이 단체의 대부분 일치 데이터 관리, 활용 및 정책을 다시 사용 하지 않는. 비정부 조직 또한 큰 데이터 협력 프로젝트에서 참가자는 때 개인 하지 강제로 또는 이러한 비-정부 조직에 어떤 목적을 위해 정부에 의해 수집 된 데이터를 공유 하도록 요청 한다.
2. 장기 비전입니다. 장기 공유, 보존, 검색 및 데이터의 취득은 현재 기술 수준 넘어 장기 비전을 필요 합니다. 그것은 그 큰 데이터를 확인 하는 데 필요한 고 보조 제품 향후 10 년, 20 년 하 고도 장시간에에서 얻어질 수 있다. 처음부터 데이터 표준 및 기술 표준을 열고 준수는이 프로세스에 대 한 효과적인 촉매를 될 수 있습니다.
3. 데이터 프레젠테이션입니다. 우리는 데이터 요소, 데이터 수집 (예: 개인 또는 지역 사회 수준)의 단위 또는 다른 데이터의 잘 정의 데이터 수집 및 사용 정책을 명확 하 게 관절은 되도록 해야.
4. 책임. 대형 데이터 정보 및 정책 개발, 제공에 대 한 좋은 잠재력을가지고 있지만 그것은 또한 손상 될 수 있습니다. 큰 데이터 통합을 위해 원래 생성 되지 않은 여러 데이터 집합의 집계를 일반적으로 포함 되어 있습니다. 큰 데이터 혁신, 정부 해야 다른 사람에 의해 그들의 데이터의 사용에 의해 발생 하는 피해에 대 한 책임을 공중의 보호를 보장 합니다.
정책 권고
큰 데이터 포즈는 일련의 문제, 그리고 현재 정책 프레임 워크는 해결, 큰 데이터 거 버 넌 스 모델을 요구 하는 힘이 없는. 이 거 버 넌 스 모델은 다음과 같은 특정 문제를 고려할 필요가:
Privacy。 개인, 가족, 장비 또는 다른 수준, 큰 데이터에는 개인 정보 데이터의 다양 한을 포함 되어 있습니다. 큰 데이터의 개인 이나 커뮤니티의 개인 정보 보호 위반 하는 동안 개인 정보 보호 법률 및 정책을 큰 데이터의 기회와 충돌 수 있습니다.
데이터 재사용입니다. 데이터는 보통 정부 기관 또는 다른 조직에 의해 수집 하 고 일반적으로 사회 서비스의 서비스와 관련 된. 또한, 개인, 정부 기관 또는 회사 자주 수집 하 고 데이터를 사용 하 여 개인 정보 보호 정책 뿐만 아니라 허용 한계 내에서 데이터를 사용 하는 권리가 있다. 큰 데이터 응용 프로그램은 다른 조직, 정부 및 새로운 아이디어를 식별 하 여 정책 및 정책 개발에 대 한 정보를 제공 가족 데이터 세트에서 지속적으로 통합 된다 때 그것은 또한 데이터의 사용에 대 한 명확한 지침을 만들고 개인 고의로 자신의 개인 데이터에 대 한 결정을 할 수 있도록 개인에 대 한 정책을 재사용 하는 데 필요한.
데이터 정확도입니다. 다른 정부 기관, 연구자, 과학자, 민간 부문 및 공용 그룹에서에서 서로 다른 데이터를 결합 하 여 새 데이터 집합을 생성 하는 때문에, 데이터 품질 표준 개발을 준수 해야 합니다. 특정 목적을 위해 수집 된 데이터 오류 및 잘못 된 결론의 시리즈에 있는 다른 데이터와 함께 반드시 완벽 하 게 호환 되지 않습니다. Data.gov 웹사이트에 고 지 사항을 데이터를으로 조직 또는 개인을 다운로드 하 고 데이터를 사용 하 여 게시 하는 정부 기관에이 책임을 제공 합니다. 데이터를 사용 하 여 사회, 정책 및 과학 프로젝트에 큰 영향을 미칠 수 있습니다 그리고 위의 방법은 데이터의 사용에 대 한 적절 한 응답 아니다.
데이터를 가져올 수 있습니다. 데이터 집합 생성 정책을 새로 가용성 및이의 유지 관리 하는 공간에는? 또한, 큰 데이터 집합 정부 데이터 집합에 액세스 하려면 대 중에 대 한 문제가 되 고 비슷한 data.gov 공용 데이터 액세스 플랫폼에 대 한 필요가 있다.
보관 하 고 저장 합니다. 큰 데이터의 임베디드 기술 및 분석 플랫폼에서 분리 된다, 원시 데이터 자체는 데이터와 데이터를 분석 하는 데 사용 되는 기술 모두를 보호 하는 것은 중요 한 그래서 비슷한 발견의 수출을 보장할 수 없습니다. 또한, 우리는 보관을 고려해 야 하 고 정부 연구 기관에서 자금 비-정부 기관, 대학 등 연구 센터를 설립한 연구 데이터의 장기 보존. 전체적인 데이터 관리 전략 작은 데이터 집합의 대형 데이터의 일부가 되도록 개발 될 필요가 있다.
데이터 규칙입니다. 큰 데이터 혁신의 주요 목표 중 하나는 새로운 지식을 만드는 여러 개의 대형 데이터 집합을 통합 하는 지역 사회를 장려 하입니다. 큰 데이터는 반드시 큰 데이터를 축적, 수정, 병합, 및 많은 작은 데이터 집합을 처리 하 여 오히려 수 태어난 되지 않습니다. 데이터의 각 배치는 새 데이터 집합을 보관 하 고, 관리, 감독 해야 하는.
지속 가능한 데이터 플랫폼 및 아키텍처를 구축. 구성, 조절, 저장 하 고 과학적인 그룹, 민간 부문, 다른 분야와 대 중, 강력한 기술 인프라를 데이터 세트를 열 필요 합니다. 이러한 플랫폼 물리 (기술)에서 큰 데이터에 열려 있이 필요가 고 지적 수준 (조직), 다양 한 기술, 분석 기술, 및 정보 아키텍처의 완벽 한 통합을 요구 하는 동안. 이러한 인프라는 특별 한 기관에 대 한 공용 Data.gov, 같은 범용 플랫폼 뿐만 아니라 큰 데이터 집합의 큰 숫자와 함께 전문된 플랫폼을 지원 하기 위해 수 있어야 합니다.
데이터 표준의 설립입니다. 큰 데이터 요구 사항 데이터 수준에서 메타 데이터 표준을 준수 하는 동안 기술 수준에서 상호 운용성을 사용 합니다. 다른 도메인은 다른 메타 데이터 표준을 할 수 있습니다. 생성, 개발 및 출시 큰 데이터 집합의 협업 및 데이터 재사용을 촉진 하는 적절 한 데이터 표준 형식을 고려 해야 합니다. 또한, 문서 표준 외부에서 발표 한 문서에 대 한 설정 해야 합니다. 또한, 데이터의 한계는 명확 하 게 설명 해야 합니다.
크로스 sectoral 데이터 공유 정책을 격려 한다. 큰 데이터 포함 하므로 서로 다른 시스템, 정부, 및 부서 간의 실시간 데이터 전송, 데이터 공유 및 상호 운용성에 대 한 프레임 워크를 필요 합니다. 공동 분석 기술의 큰 데이터 혁신, 데이터 수집 및 보고 시스템 갭 없이 통합할 필요가 있다. 이것은 정보 및 데이터 정책을이 통합된 데이터 환경에 맞게 조정 해야 할 것입니다.
큰 데이터 혁신 정책 수립에 대 한 및 의사 결정, 주요 과학 및 사회적 과제의 우리의 이해를 깊게, 정부, 시민 및 기업 간의 협력을 촉진 하 고 수 전자 정부 서비스의 새로운 시대를 리드 합니다. 그러나, 우리는 또한 큰 데이터 관리, 개인 정보 보호, 정확성, 접근성, 공평 및 보존 정책를 포함 하 여 큰 데이터 조직 관리의 전체적인 모델을 관련 정책 문제의 범위를 고려 해야 합니다.