그것은 모두가 큰 데이터, 심지어 미국 연방 정부에서 찾고 있다 보인다. 작년의 끝에, 연방 공정 거래 위원회 (FTC) 순서 고객 데이터 수집 및 사용 정보를 제공 하기 위해 그들이 요구 데이터 중개 업계에서 9 회사 발행. 공정 위의 행동 분명히 그 큰 데이터의 많은 상용 혜택을 제공 하는 동안, 그것은 또한 중요 한 개인 정보 보호 문제를 포즈.
큰 데이터를 사용 하는 이유는?
그것은 거의 모든 종류의 데이터 파일 또는 형식, 이미지, 비디오, 그리고 소셜 미디어에서 수집 된 데이터를 포함 하 여 분석 하기 때문에 큰 데이터는 데이터 웨어하우스에서 과거 다릅니다. 큰 데이터의 또 다른 기능은 그것을 데이터 저장소 "일대일" 관계는 없지만 단일 글로벌 자원으로 큰 콘텐츠 저장소 및 파일에서 콘텐츠를 추출 하는 가상화 된 아키텍처에 의존.
기업 임원 및 라인 관리자, 대용량 데이터를 사용 하 여에 대 한 가장 큰 동기는 더 정확 하 고 상세한 예측 또는 추측 기업에 잠재적인 혜택을 제공 하는입니다. 큰 데이터 새로운 제품 개발 및 최고의 가격을, 직업을 이력서를 심사 하 여 효과적인 마케팅 캠페인을 설계 개선에서 다양 한 비즈니스 이점 제공 합니다. 사실, 정치 운동은 큰 데이터 분석을 사용 하기 시작 했다: 2012 오바마 캠페인 가능성이 유권자 확인 다음 핵심 전략에 오바마의 궁극적인 승리는 캠페인 기금 마련 및 표, 승리에 그들을 통해 그들을 영향 큰 데이터 분석을 사용.
큰 데이터 개인 정보 보호 문제
FTC의 최근 작업 데이터 브로커 특히 겨냥 된다: 수집 및 특정 소비자 행동 데이터를 분석 하 고 결과 마케팅 및 영업 실적을 개선 하고자 하는 기업에 판매 하는 회사. 그러나, 점점 더 많은 개인 정보 보호 문제를가지고 대량의 데이터를 사용 하 여,이 인식 하지 필요가 제한 이러한 전통적인 데이터 중개 회사. 경제학자 정보 부 (경제학자 그룹 내의 독립 사업 단위) 제조, 그것 및 기술, 금융 서비스, 전문 서비스, 의료, 제약 및 생명 공학, 및 소비재를 포함 하 여 큰 데이터를 사용 하는 19 산업 영역을 게시 합니다. 큰 데이터 혁명 시작 된 의심의 여지가 있다.
큰 데이터 및 큰 데이터에 사용 되는 비즈니스 동기의 특성에 따라, 가장 중요 한 개인 정보 보호 문제는, 단순히, 품질 또는 데이터, 그리고 기업 의사 결정을 내릴 데이터를 사용 하 여 개인에 미칠 수 있는 부정적인 영향의 정확도. 예를 들어 개인 정보 소셜 미디어에서의 정확도? 소셜 미디어에서 정보를 수 있습니다 또는 다른 소스를 사용할 수 화면 또는 응용 프로그램 작업 또는 건강 보험료를 인상 순위? 나이, 결혼 상태, 교육, 또는 고용, 등 기본적인 개인 데이터는 일반적으로 입증 된. 무료 전자 메일 서비스에 이러한 유효성 검사 이며 거의 모든 사용자가 그들이 어느 정도 데이터 집계에 대 한 개인 정보 보호 권리의 포기에 동의 나타내는 사용 및 개인 정보 보호 문, 약관에 동의를 클릭.
또 다른 품질 문제는 그 때 인터넷 검색 용어 또는 구문을 수집, 그들은 수 있습니다 오해. 잘못 된 데이터를 사용 하 여 회사의 예로 인터넷 검색어 가격, 제품 평가를 또는 잠재적인 대상 고객을 사용 하 여 있습니다. 알다시피, 당신의 가정용 컴퓨터에 여러 사용자가 있을 수 있습니다 이유는 왜 누군가가 그들에 게 없는 주제에 대 한 웹 검색 하는 수 있다. 데이터 수집, 분석, 및 사용의이 유형은 궁극적으로 결과 상호 파괴적인 상황에서 개인에 대 한 데이터 분석에 대 한 잘못 된 결정으로 이어지는 문제 분석 결과 생성할 수 있습니다. 큰 데이터의 품질을 제어할 수의이 부족 충족 이며 주어진된 목표에 적합 한 개인 데이터를 수집 하는 다른 개인 정보 보호 원칙을 우리에 게 포인트.
큰 데이터 개인 정보 보호에 대 한 유용한
큰 데이터의 기업 처리에 대 한 유용한 불확실 하 고, 유지 되지만 몇 가지 교훈이 큰 데이터 혁신 개인 데이터의 프라이버시를 희생 하지 않고도 구동 됩니다 수 있도록 배울 수 있다.
대용량 데이터를 효과적으로 사용 하 여 첫 번째 단계는 제대로 조달 하 고 클라우드 서비스를 관리 하는 비용 효율적인 대용량 데이터를 만들기 위한 필수 구성 요소: 대부분의 기업 수 없습니다 또는 큰 데이터 이니셔티브를 지원 하지만 클라우드 컴퓨팅 응용 프로그램, 인프라 및 처리 능력에 의존 하는 데 필요한 IT 인프라에 투자 하지 것입니다. 또한, 심지어 그 투자 발견할 것 이다 그것은 클라우드 컴퓨팅 제공 유연성 없이 이렇게 어렵다. 그것은 또한 일반적으로 보안 및 클라우드에서 데이터의 개인 정보 보호를 보장 하기 위해 수 많은 기업의 약점 노출 컴퓨팅. 그것은 표준 일반적인 안전 계약을 구현 하는 기업에 대 한 충분 하지 않습니다. 특정 데이터 개인 정보 보호 정책 컨트롤에 대 한 클라우드 서비스 제공자와 클라우드 서비스 사용자가 수행 해야 하는 책임에 대해 분명히 있습니다. 클라우드 서비스 해야 합니다 또한 지속적으로 감지 되며 감사, 데이터 무결성, 기밀성 및 가용성 표시 관련 통계. 클라우드 컴퓨팅 서비스를 사용 하기 위한 완벽 한 데이터 보호 리소스 웹사이트에는 다양 한 교육용 문서를 사용할 수 있는 클라우드 보안 연합 (구름)입니다.
과거의 경험, 클라우드 서비스를 배포할 때 그것은 공용 클라우드에 큰 데이터 프로토 타입을 수행 하 고 다음 개인 클라우드로 이동. 왜? 공용 클라우드 배포, 이름에서 알 수 있듯이, 제 3 자 환경 내 고 "신뢰할 수 없는" 당사자에 의해 액세스할 수 있습니다. 사설 클라우드 배포 직접 제어 하 고 조직 또는 기업, 관리 그리고 데이터 컴퓨팅 시설 엔터프라이즈 외부에 있을 수 있습니다, 비록 사설 클라우드 배포 신뢰할 수 있는 당사자에 의해 액세스할 수만 있습니다.
다음 전략에 대 한 더 큰 데이터를 활용 하 여 배포 저장소 융합. 퓨전 저장소 보다 효율적 이며 데이터 품질 또는 정확성에 영향을 미칠 수 있는 오류 가능성을 줄일 수 있습니다. 데이터 품질 관련 핵심 기능 그리고 퓨전 저장소에 대 한 정확성은 데이터 중복 제거, 또한 비용 효과적인.
다른 최상의 이러한 개인 정보 보호 문제를 피할 수 있도록 제대로 데이터를 정리 하는 것입니다. 에 모리 대학 데이터 웨어하우징 전문가 이미 딘 말한다: "필터, 깨끗 한, 빼기, 정렬, 일치, 연결, 그리고 데이터를 가능한 한 빨리 진단." "데이터 품질 분석에 미치는 영향의 관점에서 딘 권장 측정 또는 다양 하 고 다양 한 데이터를 평가 합니다." 딘은 또한 쿼리를 위해 데이터 원본 되도록 연결 되거나, 그래서 그들의 소스에 문제가 있는 모든 데이터 요소를 다시 추적 될 수 있다 제안 했다.
궁극적으로, 개인 데이터의 정확성을 보장 하는 가장 좋은 방법은 (및 이렇게 더 나은 데이터 개인 정보 보호를 위해) 격려 하 고 보기, 검토, 및 정확한 정보, 자신에 대 한 수집 자체 기업 뿐 아니라 소비자가 필요로 하는 것입니다. 또한, 소비자 검토 프로세스는 사용 하기 쉬운 이며 소비자 돈을 지출 하는 필요 하지 않습니다. 이것은 오래 된 데이터를 사용자에 대 한 노력 때문에 그들은 일반적으로 그들은 결코 사용 하는 데이터의 많은 수집 하 고 조작 하는 것이 힘들 수 있습니다. 그리고 기업 소비자 같은 상세한 개인 정보를 수집 하는 그들을 볼 것 이다 걱정 또한 있습니다. 그러나이 투명성은 소비자 들이 큰 데이터를 사용 하 여 신뢰를 구축 하는 방법을 결정 하는 가장 좋은 방법은. 보고 엔터티 만들고 있다 그것은 장기적인 연습에 액세스 하려면, 소비자에 대 한 신뢰성 검토 하 고 데이터를 우리는 레 귤 레이 터에 의해 산업에 대 한 요구를 해결 합니다. 마찬가지로, 개인 정보 보호 팁, (이 질문에 대답을 자세한 연락처 포함) 웹 사이트 문 투명성을 얻을 수 있으며 오류 데이터를 처리 하는 방법.
큰 데이터 퍼즐
기업 개인 정보 보호의 가장 논쟁 적인 개념 동의 얻거나 수집 및 개인 데이터의 사용을 허용 하는 것입니다. 시간을 되돌릴 수 있는 경우 모든 다시 시작, 그것은 이상적인 기본 규칙 것입니다. 그러나, 그것은 너무 늦 었 어 때문에 많은 양의 개인 데이터를 수집 하 고 널리 공유 개인 데이터를 수집 하는 개인 동의 추구 하. 명백한 사실 개인 데이터를 수집 수 있는 모든 사업을 식별 하는 것입니다.
완전히 삭제 하 고 그들의 데이터를 지우고 그들을 함으로써 그들의 개인 데이터의 통제를 회복 하는 개인을 도울 수 있는 방법이 있다. 물론, 대용량 데이터 사용자가이 기능을 제공 하 게 행복 하 고 이것은 소비자의 인식 하 고 그들의 데이터를 사용 하 여 이점을 가져올 수 있는 믿을 여부의 "심각한 테스트". 레 귤 레이 터 그들은 고려 하는 소비자의 개인 정보 보호 권리 보호 데이터를 삭제 하는 기능에 대 한 바인딩됩니다. 대용량 데이터 사용 진화를 계속, 회사 개인 큰 데이터 배포 기술 설계 및 건축 단계 동안 특정 데이터 필드를 삭제할 수 있도록 하는 기능을 제공을 고려해 야 합니다.
마찬가지로, 개별 개인 정보 보호 권리 보호의 관점에서 개인 데이터를 사용 하는 더 나은 방법을 "익명 으로" 모든 개인 데이터를 처리 하기 위해입니다. 그러나, (즉, 어떤 식별 필드 또는 특성 삭제) 익명의 개념은 없습니다 입증 가능. 2000, 박사 LaTanya 스 위 니 (지금 하버드에서 교수) 3 정보 미국인의 87%를 결정 하는 데 필요한 했다 보여 이르면: 우편 번호, 생년월일, 및 섹스, 공공 기록에서 찾을 수 있습니다. 익명 시스템의 배포와도 이러한 결과 감안할 때 우리는 미국에 있는 모든 개별 소비자의 id를 재정의 수 있습니다.
이러한 모든 문제 및 전략에 비추어 호황 큰 데이터 영역에서 개별 개인 정보 보호 권리를 보호 하기 위해 솔루션은 안정적이 고 정확한 개인 정보를 확인 하 고 적절 하 게 해석 하는. 동시에 기업에 그들의 큰 데이터 개발 및 사용,이 방법에만 위의 개인정보 보호 원칙을 포함 해야, 기업이 최상의 결과 얻을 수 있다 또는, 적어도, 소비자 저항.
(책임 편집기: Fumingli)