데이터 엔지니어 http://hackertyper.net/, 같은 매일 만들고 다음 하나의 좋은 제품 후 또 다른 무엇을 생각 합니까? 잘못! 뉴욕 타임즈 기자 인터뷰 그들은 80%의 "큰 데이터 꾸준히"로 그들의 시간을 보냈다 고 말했다 큰 데이터 엔지니어의 수, 그것은 아니 무슨 인간이 상상할 수 있는. 대량의 원시 데이터, 정렬, 형식 변환, 알고리즘은 이해할 수 같은 형태로 구조화 된 데이터를 조정에서 유용한 데이터를 추출 하는 지루한 작업...
결과적으로, 이러한 데이터 엔지니어 부른다 "데이터 클리너", "데이터 포터", "데이터 셰이퍼" 등등... 모니카 Rogati, 턱 뼈, 최고의 건강 추적 팔에서 데이터 과학의 부사장 말했다 대부분의 사람들, 심지어 일반 프로그래머, 일은 매우 건조 하 고 용납할 수 없는, 하지만 데이터 엔지니어, 그것은 뭔가 그들은 매일 해야 했다.
교수 제프리 Heer, 워싱턴 대학 교수 Trifacta, 큰 데이터 시작 이다 단순히 원시 데이터의 무리에 알고리즘을 입력 하 고 자체에 나올 결과 기대 하 고 원사의 설립자... 그것은 놀라운 데이터 엔지니어 깔끔하게 서식이 지정 된 데이터를 알고리즘을 이해할 수 있다 (매우 거 대 한) 여러 가지 형식의 데이터를 변환 하는 데 필요한.
요오드는 의료 시작 회사 이다. 회사의 직원은 그들의 제품 상태 식품 청 (FDA), 국립 보건 센터, 텍스트 및 제약 회사에서 제공 하는 이미지에서 원시 데이터를 활용 하 여 약물의 부작용에 대 한 경고와 더불어 사용자를 제공할 수 있는 공개. 그러나 것은 당신이 생각 보다 훨씬 덜 간단.
한 빛 졸음 "졸음", "졸 림"과 "졸" 세 종류의 이론에는, 사용자가 확실히 이해 하기 수 있도록 이러한 세 가지 단어를 볼 수 있습니다 하지만 동일한 의미를 나타내는 데 이러한 세 가지 단어를 이해 수 알고리즘을 기대 하지 않습니다.
그래서 소위 "빅 데이터" 시작 회사 기본에 최근은 다른 채널, pointcuts를 통해 작업을 완료 하려면: 표준화, 간단한 데이터 처리 소프트웨어의 생산 되도록 데이터 엔지니어는 너무 피곤 하 고, 모든 원시 데이터 입력에 직접 추출 결과 간단한. Parooto, ClearStory 데이터 시작 회사 같이 하고있다.
회사는 시각적 프레 젠 테이 션 테이블, 그림, 또는 지도에 다양 한 다른 명세에서 원시 데이터를 통합 하는 제품을 제공 합니다. 회사의 최고 경영자, Shahani-멀리 건, ClearStory의 제품 6 ~ 8 다른 데이터 포맷, 통합 수 있었다 그리고 결과 최종 사용자 데이터의 무지 했다 적합 했다.
또한 수동으로 데이터를 계산할 수 있습니다 그리고 나는 결코 이렇게 하려면 충분 한 데이터 엔지니어 있습니다 내기...
(책임 편집기: Mengyishan)