실리콘밸리의 관측 (http://www.china-cloud.com/yunjishu/shujuzhongxin/20141208_44107.html?1418016591)에 큰 데이터의 "최대" 섹션에서 나는 기본적으로 실리콘 밸리 지역에서 큰 데이터 성장 상황의 비교적 완전 한 모양을 통해 빗 었 네요. 친구 통지 후 "다음"에서 메시지를 주고 나 마이크로 블로그, 다음 장으로 회사의 대용량 데이터의 일부를 소개 하는 구글, 특히 구글 맵 스를 추가할 수 있습니다 물어 들 었 특히 세계에서 가장 큰 검색 엔진 매일 필수 여행 유물을 알고 싶어 하는 굴 삭 기는 방법 이기 때문에.
그래서, 지난 주 구글 인터뷰를 갔다. 이 문서는 큰 데이터를 포함 하 여 유명한 플래그 3 재생 실리콘 밸리에서 회사의 4 개의 종류의 총을 발표할 예정 이다 (애플 큰 데이터에이 뛰어난 성능).
이 문서는 Evernote AI 감독 Zeesha Currimbhoy, LinkedIn의 큰 데이터 부문의 사이먼 장 수석 이사, 전 페이스 북 인프라 엔지니어 Ashish Thusoo과 Google 큰 데이터의 첫 번째 줄에서 온다 엔지니어와 구글 지도 관련된 사람 인터뷰. 즐길 수 ~ ~
Evernote: 올해, 새로운 인공 지능 학과 칼 손가락 깊이 연구
Evernote의 글로벌 컨퍼런스, CEO 필 리빈, Evernote의 중요 한 방향 "를 했다 게 Evernote 강력한 두뇌." 이 목표를 달성 하기 위해, 그들은 단지 개편 증강된 정보 팀을 언급 해야 합니다. 내가 스탠포드 AI 팀 관리자 Zeesha Currimbhoy, 여기 그녀 로부터 직접 정보를 분석입니다.
이게 뭐예요
올해 초, 2-년-오래 된 데이터 처리 팀 Zeesha, 총 10 명 미만, 매우 낮은, 주중에 거의 가청 이끄는 증강된 지능으로 개편. 도대체 그들은 뭐 야?
우리가 자주 부르는 AI (인공 지능), 달리 Evernote의 팀 이름 증강된 정보, 일반적으로 아이오와에 라고도 불린다
Zeesha는 명확 하 게 팀의 연장 자: "Evernote에에서 합류 2012 년, 직접 데이터 처리 팀 단지 설립, 지금은 AI 팀의 배아 형태입니다." 우리의 첫 번째 프로젝트를 개인 입력 스타일에 따라 사용자의 입력된 경험 등 간단 하 고 쉬운 프로젝트 이다. "
전통적인 인공 지능 데이터와 알고리즘을 분석 하 고 결정 하는 법을 배워야 컴퓨터의 많은 수를 말합니다. 그리고 여기는 IA는 컴퓨터 작업의 일정 금액을 할 수 있도록 하 고 궁극적인 목표는 인간의 뇌를 팔, 더 나은 결정을 내릴 사람들이. 자연의 구현에서이 두 개념은 많은 상사 성, 하지만 출발점이 완전히 다르다.
이 구별은 또한 Evernote AI 팀의 하이라이트 이다. 노트 필기 도구로 Evernote와 구글과 같은 검색 엔진의 가장 큰 차이 그것이 매우 개인적인입니다. 사용자의 저장 된 메모, 사이트 링크, 사진, 동영상, 등 사고와 관심사의 그의 방법의 구체화는.
어디로 부터?
Zeesha 그룹의 원래 의도 사용자가 그들의 저장 된 노트 다음 동일한 패턴을 사용 하 여 타사 데이터베이스 (즉, 다양 한 오픈 소스에 대 한 정보는 인터넷)에서 정보를 추출 하 고 생각 하 고의 그들의 방법을 배울 수를 분석 하 여 생각 했다. 이런이 의미에서 미래 Evernote 두뇌 같이 더 많은 것의 Zeesha 버전 슈퍼 플러그, 이해할 수 있는 강력한 데이터 지원의 다양 한 제공 하는 인간의 두뇌에 대 한.
현재 전체 팀의 진입점 이며 매우 작은 초점.
"우리 뿐 아니라 검색, 사용자를 돕고 있어 하지만 더 적절 한 시기에 사용자에 게 올바른 정보를 밀어 하는 것이 중요입니다." "
이 목표를 달성 하는 첫 번째 단계는 사용자가 자신의 노트를 분류 하 고 상관 관계 포인트를 찾을 수입니다. 올해 초, Evernote 맥의 영어 버전에서 "설명" 검색 이라는 기능을 구현 했습니다. 사용자가 직접, 검색 하려는 항목을 설명할 수 있는 그리고 Evernote는 모든 관련 정보에 자동으로 반환 합니다.
예를 들어 사용자는 "2012 년 이후 프라하에 있는 모든 사진" 또는 "모든 채식주의 메뉴"에 대 한 직접 검색할 수 있습니다. 어떻게 사용자의 노트 분류에 decriptive 검색 관련 정보에 대 한 검색 하 고 데이터의 큰 범위를 반환 하는 것을 피 한다. 이것은 지능형 제품의 시리즈를 만들 것 이다 인공 지능 팀의 긴 기간 목표의 시작에 불과입니다.
어디로
물론, 새로운 팀은 자연스럽 게 많은 난관을 직면 한다. 더 중요 한 기술적인 어려움 중 하나는 Evernote에 사용자의 데이터입니다. Evernote의 사용자 볼륨 100 백만 도달 했습니다, 비록 AI 팀 하지 그룹의 초점 맞춤된 분석 플러스 개인 정보 보호 및 다른 여러 가지 이유로 인해 크로스 사용자 데이터 분석을 완료 했습니다.
결과 팀 다른 작은 데이터 그룹의 100 백만 그룹 분석 필요. 예를 들어 가정 10 노트 Evernote에 있다 그리고 그 Evernote이 적은 양의 데이터를 사용 하 여 효과적인 결과 분석할 수 있어야 합니다. 물론, 이러한 기술의 직접적인 결과 더 많은 사용자가 Evernote를 사용 하 여, 더 나은 맞춤된 사용자 경험 있을 것 이다. 긴 안목으로 보면, 그것은 또한 사용자 끈 적 거 림을 증가 시킬 수 있는 기능입니다.
하지만 Zeesha도 인정: "사실, 우리 모두가 큰 데이터는 알고 아니 소위 지능형 분석 이다." 하지만이 전제에 새롭고 적절 한 알고리즘을 찾을 것입니다 우리가 지금 무엇을 할. "그녀는 팀에, 일은의 아이디어에 가지 않 았 어 하지만 안 필드에서 매우 성공적인 전례는, 그 우리 Evernote AI 팀 Zeesha, 아래에서 몇 가지 흥미로운 결과 기대 하는 이유를 했다" 고 말했다.
외부 광고의 정확 하 고 내부 통신에 대 한 페이 스 북: 빅 데이터
페이 스 북 페이스 북의 데이터 처리 플랫폼을 구축 하는 4 년 거의 30 이상 사람들의 팀이 있다. 오늘, 페이스 북은 여전히 플랫폼의 나날 가동을 지원 하기 위해 100 개 이상의 엔지니어 필요 합니다. 그것은 생각할 수 있는 큰 데이터 분석 인프라는 이미 시간이 많이 걸리는 프로젝트입니다.
페이스 북의 큰 가치 중 하나는 1.35 십억 이상의 active 사용자에 의해 매일 발표 하는 데이터입니다. 그리고 그것의 큰 데이터 분야 후 모색, 2013 년에 부의 키 재단 정확한 광고로 포지셔닝의 7 ~ 8 년 일련의 그들의 자신의 데이터 처리 시스템 및 팀을 구축 하기 시작 했다. 그리고 일치 하는 수집 활동, 세계의 두번째로 큰 광고 플랫폼 아틀라스 구입 등의 시리즈.
매니저에 따르면 전 페이스 북 데이터 인프라 Ashish Thusoo, 페이스 북의 데이터 처리 플랫폼은 자체 이상 1 Exaby를 관리 하는 플랫폼을 관리 하는 셀프 서비스 테 데이터입니다. 회사 내의 여러 부서 처리 실시간 데이터 및 요구 사항에 따라 추가 분석에 직접 볼 수 있습니다.
현재, 엔지니어, 제품 관리자, 비즈니스 분석가, 그리고 사람들의 많은 다른 위치를 포함 하 여 회사의 팀의 30% 이상 될 것입니다 매 달이이 서비스를 사용. 이 데이터 처리 플랫폼의 설립 쉽게 크게 회사 운영 방식 변경 데이터를 통해 서로 통신할 다른 부서에 대 한.
역사, 페이 스 북 먼저 했다 큰 데이터 프로토 타입 2005 년에 때 애 자신. 방법은 간단: 데이터 저장 및 관리 Memcache와 MySQL.
곧 버그 떠오르고 있다, 사용자의 수에 있는 급속 한 증가 함께 페이스 북의 급속 한 개발 주기 (변경-수정-릴리스), 방해 Memcache MySQL의 사용 그리고 시스템 동기화 종종 불일치 발생. 솔루션이이 문제에 따라 초당 1 백만 읽기 작업 및 쓰기 작업이 TAO ("는 연결 및 개체"), 주로 특정 리소스 오버 로드 되 면 서버 밖으로 응답 하는 버그를 해결의 수백만의 분산된 데이터베이스입니다.
2013 년 1 분기에 대 한 애의 전략은 회사의 큰 데이터 방향에 집중 하 고 특히 수익성에 과도 한 요구를 만들지 하지만 큰 데이터에 따라 다음과 같은 세 가지 기능을 요구 하.
새로운 광고 제품을 게시 합니다. 같은 친구, 특정 친구와 수의 관리 기능을 실행 하는 광고주의 정확도 향상 시킵니다.
이외에 Datalogix와 엡실론, acxiom BlueKai, 광고를 광고주의 능력을 향상 시키기 위해 협력.
스위트 광고 아틀라스를 인수 함으로써 광고주는 디지털 미디어의 수익 광고 투자 판단에 더 낫다.
링크 드 인: 얼마나 큰 데이터 직접 판매 및 지원 현금 현금 인출
링크 드 인의 큰 데이터의 중요 한 기능이입니다 광산 사이트에 사용자 및 고용주 정보의 광대 한 숫자를 분석 하 고 직접 판매 및 유동성을 지원 하기. 그것의 핵심 팀, 사이먼 장, 비즈니스 분석 팀의 감독은 지금 나라에서 모두 구름에 대해 얘기는, 논의 클라우드 컴퓨팅, 논의 큰 데이터를 큰 데이터 플랫폼에 대해 얘기 하지만 몇 사람들은: 어떻게 직접 돈을 벌기 위해 평 신도 측면에서 더 많은 가치를 생성 하 데이터를 사용할 수 있습니다.
하지만 문제는 직접 소득 때문에 중요 하다. 회사 정보 4.5, 링크 드 인에 모든 사용자의 이력서에서 추출 하 고 질문은 그래서, 영업 사원으로 모든 회사를 호출할 수는 약 3 백만 있다: 어떤 회사를 싸 워 야 한다? 그것은 전화 유용할?
세일즈 맨 사이먼, 데이터 분석을 통해 누가 물었다. 이 질문에 대답은 그 큰 데이터 부서 전에 이러한 결정은 촬영 머리에.
사이먼 고 당시만 하 게 다른 3 명의 동료 모델을 쓴 사실을 발견 실제로 링크 드 인 서비스를 구입 하는 사람, 사실, 제품 관리자, 그리고 링크 드 인에 사냥 했다 하는 사람들의 첫 번째 줄. 하지만 그들은 결정을, 후 보스 서명, 퍼즐입니다. 데이터 분석, 판매 전략,이 중간 관리자에 대상 그룹을 변경 하는 직원의 결과 후 판매 전환율 세 번 배 증가 했다.
그 당시 드만 500 이었고 사이먼 지원 200 영업 사원 한 사람. 그는 예측 Google 사냥에 10 백만 달러를 보낼 것 이라고 점원 말했다, 사이먼,이 불가능.
"하지만 그건 데이터 보여줍니다, 하지만 그것은 더 많거나 적은 아마." 나는이 단계를 처리 해야 깨달았다. "
오늘, LinkedIn의 "헤드 헌 팅" 비즈니스 총 수익의 60% 차지 한다. 어떻게 그것은 4 년 동안에서 개발, 그가 제시 하는 모델을 구축 하기 위해 여러 단계 했다:
그것은 각 회사에 얼마나 많은 직원을 분석 합니다.
얼마나 많은 사람들이 그것은 채용 회사 분석.
사람들의 위치 함수 위치 수준에 모든 매개 변수를 분석, 이들은 우리의 모델의 기능. 그렇다면 그들은 얼마나 많은 시간 직원, 얼마나 많은 헤드를 담당 하 고, 그들은 그들의 헤드를 잃 었 얼마나 많은 그리고 얼마나 오래 그들이 LinkedIn에 매일 지출 분석.
그건 우선 LinkedIn의 큰 데이터 단위는.
사이먼 36 크립 톤, 회사 내부에서이 기본 항목의 대용량 데이터 분석의, 새로운 제품 라인 링크 드 인의 3 비즈니스 모델은 재능 솔루션, 마케팅 솔루션 및 유료 구독, 하지만 또한 우리의 전통적인 3 개의 주요 수익 기둥 반복을 계속할 수 있습니다. 사실, 우리 다른, 즉, 4 비즈니스 모델, "판매 솔루션" 이라는, 온라인에서 7 월 말이 올해 되었습니다.
이 엔터프라이즈 수준의 사용자에 게 판매 됩니다. 다시 판매 예제 링크 드 인 큰 데이터 시스템은 좋은 모델, 내부 변경 키워드, 또는 하나의 매개 변수가 다른 제품 될 수 있습니다. "우리는 기업 사용자가 물건을 구매 하 고 싶은 가장 빠른 속도로 알려 하 고." "
4 비즈니스 모델이 현재 많은 수익에 기여 하지 않는, 하지만 그것은 단지 1%를 차지 했으나 어쨌든 무한 상상력, 그리고 회사는 제품의 높은 기대. "나는 얼마나 많은 그것은 성장 하 고, 말할 수 하지만 그것은 추세, 그리고 링크 드 인의 기업은 의심할 바 없이 큰 추세 이다." "사이먼 고 말했다.
구글: 폐쇄 루프 큰 데이터 생물권
세계에서 가장 큰 검색 엔진으로 구글과 큰 데이터 사이의 관계는 무엇입니까? Weibo에 메시지, 감사이 정말 흥미로운 주제입니다.
Google의 주요 데이터 베이스 제품 첫 대규모 상업 분산된 파일 시스템 GFS (Google 파일 시스템), 2003 년에, 발표 MapReduce와 큰 테이블의 주로 구성 했다. 후자는 현대 NOSQL 데이터베이스의 창시자로 간주 하는 동안 전 큰 데이터 병렬 컴퓨팅을 위한 소프트웨어 아키텍처입니다.
GFS는 대용량 데이터, 컴퓨팅의 가능성을 제공 합니다 및 다양 한 파일 시스템 및 오늘날 등장 하는 NOSQL 데이터베이스는 영향을 명백 하 게 Google의 이전 프로젝트.
맵 리듀스와 BigTable, 2004 년과 2006 년에 별도로 발표 Google의 3 주요 데이터 제품의 초석 마련. 이 세 제품의 출시는 세르게이 브린과 래리 페이지, 둘 다 스탠포드 대학에서 박사 학생의 창시자 그리고 과학 연구의 힘은 항상 업계에 관통 하는 멋진 일.
2011 년에, Google는 BigQuery 시작 쿼리 서비스와 고객에 게 대용량 데이터를 제공 하는 Google의 인프라를 기반으로 스토리지 서비스의 다소 비슷한 아마존의 AWS, 아직 크기 순서, 시장 점유율 측면에서 동안은 가격 시스템 보다 더 유리. Google이 서비스의 추세를 싸우고 인터넷 회사에 맞게 다양 한 제 3-파티 서비스 통합 BigQuery 비주얼 쿼리 도구를 보자. 대용량 데이터 저장 및 분석에 대 한 시장 선점 되었습니다.
BigQuery 등 GAE (Google 응용 프로그램 엔진), Google의 자신의 비즈니스 서버 프로그램 생성, 데이터 수집, 데이터 처리 및 분석에 대 한 폐쇄 루프를 만드는 큰 데이터 생물권을 구축 했다.
그럼 봐 Google의 제품 라인, 검색, 광고, 지도, 이미지, 음악, 비디오,이 지원 하기 위해 큰 데이터에 의존 하는 시장 점유율을 향상 시키기 위해 사용자 경험을 향상 시키기 위해 데이터 모델 최적화의 종류에 따라.
말하는 혼자 Google 지도, 모바일 지도에서 글로벌 시장 제품, 뿐만 아니라 유물 여행 미국 시장 점유율의 40% 이상 있다. 그것은 인터넷 범위와 3D 세계의 거의 모든 구석에 건물의 처리 완료 일찍 작년, 그리고이 데이터 처리는 가장 큰 수 있습니다 시각적 표시 하지만 데이터 농도의 수준으로 제한 됩니다. 실제 데이터 분석 및 마이닝에 반영 됩니다: 사용자에 게 권장 때 경로의 가장 사용자가 가장 최근에 사용한 사이트를 입력 것 두 일 것 이다.
Google은 또한 태그 지리 정보, 사진 콘텐츠 결합 Google +, panoramio 및 기타 Google 클라우드 플랫폼의 이미지 처리 및 이미지 인식 후에 사회 시스템 점수, Google은 사용자에 게 높은 품질의 이미지를 밀어 수 시각적 느낌 지도 볼 사용자를 최적화 합니다.
큰 데이터 구글, 구글 광고 (애드 센스) 미국에서 인터넷 서핑은 유비 쿼터 스와 같은 거 대 한 이익을 만들었다. 물론, 그것은 동시에 수입을가지고 소유자에 게 양날의 칼 이지만 사용자 개인 정보 보호의 문제를 균형 하는 방법을 다른 기술적인 어려움을 극복, 아마도 인터넷 지원 하려면 개선할 필요가 또한 큰 데이터 처리 필요.
"탑"에서 설명한 대로, 대부분 회사는 페이스 북과 같은 여러 주요 기업 제외 하 고, 데이터를 처리할 수 없습니다 있다. 마지막으로 연결 된 두 가지 예는 대기업의이 쪽 독립적인 큰 데이터 섹터 필요가 없습니다 말을 정상, 아웃소싱 협력 채택은 일반적인 현상 이기도:
Pinterest:
Pinterest는 아마존 EMR을 통해 자체 데이터 처리 플랫폼을 구축 하 려 하지만 결국 안정성과 데이터 볼륨의 급속 한 증가 제어 하는 무 능력 때문에 Qubole에서 제공 하는 서비스를 사용 하기로 결정. Qubole, 제 3 자 플랫폼에 Pinterest 매일, 70 백만 사용자에 의해 생성 된 데이터의 방대한 처리 능력과 ETL, 검색, 광고를 포함 하 여 완료 하는
임시 쿼리 등 데이터 처리 방법의 다른 종류. Pinterest 또한 기술 회사 이며, 충분 한 엔지니어 데이터 처리 팀을 설정 하는 좋은, 하지만 그들은 여전히 데이터 처리 서비스를 완료 하는 Qubole 같은 전문 팀을 선택 합니다.
나이키:
뿐만 아니라 실리콘밸리의 인터넷 회사, 그러나 많은 전통적인 회사는 점점 더 큰 데이터 관련 기술을 사용 하 여 시작. 전형적인 예는 나이키. 나이키는 협력 API 서비스 회사 Apigee 한 손으로, 그래서 회사의 내부 데이터 관리 시스템을 개선 하기 위해 Apigee API를 통해 2012을 통합, 다양 한 부서 들의 데이터를 더 원활 하 고 효율적인 회사의 내부 작동. 다른 한편으로, 그들은 또한 나이키 연료 밴드 개발 관련 Api 통해 모바일 제품. 2014 년, 그것은 열었다 나이키 +.
API를 열어 Fuellab 프로젝트 나이키의 전통적인 소매 사업, 새로운 기술 개발 및 대규모 데이터 값 연결 성공적으로 데이터, 나이키의 광대 한 컬렉션에서 데이터 분석 제품을 이용 하는 개발자의 많은 수를 수 있습니다.
(책임 편집기: Mengyishan)