구매자와 판매자의 1.8 백만, ebay에 활성화 되며 사이트 생성 데이터의 많은 매일. 시간에 어떤 주어진된 시점에서 약 3.5 백만 항목 하루 2.5 백만 이상 쿼리는 ebay의 경매 검색 엔진을 통해 판매를 위한 나열 된 있을 것입니다. ebay의 Hadoop 클러스터와 Teradata 장치 일반적으로 원시 데이터, 10PB 개최 휴 윌리엄스,이 베이 검색 플랫폼의 부사장 말했다. 온라인 경매 사이트가 베이 사이트 성능 측정 및 사기 탐지 등 대용량 데이터의 많은 기능을 사용 합니다. 그러나 많은 양의 데이터를 수집 하기 위해 더 재미 있는 사용 중 사용자 사용자가 사이트에서 더 많은 상품을 구입 하는.
이 베이 사용자가 발생 하는 모든 제품을 구입 하도록 강제 수 없습니다,이 베이 홍보를 큰 데이터의 위대한 사용 하 게 합니다. 한 방법은 데이터 수집 결과 조정 하려면 사용자의 행동 패턴 분석을 통해 검색 엔진 및 검색 결과 최적화 하는 것 이다.
"몇 년 하 고 검색 엔진을 사용 하 여 ebay에가 서, 당신은 찾을 수 있습니다 그것은 너무 '리터럴'," 윌리엄스는 말했다. "것 들을 당신이 수 있는 말 그대로 정보에 게 사용자를 찾을 것입니다 검색 엔진 필요, 하지만 그것은 정말 사용자의 의도 이해 하지 않습니다. "
"우리 보다 직관적인 우리의 검색 엔진을 만들기 위해 노력 했습니다. "예, 큰 데이터를 사용 하 여이 베이 발견 그 사용자는 pilzlampe를 구입 하 고 싶다면,이 때 소장 독일 버섯 램프, 그들은 입력" 필츠 램프 "ebay에서 검색 엔진은 더 높습니다,이 입력 더 많은 결과가 있을 것 이다 때문에.
검색에서 엔진, 단어의 중간을 스페이스 바를 추가 하기만 하면 하 고 ebay 사이트를 통해 영업 기회를 향상 시킬 수 있습니다. 이 정보를 베이 변경 하 고 동의어와 더 관련성이 높은 결과가지고 대체 용어를 추가 하는 검색 엔진을 통해 사용자 검색 쿼리를 다시 작성 했다.
뿐만 아니라,이 베이 큰 데이터를 사용 하 여부 나열 된 제품 판매 될 예정 이다에 대 한 예측을 만드는 어떤 가격에 판매 될 예정 이다, 얼마나 많은 경매 사이트의 검색 엔진에 영향을 미칠 것입니다.
이 모든 사용자가 구매의 가능성을 높일 수 있습니다.
Wlilliams 모델 검색을 구현 요소 쿼리는 위험입니다. "걸리는 요소를 구현 하는 몇 개월 그리고 그것은 정말 된다면 고객에 대 한 고객은 프로젝트를 찾을 수 있도록 올 때 우리는 모르기 때문에 매우 높은 위험이 있다" 고 말했다. 그 이유는이 베이 일반적으로 사이트에서 몇 가지 테스트를 실행 하 고 사용자의 응답을 측정 하기 위해 표본 그룹을 가져옵니다.
또 다른 도전 계정에 검색 쿼리 환경 걸릴 것입니다. 예를 들어 "geelongcats"에 대 한 사용자 보인다면,이 베이 검색 엔진 키워드로 "고양이"를 간단 하 게 사용할 수 있습니다와 검색 카테고리는 애완 동물에는 스포츠 용품에 대 한 사용자를 검색할 때 많이 사용 하지입니다.
"저기 우리의 컨트롤 내에서 매우 미묘한 문제에 대 한 잠재적인 그래서 우리는 이러한 문제를 연구 하는 과학자에 대 한 데이터" 윌리엄스는 말했다. "