큰 데이터 토론: 170 십억 트위터 릴리스 정보를 구성 하는 방법?

출처: 인터넷
작성자: 사용자
키워드: 도서관 도서관 출판 도서관 출판 이미 도서관 출판 이미 대용량 데이터 도서관 출판 이미 대용량 데이터 의회

마찬가지로 소셜 네트워킹 급속히, 의회 도서관 트위터, 133 TB에 도달, 처리 했다, 다행히, 그들은 이러한 데이터를 관리 하는 방법을 발견 했다.

지금의 의회 도서관 유지 했다 트위터 정보 수 170 십억에 도달 했습니다, 그리고 각 조각의 정보를 공유 하 고 소셜 네트워크, 라이브러리의 기술 팀에서에서 재현 때문에 133 tb--도달 저장소 파일의 볼륨 실용적인 검색 솔루션 사용자에 게 제공 하는 방법의 찾이 필요가.

현재 프로젝트 보고서 라이브러리 관리자 지적 밖으로 같은 대규모 데이터 관리 도구 사용할 수 시장에 그들의 실질적인 어려움을 해결 하지 수에 한. "그것은 분명 기존 기술 장학금 정보 등 큰 데이터 집합의 액세스 요구 사항을 충족만 수 있습니다 하지만 그것은 생성 및 데이터를 배포에 약한," 관이 말했다. "이러한 작업 및 리소스에 대 한 높은 수요의 복잡성 때문에 민간 하지 아직 왔다 합리적으로 비용 효율적인 비즈니스 솔루션을." "

만약 민간 큰 데이터 관리 작업을 처리 하기 위해 고군분투 하 고, 어떻게 수 문제 부딪히는 예산 묶여 비영리 기관, 세계에서 가장 큰 도서관을 포함 하 여? 그것은 170 십억 지 저 귐 메시지를 처리할 수 있는 실용적, 경제적, 편리한 인덱스 시스템을 꿈입니다.

트위터는 의회 도서관 소셜 미디어 웹 사이트에 게시 하는 모든 업데이트에 액세스할 수 있도록 계약을 체결 했다. 관리 인정 그들은으로 전통적인 통신 방법, 정기 간행물 및 출판물, 나타내는 네트워크 통신 동향의 성장 인기에 의해 점차적으로 대체 되었습니다 연구원 소셜 플랫폼 데이터에 액세스할 수 있도록 시스템을 구축 했다.

2006 년과 2010 년 트위터는 그냥 태 어 났을 때, 사이 첫 번째 데이터 덤프 파일 20 결핵, 21 십억 지 저 귐 메시지 (를 포함 하 여 사용자의 현재 위치와 메시지 설명과 같은 메타 데이터)를 포함 했다. 최근, 박물관은 그냥 되죠 두 번째 앞으로 스토리지 데이터-전반적으로,이 압축 부분 복제 파일 볼륨 133.2 TB의. 그 후, 도서관 시간에 모든 트위터 공지를 수집 하는 Gnip 회사 협력 한다. 2011 년 2 월에에서 발표 된 통계에 따르면 약 140 백만 메시지 했다 매일 트위터를 통해 고 지난해 10 월 약 500 백만에 증가 했다 그림.

연구원은 촉구 데이터 액세스 함수를 가능한 한 빨리 여 의회 도서관-박물관 말했다 그것은 400 개 이상의 요청을 받은. 프로젝트 라이브러리와 트위터로 동시에 구현 되는 트위터 사용의 역사를 가진 사용자를 제공 하는 것입니다 그리고 그들은 그들의 계정을 통해 게시 정보의 각 부분을 나열할 수 있습니다.

의회 도서관은 큰 데이터 관리에서 경험: 직원에 따르면 박물관에 노력 해 왔다 데이터는 총 데이터의 이상의 300 t B, 2000 년 이후 정부 웹사이트에 대 한 보관. 그러나, 트위터의 존재는 아카이브 작업에 넣어 교착 상태, 관 정보 쉽게 검색할 수 있도록 적절 한 방법을 찾을 수 없습니다. 라이브러리는 의존 긴 테이프 저장소 구성표를 사용 하 여 계속 하면, 그것은 2010 년 2006에서 하나의 트위터 메시지를 쿼리 하는 데 최대 24 시간이 소요 됩니다-그리고 이것은 1-8의 전체 데이터에 대 한 계정. "트위터 정보를 대조, 한 손으로 하기 때문에 데이터의 볼륨이 너무 큰 경우, 다른 한편으로 새로운 데이터는 매일 매일에 오고 있다 고 그 성장을 계속 상승 하기 때문에 어려운," 공식이 이다. "또한, 다양 한 지 저 귐 정보 더 많은 다양 한입니다. 일반 Twiiter 정보 자동 응답 정보, 링크 또는 사진의 정보를 포함 하 여 수동 응답 정보, 등,이 모두 우리가 보낸 소프트웨어 클라이언트를 사용 하 여 시작 하지. "

솔루션을 찾는 데도 고통 스러운. 의회 도서관의 분산 및 병렬 컴퓨팅 체계를 고려 하는 시작 했다 하지만이 두 시스템은 너무 비싸다. "정말 검색 시간에 상당한 감소를 달성 하기 위해, 우리는 거 대 한 인프라의 수백 또는 심지어 수천 대의 서버를 구축 하 필요." 이것은 너무 비용이 많이 드는 우리의 비즈니스와 같은 기관에 대 한 비현실적인입니다. "

그래서 정확히 박물관 어떻게 해야? 큰 데이터 전문가 기준 프로그램의 시리즈를 주었습니다. 마찬가지로 지금까지 의회 도서관에 관한 기술 팀 좋을 데이터 저장, 검색에 대 한 하나의 도구를 처리 하는 데 하나의 도구를 사용 하 여 정렬 하 고 쿼리에 응답 하는 다른 요청, 마크 필립스 지적 됩니다. 그는 또한 바쇼에서 지역 사회와 개발 상태 올리기 관리자의 설립자 이자 오픈 소스 데이터베이스 도구 (도구는 매우 키 값 저장소에 확장 가능한) Raik의 원조.

대용량 데이터 관리 도구는 사용자가 독점 소프트웨어를 선택할 수 있다 또는 오픈 소스 솔루션 다양 한 사용 요구 사항에 따라 및 비용 예상 번성 새로운 산업을 구축 했습니다. 의회 도서관의 기술 직원에 대 한 가장 큰 문제는 그들이 생성 및 전체 시스템의 관리를 시작 하는 방법 이다. 박물관 오픈 소스의 경로 하 고 싶다면, 선택적 데이터베이스 생성 및 관리 도구 것 높은 입력/출력 읽기 및 쓰기에 전념 하는 Greenplum 데이터베이스에 Hadoop 클러스터에서 꽃입니다. 그들은 또한와 통합 수 있는 아파치 솔 라-, 오픈-소스 검색 도구. 오픈 소스는 상용 하드웨어에 이상적인 시스템 아티팩트를 구축 하지만 오픈 소스도 소스 코드에 대 한 액세스를 밝은 경로 개발자 우리 인간과 물자 자원의 많은 백 엔드 개발 노력에 헌신 하는 수단을 제공 합니다. 물론, 의회 도서관에 걸릴 수 있습니다 또한 더 비싸지만 더 평온한 경로 독점 소프트웨어, 오라클 이나 SAP, 업계의 거 인에서 직접 데이터베이스 제품을 구입.

그러나 어느 쪽이 든,, 트위터 프로젝트에 거 대 한 데이터의 크기는 여전히 극복 어렵다. 하지만 필립스의 태도 우리에 게 몇 가지 신뢰를 제공 합니다. 그는 트위터의 현재 데이터 볼륨 133 TB에 도달 했습니다 여전히 빠르게 성장 하는 동안 바쇼는 페타 바이트의 데이터와 고객 연락 및 자체 플랫폼에 대 한 그것의 임무를 성공적으로 완료 지적 한다. 의회 도서관 수 추적 하 고 각 달 또는 분기별, 데이터베이스 용량의 성장 요약 및 데이터 저장을 위한 충분 한 하드웨어 리소스의 결과 함께, 바쇼 데이터베이스 소프트웨어 라이브러리의 문제를 해결할 수 있을 것입니다.

그래서 그것은 좋은 일 클라우드 솔루션을 사용 하지? 이론에서는, 의회 도서관 아마존 웹 서비스에 의해 표시 하는 공용 클라우드 리소스가이 데이터를 저장 하 고 지 저 귐 정보 총 금액 증가 함에 따라 AWS 자동으로 필요한 하드웨어 확장 작업을 처리. 그러나, 바쇼의 엔지니어, 세스 토마스의 보기에 이러한 계획의 장기 비용 성과 문이다. 데이터를 영구적으로 유지 하는 사서의 명백한 의도, 때문에 하이브리드 아키텍처 보다 비용 효과적인 수 있습니다. 아마도 더 나은 방법은 로컬로 데이터를 저장 하 고 다음 클라우드 서비스를 사용 하 여 분석 기능을 구현 하도록 것입니다. 따라서, 라이브러리 동적 리소스 검색 양에 따라 요청에 응답에 대 한 지불 해야 하 고 터미널 시스템만 요청 수량에 해당 하는 작업 처리 해야 합니다.

어떤 경우에, 의회 도서관 검색 시스템으로이 지 저 귐 메시지를 통합 하기로 했다. 일반 사용자로 서 우리는 최대한 빨리 지 저 귐 업데이트 정보는 기록 주의 해야 한다.

원본 링크: http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.