2014 년 3 월 13 일, CSDN 온라인 교육의 첫 번째 단계에서는 "Sql에 hadoop 만들려고 인터넷 데이터를 사용 하 여 웨어하우스 및 비즈니스 인텔리전스 시스템" 성공적으로 체결, 트레이너는 회담, 미국 네트워크에서 훈련, Liang 현재 비즈니스 요구 사항 및 데이터 웨어하우징 및 비즈니스 인텔리전스 시스템에 인터넷 도메인, hadoop에 Sql 제품 원리, 사용 시나리오, 아키텍처, 장점 및 단점, 성능 최적화 솔루션을 공유 합니다.
CSDN 온라인 교육 다양 한 문제 및 솔루션, 당신은 몇 가지 새로운 기술, 아이디어, 솔루션을가지고 동시에 발생 하는 그들의 작품을 공유 하는 온라인 실시간 대화형 기술 훈련, 모든 산업 일선 기술 엔지니어 초청 기술 실무자의 광대 한 숫자에 대 한 설계 되었습니다!
CSDN 온라인 동영상 강의 문서 공유, 화이트 보드 공유, 화면 공유, 온라인 강사를 통해 교육 과정의 "클래식, 실용적인, 체계적, 앞, 전문" 특성을 교육 일선 엔지니어 파편 시간을 사용 하 여 실제 전투 능력을 향상 시킬 수 있도록 QA 및 다른 형태의 방법을 학습, 연습의 수준을 향상합니다 그리고 통신 및 상호 작용의 기술 마스터와 함께 달성.
이 훈련의 제한 시간이, 질문 및 답변 링크는 강사는 응답, csdn 특별히 훈련 QA 요약 수 있도록 더 나은 검토 및 기술 포인트를 배울 수 훈련의 요약 학생 빠른 파악 관련 기술 포인트, 적은 우회 있도록 준비 시간이 많은 문제가 있다. 여기에 몇 가지 QA, csdn에 더 많은 질문이 이벤트 토론 게시물 상호 작용 하: http://bbs.csdn.net/topics/390731622
Q: 임 팔 라에 표준 SQL은?
우리는 지금 하이브, 임 팔 라를 포함 하 고 그래서 우리가 사용 하는 Sql에 hadoop 제품 사용 하지 않는 매우 표준 SQL, 분산된 컴퓨팅 환경에서 표준화 된 SQL의 구현에 우리는 모두 알고, 우리는 새로운 분산된 검색 엔진 필요. 우리 Greenplum이 알고, 표준 SQL 지원에 대 한 그룹은 아주 좋은, 표준 SQL에 대 한 임 팔 라 같은 지원이 매우 좋지 않다. 사실, 임 팔 라를 사용 하 여 조직 주로 인터넷, 인터넷 회사를 많이 있기 때문에 IT 직원, 그들은 그들의 자신의 사업 개발의 일부를 임 팔 라에 따라 것입니다, 그리고 할 수 있는이 시간에 사용 하지 표준 SQL, 그들은 성능에 초점 때문에.
임 팔 라 현재 대부분 ANSI sql-92 표준을 지원, 일시적으로 하위 쿼리를 지원 하지 않는, 존재 하 고 작업을 설정 합니다. 그러나 이것은 이미 임 팔 라의 로드맵, 임 팔 라 2.0을 지 원하는 것으로 예상 된다. 요구 사항 처럼 가입 SQL을 변경 하 여 하위 쿼리를 구현할 수 있습니다 다시 작성 합니다.
Q:의 경우 하이브를 동시에 임 팔 라, 임 팔 라 실시간으로 하이브 metasotre 업데이트를 얻을 수 없습니다 것으로 보인다. 우리는 임 팔 라-서버를 다시 시작 해야 합니다.
이 문제는 최신 임 팔 라 1.2.3 버전에서에서 수정 되었습니다. 잘못 된 메타 데이터 메타 데이터를 업데이트 하는 명시적 명령을 같은, 새로운 버전은 각 노드에 메타 데이터 업데이트를 밀어 더 이상의 CATALOGD 서비스 또는 이전 새로 고침 필요 합니다.
Q: 질문, 일부 차원 테이블을 사용 하 여 이러한 로그의 해석 HDFs에 저장 된 로그의 많은 지금에 저장 된 MySQL, 쓰기 지도 이러한 로그를 구문 분석 하는 프로그램을 어떻게 감소 해야 요청.
이것은 Hadoop 사용 시나리오에 일반적인 SQL 그리고 또한 PPT에 솔루션을 언급. 일반적으로, 다음 HDFs에 다양 한 쿼리 작업에 대 한 로그를 HDFs에 테이블 안에 MySQL Sqoop 작업 통해. MapReduce 또는 하이브, 사용할 수 있습니다 그리고 당신은 하이브를 사용 하 여 MySQL에서 가져온 데이터 구조 때문에 추천할 수 있습니다.
Q: 현실 세계에서 평균 회사 기록 데이터의 큰 금액에 대 한 HDFs에 남아 있을 것 이다 또는 보관 방법 다른 하단 비용 선택 합니다.
내가 아는 많은 기록 데이터는 여전히 HDFs, 저장 되며 일부 기업 테이프 스토리지를 사용 하 여 백업으로. HDFs는 EMC 또는 NetApp의 백업 스토리지 제품에 비해 상대적으로 싸다. 때문에 HDFS 우리는 일반적으로 3 개의 복제본에 데이터를 저장, 백업 스토리지에 대 한 자원의 낭비입니다. 간주 될 수 있는 조치는 HDFS 보관 또는 삭제 코드에 대 한 유사한 접근을 사용 하 여 스토리지 자원을 절약 하. 페이스 북과 Taobao 삭제 코드의 아이디어를 사용 하 여 많은 양의 자주 사용된 기록 데이터를 저장.
Q: 어떤 회사는 현재 중국에서 임 팔 라를 사용 하 여? 현장 사용 무엇입니까?
현재, 국내 알리바바와 바이 임 팔 라를 사용 하는 것이 이해가. 장면의 특정 사용 나 협력과 알리의 양 Zhuo 루 오 동급 생 "임 팔 라 실시간 대용량 데이터 쿼리 시스템 연습에 따라" 문서를 참조할 수 있습니다, 그리고 자세한 소개.
Q: 당신은 데이터 과학자의 이해에 대 한 이야기? 어떤 종류의 사람 데이터 과학자를 불릴 수 있다? 그것은 데이터 엔지니어와 사람들이 누가 할 데이터 마이닝/기계 학습에서 다른?
<< 건물 데이터 과학 팀 >> 매우 짧은 책이 나올 때까지 봐 하는 것이 좋습니다. 데이터 과학자의 나의 이해 방법 및 비즈니스 문제를 해결 하기 위해 아이디어를 사용 하는 것입니다, 그리고 수학 및 통계 방법 및 컴퓨터 프로그래밍을 달성 될 것입니다. 데이터 마이닝 및 기계 학습은 기본적으로 몇 가지 기본 기술 데이터 과학자는 마스터 해야 합니다.
Q:flume 수집 방법의 파일을 생성 하려면 1 일 등 시간이 지남에 점점 더 많은 로그 파일 기록
수조는 HDFs에 로그를 수집 하 고 지정 논리에 따라 ETL 작업을 수행. 수조의 에이전트에 저장 임시 저장소 이므로 생성 되는 파일의 수는 문제가.
Q: 인터넷 회사에서 주요 특정 응용 프로그램 시나리오는 무엇입니까? 예를 들어 수집 Nginx 로그 특정 응용 프로그램을 할 수 있는?
예를 들어, 사용자가 찾아보기 그 페이지, 상품, 어떤 채널 유지 오래 고 사용자 행동 분석. 로그는 모든 사용자 분석의 기초입니다.
Q: 5 월 내부 HBase 하 고 OLAP, OLTP, 또는 MySQL 분산 네트워크 물어?
인테리어 HBase는 미국 연대 온라인 저장, 이것은 사용 하 여 현장 및 일반 인터넷 회사는 동일. 현재는 HBase를 사용 하 여 OLAP 회사를 할 수 하는 것은 특히 많은 하 고 효과 아는 아니다 특별 한 번호. 현재 OLTP 도메인 오라클과 MySQL의 세계 이기도합니다.
질문: 다른 응용 프로그램에 대 한 전통적인 datawarehouse, 다른 레이어를 사용 하 여 olap, 광업, 급속 한 쿼리의 구현 등 Hadoop이 실시간 쿼리를 지원할 수에 대 한 개발?
다른 응용 프로그램, 다른 칼라 레이어이 Hadoop 생태계에도 아무 문제, 이것이 데이터 웨어하우스 아키텍처 및 데이터 웨어하우스 논리 디자인 문제 이기 때문에, 대 한 더 많은 플랫폼을 밀접 하 게 결합 하지와 함께 회사의 비즈니스 논리를 고려해 야 합니다. Hadoop 실시간 쿼리 도구 Tez/임 팔 라/상어의 많은 있다.
Q:real-장면, 상어와 임 팔 라 대비 시간? 더 많은 상어 처럼?
난이 결론을 모른다. 지금 회사 재판의 초기 단계에, 임 팔 라와 상어는 각각 자신의 장점과 단점 있다.
Q:impala 및 알리 Mdrill의 찬 부 양론 무엇입니까?
알리의 Mdrill을 사용 하지 않은, 그냥 몇 가지 정보를 읽고 난 개인적인 관점에 대 한 이야기. 임 팔 라 위치는 대화형 쿼리 이다입니다. Mdrill는 "높은 차원 + 실시간" 쿼리, Mdrill 쿼리는 기본 데이터 그래서 할 것입니다 많은 전처리 작업, 데이터의 동적으로 임 팔 라로 좋지 않다. 크기 Mdrill를 쿼리 하는 매우, 매우 높다입니다.
Q: 데이터 창 고, 위로 하 고 드릴링, 임 팔 라, 아래로 요구에 맞게 테이블을 디자인 하는 방법? 그것은 모든 가능한 차원 조합에 대 한 팩트 테이블? 또는 테이블 저장소, 쿼리에서 집계 결과 요구 사항 경우의 작은 세분성은 현재 계산?
이 논리 개발, 플랫폼 관계의 어떤 종류는 특히 가까운의 사용으로 귀하의 비즈니스 논리와 액세스 패턴에 따라 데이터 웨어하우스 디자인의 문제 이기도 합니다. 모든 가능한 차원 조합 분명 팩트 테이블에 적합 하지 않습니다 또는 우리가 항상 균형에 대 한 이야기
Q: 때 MapReduce를 사용 하 여 데이터 정리를 할 수, 어떻게 합니까 차원 테이블 데이터 로드 또는 저장? 그것은 메모리, 메모리, 공유 하는 경우 또는 캐시를 생성 하는 모든 컴퓨터를 원한다 면 메모리에는
이것은 아주 좋은 질문입니다. HDFS 2.3 지원 되는 새로운 기능 상위 응용 프로그램 일부 데이터에 넣어 컴퓨터의 메모리를 명시적으로 지정 하 고이 기능은 특히 하이브/hbase/임 팔 라 같은 응용 프로그램에 적합. 그러나, 현재 하이브/hbase/임 팔 라를 지원 하지 않습니다이 기능은 MapReduce 프로그램 차원 테이블을 메모리에 로드를 명시적으로 지정할 수 있습니다 작성 하는 경우.
Q: 지금 우리의 제품의 처음부터, 항상 비정상적인 수, 가동, 어떤 플랫폼은 가장 안정적인 요구 사항 안정성에? Hortonworks? CDH? 또는 다른 플랫폼?
특히 안정, 하지만 내 경험 CDH에서에서 상대적으로 좋은, 그리고 CDH 지원 기능에 게 진실을 말할 더 완벽 한, 버그에 대 한 응답이 빨리 될 것입니다.
Q: 나는 작은 연구소에서 우리는 다양 한 서버, 소형 컴퓨터, IBM, HP, 레 노 버, 델 있다, 이런 경우이 소프트웨어 및 하드웨어 아키텍처, 어떻게 가능 하 고, 기술 수준, 인간의 기술 입력을 포함 하 여 다른 하드웨어 입력, 등 후 위의 완료 다양 한 웹을 더 나은 수 통합 사이트? 이 소프트웨어 아키텍처는 웹 사이트 및 시스템의 많은 크기의 통합에 적합
이 문제는 많은 전통적인 회사 Hadoop 같은 새로운 플랫폼으로 마이그레이션할 때 발생 하는 문제. 단순히 기존 장비를 통합 하면 다음 이어야 한다 작은 문제. 더 큰 문제는 하지만, 플랫폼 Hadoop 처럼 당신의 문제를 해결할 수 있는지 여부입니다. 하 둡은 대용량 데이터 저장 및 분석 플랫폼, 아니라 사이트 무대...
질문: 집주인의 데이터 금고 데이터베이스 모델링 방법을 들었다. 작년에, 우리가 공부 하 고 RDBMS에이 모델링 아이디어를 사용 하려고 했습니다. 우리의 이해는 모델링 방법을 DV 데이터 웨어하우스, 데이터 로딩 시간 (부하 날짜) 또는 데이터 유효 시간 (시작 시간), 필요할 때에 보관 되 고에서 역사에 발생 한 모든 정보를 지킬 것 이다 데이터 노화 시간 (Endtime) 시간에 서로 다른 지점에서 동일한 사업을 구분합니다.
이론에서는, 모델링 방법을 DV 씨/임 팔 라가 분산 아키텍처를 어떻게 효율적으로 매우 적합 하 고는 데이터 로드, 데이터 표준화, 데이터 수명 계산 (데이터 효과/노화 시간) Hadoop에 귀찮게 되었습니다 우리. 때마다 많은 양의 데이터를 업데이트 하는 경우 우리는 전체 볼륨 데이터 작업을 받아들일 수 있습니다. 그러나 적은 양의 데이터를 업데이트 하는 경우에 위의 메서드는 비싼 느낌이 있다. 집주인은이 경험의 일부를 공유할 수?
그것은 좋은 질문, 하지만 그것은 또한 특정 비즈니스 문제에 대 한. 총 업데이트와 증분 업데이트의 문제, 귀하의 데이터는 전체 업데이트 간단 하 고 효율적 이며 증분 업데이트를 분해 해야 하는 때 데이터를 매우 큰, 매우 큰 때 부하 날짜/시작 시간/종료 시간에 우리의 아이디어를 해결 하는 일반적인 방법은 증분 업데이트를 분해 하는 방법의 구체적인 비즈니스 모델은 무엇에 따라 달라 집니다.
Q:는 복잡 한 sql에 hadoop 환경? 얼마나 많은 서버는 필요 이상? Sql에 hadoop 환경 설정 하는 간단한 방법이입니다? 주로 나 리눅스, 매우 친숙 한
간단한 아이디어 Cloudera 회사의 정보를 참조할 수 있는 hadoop 시스템의 빠른 빌드 완료 Cloudera 제공한 CDH 및 Cloudera 관리자를 사용 하는 것입니다.
놓친 인터넷 파도가 그리 워 전기 사업 경쟁의 시대 유감, 때문에 아니다 우리가 클라우드 따라잡기 컴퓨팅 및 대형 데이터의 상승. 거 대 한 클라우드 컴퓨팅 및 대형 데이터 기술 인재 격차에 직면, 인터넷 기업 및 전통 산업 기업 경쟁 자원에 대 한 모든 비용에: 공유 인센티브, 이중 지불, 상단 연말 보너스의 60 개월, 과거에 개최 되었습니다. 제한 된 보상 이외에 그것의 수도 서 기술력으로 무제한 기업 붐이 있다. 기술 엘리트는 희귀 변환 및 부가 가치 기회에 도입! CSDN 온라인 교육에 세심 한 관심을 지불!