큰 데이터의 급증, 거의 모든 분야에서 홍수 같은 정보는와 그것 사용자의 레코드를 검색 및 동작 데이터 기록의 수천의 얼굴 데이터 처리를 할 만족 까지입니다. 하지만 일부 분석, 운영 소프트웨어 하지만 논리 데이터 분석을 사용 하는 방법을 하지, 그것은 또한 간단한 데이터 처리.
대신 계획 전략의 핵심에 깊이 갈 수 있게 되 고.
물론, 기본적인 능력은 가장 중요 한 링크, 데이터 과학자, 되 고 싶어이 절차에 대 한 몇 가지 이해 해야:
R
모든 프로그램 언어를 나열 하 고 나머지를 잊을 수 있습니다 하지만 가장 잊을 수 없는 r. 1997 년부터 조용히 등장, 가장 큰 장점은 MATLAB 또는 SAS 대안 처럼 비싼 통계 소프트웨어에 대 한 무료입니다.
하지만 지난 몇 년 동안 그것은 것으로 밝혀졌다 과학계의 눈에서 보물. 뿐만 아니라, 멍 청 한 통계학자 익숙한 스트리트 상인, 생물학, 및 R. 꽤 익숙한 실리콘 밸리의 개발자는 구글, 페이 스 북, 뱅크 오브 아메리카 같은 다양 한 회사 및 Newyorktimes 모든 R, 사용 하 고 그것의 상업적인 유틸리티 개선 하기 위해 계속. 장점은
의 R은 R로 시작을 통해 쉽게, 복잡 한 데이터 집합에서 데이터를 필터링 하 고 복잡 한 모델 함수에서 데이터를 조작, 숫자, 예를 들어 프로그램 코드의 단지 몇 줄 모든 현재 질서 그래프를 만들 수 있습니다 그것은 Excel의 좋은 이동 버전 처럼입니다.
R 최고의 자산 상태인 동적 시스템, R 커뮤니티 지속적으로 새로운 소프트웨어 패키지를 추가 하 고 내장 된 풍부한 기능 세트를 제공. 2 백만 이상의 사람들이 현재 R을 사용 하는 것으로 추정 하 고 최근 조사, 데이터 과학 커뮤니티에서 가장 인기 있는 언어 지금까지 차지 하고있다 응답자의 61% (후에 파이썬의 39%)을 보여줍니다.
또한 스트리트의 관심을 끈다. 전통적으로, 증권 분석가 Excel에서 밤 하지만 지금은 금융 모델링에 R 사용 하 여 증가 하고있다, 시각화 도구에 특히 말했다 Niallo ' Conno, BofA의 부통령, 그 "r 했다 우리의 볼품 테이블 밖으로 서.
데이터 모델링, 비록 그것은 성숙 전문 언어 쪽으로 이동 R은 그 회사 대량 제품을 만들려고 할 때, 어떤 사람들은 그가 다른 언어에 의해가 강탈 한 사실에 제한.
R 모델링 보다 그림에 더 유용 하다. Ceo, michaeldriscoll Metamarkets, 최고 데이터 분석의 말한다 그
"당신은 표시 되지 않습니다 R 때 Google의 웹 페이지는 핵심 평가 또는 페이 스 북 친구 추천 알고리즘. 엔지니어 R에서 프로토 타입을 작성 하 고 Java 나 Python에서 모델 구문을 씁니다.
주고 r 잘, 그리고 2010 년에 Paulbutler를 사용 하는 예를 페이스 북의 세계 지도 구축 R 사용.그는 지금 이전 보다 덜 r를 사용 하지만 증명 얼마나 풍부 하 고 강력한 시각적 데이터가이 언어에는.
"R 쓸모가 있다, 그리고 천천히 실행 그리고 거 대 한 데이터 집합에서 다루기" 버틀러 했다.
그래서 무엇 않습니다 그 사용 하 여 다음?
파이썬
경우 R은 신경 질과 호감 괴짜, 파이썬 태평 소녀.
파이썬 결합 R의 빠르고, 복잡 한 데이터 마이닝 기능을 더 실용적인 언어 신속 하 게, 주류가 될 파이썬 쉽고 배우기 R, 보다 더 직관적인 그리고 그것의 생태계는 최근 몇 년 동안, 엄청나게 빠른 성장 했습니다. 그것은 r 보다 더 강력한 통계 분석입니다.
버틀러는 말했다, "지난 2 년 동안, Python R에서 극적인 변화 처럼 되었습니다 앞으로 추진 하는 거 대 한."
데이터 처리의 컨텍스트에서 일반적으로 크기와 복잡성, 절충 하 고 타협으로 파이썬 나타납니다. Ipythonnotebook (메모장 소프트웨어) 및 NumPy 파이썬 중간 규모 데이터 처리;에 대 한 좋은 도구는 일시적으로 낮은 부담 작업에 액세스 하는 데 사용 됩니다. 파이썬 툴킷 및 통계 기능을 제공 하는 데이터 가족의 풍부한이 있다.
뱅크 오브 아메리카를 사용 하 여 파이썬 새로운 제품 및 인프라 인터페이스 은행에서 또한 금융 데이터 처리로, "Python은 더 광범위 하 고 탄력 있는, 그래서 모두가 그것에 무리 것 이다." 했다 O ' Donnell. 그러나
, 장점은 R의 단점에 대 한 보상 수 있습니다, 하지만 하지 여전히 가장 효율적인 언어 이며 때때로 대규모, 핵심 인프라를 처리할 수 있습니다. 드 리스 콜은 그렇게 생각 한다.
줄리아 R, 파이썬, 자바, Matlab, 및 SAS를 기반으로 하는 오늘날의 데이터 과학의 대부분 하지만 여전히, 만들 간격 그리고이 시간, 새로운 사람 줄리아 통증 포인트를 보았다.
줄리아 여전히 업계에서 널리 사용 될 너무 비밀 이지만 데이터 해커는 R과 파이썬의 왕좌를 강탈 하는 잠재력에 관해서 설명 하기 어려운. 이유는 줄리아, 엄청나게 빨리 더 높은 순서와 표현 언어, R, 보다 훨씬 더 빨리 그리고 쉽게 처리 하기 위해 대규모 데이터에 대 한 파이썬의 잠재력에 비해.
줄리아 더 중요 한 되 고 결국, R과 Python에서 할 수 있는 것 들 줄리아에서 할 수 있습니다. 버틀러는 그렇게 생각 한다.
지금, 그것은 아마 너무 젊은 줄리아 거꾸로는 말을. 줄리아의 데이터 커뮤니티 초기 단계에 아직도 고 전에 R 또는 Python과 경쟁할 수 있는 더 많은 툴킷 및 패키지를 필요 합니다.
드리 스 콜 젊은 주류와 약속 될 수 있다 때문에 그것은 말한다.
자바
드리 스 콜 말한다 자바와 자바 기반의 아키텍처 실리콘 밸리에서 가장 큰 기술 회사의 핵심으로 구축 하 고 트위터, 링크 드 인, 또는 페이스 북에 보면, 당신은 그를 찾을 거 야 모든 데이터 인프라, 엔지니어링에 대 한 자바 아주 기본적인 언어가입니다.
자바는 하지 좋은 R과 Python, 시각화 하지 통계적 모델링을 위한 최고의 도구 이지만 거 대 한 시스템을 구축 하 고 과거의 프로토 타입을 사용 해야 할 경우 자바는 일반적으로 가장 기본적인 선택 이다.
Hadoop 하이브
A 자바-기반 도구 집합 데이터 처리의 많은 수에 맞추에 나옵니다. 하 둡은 데이터 처리의 일괄 처리를 처리 하기 위한 자바 기반의 아키텍처를 개발 하는 열쇠 그리고 Hadoop 매우 정확 하지만 다른 처리 도구 보다 훨씬 느립니다 백엔드 데이터베이스 분석에 널리 사용. 그리고 좋은 경기, 하이브 하이브는 꽤 잘 동작 쿼리 아키텍처에 기반.
스칼라는 다른 Java 같은 언어와 자바 매우 유사 하나 이며 스칼라 대규모 기계 학습을 할 또는 더 높은 순서 알고리즘을 구축 하 고 상승 도구가 될 것입니다. 좋은 프레 젠 테이 션 이며 신뢰할 수 있는 시스템을 구축 하는 기능이 있다.
자바 같아 지어진 강철; 스칼라 하 마 하 고 강철 점토로 구워 수 있습니다 하나, "드리 스 콜 이다.
어떻게 Kafkaandstorm 빠른, 실시간 분석을 필요로 할 때 생각 하십니까? 카프카는 가장 친한 친구가 될 것입니다. 그것 되었습니다 5 년 동안, 때문에 스트리밍의 최근 큰물 점점 더 인기가 되고있다.
카프카 LinkedIn 내에서 태어나 고 특히 빠른 쿼리 정보 시스템입니다. 카프카의 약점? 그것은 너무 빨리, 그래서 그것은 실수를 실시간으로 그리고 때로는 그리 워 것 들.
케이크 고 그것을 먹을 수 없습니다, "당신이 해야 정확성과 속도, 사이 선택을" ", 드 리스 콜 말했다. 그래서 실리콘 밸리에 모든 큰 기술 기업 두 파이프라인을 사용 하는: 카프카와 폭풍, 실시간 데이터를 처리 한 다음 데이터 시스템의 배치를 처리 하는 Hadoop에는 소리 조금 복잡 하 고 느린, 하지만 거꾸로 그것은 매우, 매우 정확한.
폭풍 스칼라에서 작성 하는 또 다른 아키텍처 이며 트위터 빠른 이벤트 처리에 큰 관심을가지고 실리콘 밸리의 점차적으로 스트리밍 및 트위터에 의해 병합 되 고 있는 그것의 인기 증가 놀라운 일이 아니다.
Matlab
Matlab 라고 할 수 있다 지속 될 경우에 매우 높은 가격이 책정 됩니다; 매우 구체적인 틈새 시장에서 그것은 매우 광범위 하 게 사용, 기계 학습, 신호 처리, 이미지 식별에 집중적인 연구를 포함 하 여.
옥타브 옥타브는 Matlab, 처럼 그것은 무료입니다. 그러나, 그것은 거의 항상 학술 신호 원을 처리에 언급.
이동은 Google에서 개발 하는 또 다른 신흥 신 인상, 편안한 그것 C에서 유래 하 고 되 고 자바와 파이썬에 대 한 경쟁 강한 인프라를 구축 했다.
많은 소프트웨어를 사용할 수 있습니다, 하지만 난 생각 하지 않아 모든 하나 있어야 할 귀하의 목표를 알고 그리고 방향은 무엇, 그것을 사용 하 여 가장 적합 한 도구 선택! 효율성을 개선 하 고 정확한 결과 얻을 수 있습니다.