큰 데이터의 급증, 거의 모든 분야에서 홍수 같은 정보는와 그것 사용자의 레코드를 검색 및 동작 데이터 기록의 수천의 얼굴 데이터 처리를 할 만족 까지입니다. 하지만 일부 분석, 운영 소프트웨어 하지만 논리 데이터 분석을 사용 하는 방법을 하지, 그것은 또한 간단한 데이터 처리.
대신 계획 전략의 핵심에 깊이 갈 수 있게 되 고.
물론, 기본적인 능력은 가장 중요 한 링크, 데이터 과학자, 되 고 싶어이 절차에 대 한 몇 가지 이해 해야:
R
모든 프로그램 언어를 나열 하 고 나머지를 잊을 수 있습니다 하지만 가장 잊을 수 없는 r. 1997 년부터 조용히 등장, 가장 큰 장점은 MATLAB 또는 SAS 대안 처럼 비싼 통계 소프트웨어에 대 한 무료입니다.
하지만 지난 몇 년 동안 그 값은 거꾸로, 사회 과학의 눈에 보물이 되 고. 뿐만 아니라, 멍 청 한 통계학자 익숙한 스트리트 상인, 생물학, 및 R. 꽤 익숙한 실리콘 밸리의 개발자는 구글, 페이 스 북, 뱅크 오브 아메리카 같은 다양 한 회사 및 Newyorktimes 모든 R, 사용 하 고 그것의 상업적인 유틸리티 개선 하기 위해 계속.
R의 장점은 그 시작으로 R을 통해 쉽게, 복잡 한 데이터 집합에서 데이터를 필터링 하 고 복잡 한 모델 함수에서 데이터를 조작, 질서 그래프 모두 프로그램 코드의 단지 몇 줄의 번호를 제시를 만들 수 있습니다, 그것은 예를 들어 Excel의 좋은 버전 처럼.
R 최고의 자산 활성 동적 시스템입니다, 지속적으로 새로운 소프트웨어 패키지를 추가 하 고 다양 한 기능을 건물 R 지역 사회와 함께. 2 백만 이상의 사람들이 현재 R을 사용 하는 것으로 추정 하 고 최근 조사, 데이터 과학 커뮤니티에서 가장 인기 있는 언어 지금까지 차지 하고있다 응답자의 61% (후에 파이썬의 39%)을 보여줍니다.
그것은 또한 월 스트리트의 관심을 끈다. 전통적으로, 증권 분석가 Excel에서 밤 하지만 지금은 금융 모델링에 R 사용 하 여 증가 하고있다, 시각화 도구에 특히 말했다 Niallo ' Conno, BofA의 부통령, 그 "r 했다 우리의 볼품 테이블 밖으로 서.
데이터 모델링, 그것 이동 성숙 전문 언어, R은 그 회사 대량 제품을 만들려고 할 때, 어떤 사람들은 그가 다른 언어에 의해가 강탈 한 사실에 제한 합니다.
"R는 모델링 보다 그림에 더 유용 합니다. Ceo, michaeldriscoll Metamarkets, 최고 데이터 분석의 말했다
"Google의 웹 페이지 순위 또는 페이 스 북 친구 추천 알고리즘, R을 보고 하지 않을 거 야 그리고 엔지니어 R에서 프로토 타입을 구축 하 고 Java 나 Python에서 모델 구문 작성."
R의 잘 알려진 예를 감안할 때, 2010 년 Paulbutler R 페이스 북의 세계 지도 구축, 사용 증명 얼마나 풍부 하 고 강력한 시각적 데이터 비록 그가 지금 전에 보다는 더 적은 r를 사용 하는 언어에는.
"R는, 되었다 하 고 느리고 부피가 큰 거 대 한 데이터 집합에서 실행 됩니다" 버틀러 했다.
그래서 무슨 그 사용 합니까 다음?
파이썬
R 신경 질 고 할만한 괴짜 하는 경우에, Python는 태평 소녀입니다.
파이썬 결합 R의 빠른, 핸들 복잡 한 데이터 마이닝 기능 뿐만 아니라 보다 실용적인 언어, 빠르게 주류, 그리고 파이썬 되기 쉽고 배우기 R, 보다 더 직관적 이며 그 생태계에서 엄청나게 빨리 최근 몇 년 동안 성장 했다 이며 R. 보다 더 통계적으로 분석
"지난 2 년 동안, Python R에서 극적인 변화 처럼 되었습니다 거 대 한 전진," 버틀러 했다.
데이터 처리의 컨텍스트에서 일반적으로 크기와 복잡성, 절충 하 고 파이썬 타협으로 나타납니다. Ipythonnotebook (메모장 소프트웨어) 및 NumPy 파이썬 중간 규모 데이터 처리에 대 한 좋은 도구는 일시적으로 낮은 작업에 액세스 하는 데 사용 됩니다; 파이썬 툴킷 및 통계 기능을 제공 하는 데이터 가족의 풍부한 있다.
뱅크 오브 아메리카의 새로운 제품 및 은행에서 인프라 구축으로 금융 데이터 처리 Python를 사용 하 여, "Python은 더 광범위 하 고 탄력 있는, 그래서 모두가 그것에 날아오는 것 이다." 했다 O ' Donnell.
그러나, 장점이 R의 단점에 대 한 보상 수 있습니다, 하지만 여전히 하지 가장 효율적인 언어 이며 가끔 큰 규모, 핵심 인프라 취급할 수 있다. 드 리스 콜은 그렇게 생각 한다.
줄리아
R, 파이썬, 자바, Matlab, SAS를 기반으로 하는 오늘날의 데이터 과학의 대부분 하지만 여전히, 있도록 차이 이며이 시간 새로운 사람 줄리아 본 지점이 고통.
줄리아는 여전히 업계에서 널리 사용 될 너무 비밀 하지만 데이터 해커 날치기 R 파이썬의 왕위의 가능성에 관해서 설명 하기 어려운. 이유는 줄리아, 엄청나게 빨리 더 높은 순서와 표현 언어, R, 보다 훨씬 더 빨리 그리고 쉽게 처리 하기 위해 대규모 데이터에 대 한 파이썬의 잠재력에 비해.
"줄리아 더 중요 한 될 것 이며 결국, R과 Python에서 할 수 있는 것 들 줄리아에서 할 수 있습니다." 버틀러는 그렇게 생각 한다.
지금, 줄리아의 개발은 뒤로 갈 것입니다 이유가입니다 너무 젊 다는 것. 줄리아의 데이터 커뮤니티 초기 단계에 아직도 고 전에 R 또는 Python과 경쟁할 수 있는 더 많은 툴킷 및 패키지를 필요 합니다.
드 리스 콜 젊은 주류와 약속 될 수 있다 때문에 그것은 말한다.
자바
자바와 자바 기반의 아키텍처 구축 몇몇 실리콘 밸리에 있는 가장 큰 기술 회사의 핵심으로 드리 스 콜은 말합니다, 그리고 당신은 찾을 당신이 본다면 지 저 귐, 링크 드 인이나 페이 스 북, 인프라, 엔지니어링 모든 데이터에 대 한 그 자바 아주 기본적인 언어가입니다.
자바는 안 좋은 R과 Python, 시각화 하지 통계적 모델링을 위한 최고의 도구 이지만 거 대 한 시스템을 구축 하 고 과거의 프로토 타입을 사용 해야 할 경우 자바는 일반적으로 가장 기본적인 선택 이다.
Hadoop과 하이브
데이터 처리의 많은 수의 요구를 충족 하기 위해 Java 기반 도구 그룹 일었다. 하 둡은 데이터 처리의 일괄 처리를 처리 하기 위한 자바 기반의 아키텍처를 개발 하는 열쇠 그리고 Hadoop 매우 정확 하지만 다른 처리 도구 보다 훨씬 느립니다 백엔드 데이터베이스 분석에 널리 사용. 그리고 좋은 경기, 하이브 하이브는 꽤 잘 동작 쿼리 아키텍처에 기반.
스칼라
다른 Java 기반 언어, 자바, 유사 스칼라는 대규모 기계 학습을 할 또는 더 높은 순서 알고리즘을 구축 하 고 성장 도구입니다. 좋은 프레 젠 테이 션 이며 신뢰할 수 있는 시스템을 구축 하는 기능이 있다.
"Java는 강철, 내장 및 스칼라를 사용 하면 하 마 하 고 강철 점토로 구워" 드리 스 콜이 말했다.
카프카 Andstorm
무엇 빠른, 실시간 분석을 필요로 할 때 어떻게 생각 하십니까? 카프카는 가장 친한 친구가 될 것입니다. 그것 되었습니다 5 년 동안, 때문에 스트리밍의 최근 큰물 점점 더 인기가 되고있다.
카프카는 LinkedIn에서 태어나 고 특히 빠른 쿼리 정보 시스템입니다. 카프카의 약점? 그것은 너무 빨리, 그래서 그것은 실수를 실시간으로 그리고 때로는 그리 워 것 들.
케이크 고 그것을 먹을 수 없습니다, "당신이 정확성과 속도 사이 선택을 해야" ", 드 리스 콜 말했다. 그래서 실리콘 밸리에 모든 큰 기술 기업 두 파이프라인을 사용 하는: 카프카와 폭풍, 실시간 데이터를 처리 한 다음 데이터 시스템의 배치를 처리 하는 Hadoop에는 소리 조금 복잡 하 고 느린, 하지만 거꾸로 그것은 매우, 매우 정확한.
폭풍, 스칼라에서 작성 된 다른 아키텍처 이며 트위터 빠른 이벤트 처리에 관심을 많이 있기 때문에 실리콘 밸리는 스트리밍 및 트위터에 의해 병합 되 고 있는 그것의 인기를 증가 점차적으로 놀라운 일이 아니다.
Matlab
경우에 매우 구체적인 틈새 시장 집중 연구 기계 학습를 포함 하 여 넓은 범위를 사용 하 여 신호 처리, 이미지 인식 등에서 높은 가격, Matlab, 지속을 말할 수 있습니다.
옥타브
옥타브와 Matlab는 무료입니다 매우 비슷합니다. 그러나, 그것은 거의 항상 학술 신호 원을 처리에 언급.
이동
이동은 Google에서 개발 하는 또 다른 신흥 신 인상, 편안 하 게는 C에서 온다 되 고 자바와 파이썬에 대 한 경쟁자 강력한 인프라를 구축 합니다.
그래서 많은 소프트웨어를 사용할 수 있습니다, 하지만 난 반드시 각 당신의 목표를 알고, 할 수 있어야 하 고 방향은 무엇, 그것을 사용 하 여 가장 적합 한 도구를 선택! 효율성을 개선 하 고 정확한 결과 얻을 수 있습니다.
(책임 편집기: Mengyishan)