클라우드 음향 회담: 지능형 음성 모바일 인터넷을 위한 클라우드

출처: 인터넷
작성자: 사용자
키워드: 우리는 이 수를 통해

첫 번째 중국 클라우드 컴퓨팅 컨퍼런스 6 월 2013 5-7 일 베이징 국립 컨벤션 센터에서 열렸습니다. 회의 국제적인 관점, 통찰력에 글로벌 클라우드 컴퓨팅 동향, 그리고 응용 프로그램에서 찾아보기 클라우드 컴퓨팅 및 대형 데이터, 클라우드 컴퓨팅 및 모바일 인터넷, 클라우드 보안, 클라우드 컴퓨팅 산업 응용 프로그램, 항목의 초점. 특히, 회의 클라우드 컴퓨팅 서비스 표시 영역, 국제 클라우드 컴퓨팅, 쇼케이스 국내 클라우드 컴퓨팅 시범 도시 개발 성과의 최신 연구 결과 교환, 클라우드 컴퓨팅 개발 경험 공유, 글로벌 클라우드 컴퓨팅 혁신 협력을 촉진.

베이징 클라우드 설립자, CEO 리 앙

다음은 연설의 사본입니다.

리: 감사. 매우 기쁘게 구름에 당신과 함께 공유 하는 기회를가지고 컴퓨팅 컨퍼런스 클라우드 컴퓨팅, 즉, 방법은 음성 구름의 특정 응용 프로그램의 경우 사용 되 고 어떻게 우리의 클라우드 인식 플랫폼 개발자의 대다수와 공유 됩니다. 내 보고서는 모바일 인터넷 폭발 연구 음성 플랫폼, 음성 인식 기술 돌파, 구름 음향 오픈 음성 클라우드 플랫폼, 인터넷 응용 프로그램의 경우, 응용 프로그램 개발 가이드의 여러 측면의 배경으로 주로 분할 된다.

모바일 인터넷의 확산은 세 가지 주요 특징:

첫째, 대역폭 증가, 비용 절감. 나중 2 세대, 3 세대, 또는 심지어 4 G, 와이파이, 이전 아날로그 시대에서 이동 통신 기술의 급속 한 발전을 확대, 지속적인 감소의 비용 단말기와 클라우드 플랫폼 통신 품질은 매우 높은 비용 낮은 지 고 그렇게 우리의 광대역.

둘째, 지능형 모바일 터미널입니다. 10 년 전 인터넷을 서핑 하는 기계는 PC, 휴대 편리 하지 않습니다. 지금까지 스마트 디바이스의 많은 있다, 간단한 스마트 전화. 이제 몇 가지 텔레비전 장비, 자동차 장비, 장비, 언어 커뮤니케이션을 통해 뿐만 아니라 Google 안경 등 몇 가지 장난감을 착용.

셋째, 클라우드 컴퓨팅 플랫폼 및 가상화 기술 개발 생산성을 드라이브. 클라우드 컴퓨팅 플랫폼, 가상화 기술 등의 Cpu와 GPU, 개발 생산성 플랫폼을 확인 합니다.

이러한 세 가지 조건, 우리는 강력한 클라우드 컴퓨팅 플랫폼 관계를 구축, 매우 좋은 온라인 대화형 서비스와 이동 통신의 수단을 통해 아주 작은 모바일 단말기를 사용할 수 있습니다. 이것은 모바일 인터넷의 하드웨어 개발 동향 이다.

이러한 조건에서 우리는 또한 더 큰 발발에 되죠. 먼저 모바일 터미널, 2013 년 예측에 선적의 390 백만 달성할 수 있다. 또한 많은 수의 사용자, 끝 있다 2012의 모바일 인터넷 사용자가 이상의 400 백만. 모바일 음성 검색, 바이 지난해 10%에서 음성 검색의 검색, Google의 데이터에서는 25% 이상입니다. 모바일 제품은 더 많은 상호 작용, 고 건축가 연봉 보다는 지금 좋은 제품 매니저 채용.

이 사진은 2005 2012 년 이후 인터넷 사용자 및 보급률의 수입니다. 2005 년에 인터넷 사용자의 100 백만 이제 거의 600 백만, 거의 6 배 번을 성장 했다. 인터넷 보급률도 42.1%로 8.5%에서 증가 했다. 한 중요 한 비율이 이다 2012 07 50 백만 획기적인 400 백만, 과거에 모바일을 통해 단 1 사람 안에 4 명 전화 인터넷, 이제 4 명 3 명 휴대 전화를 통해 온라인에서 휴대 전화를 통해 인터넷.

세계의 주류 음성 인식 시스템은 다음 5 프레임 워크를 기반으로:

1. 기능 시퀀스 캡처한 소리 신호를 변환 하기 위해 기능 추출을 이라고 합니다. 환경 소음, 채널 문제를 해결 하는 데 필요한, 채널 여부 우리는 마이크를 통해 또는 전화 또는 음성 수집 하는 전화를 통해. 3 내가이 요소를 제거 하려면 특정 억양을가지고 같이 스피커 요소를 제거 하는.

2. 통계 음향 모델입니다. 우리는 충분 한 사람들이 발음 들에 대해 이야기 해야 합니다. 예를 들어 사람들이 보낼 때 "아"이이 말투, 다른 사람 음성은 동일, 그리고 분포 상태는 무엇. 깊이 신경망 학습에 가장 최근의 개선 하이브리드 고속 모델을 구축,이 필드에 사용 됩니다 하지만 모델링 기능 약한. 발음 병음 입력된 방법, 사실, 가장 큰 간섭 또는이 계층, 다른 사람들의 앞에 같은 단어를 정확한 이야기는 다른 악센트, 다른 배경 및 다른 채널 경우 윗주 문자열에 그것, 그것은과 같은 일반 병음 입력 방법.

3. 발음 사전입니다. 발음 사전, 단어를 지도 이며 사전은 매우 까다로운. 중국 어휘는 매우 큰, 약 70000 한자, 가장 일반적으로 사용 되는 20000 명 이상의 단어. 또한 있다 도메인 전용 사전, 수와 같은 음식과 매핑 단어의 분야에서 동일 하지 않습니다. 뜨거운 목록, 인터넷 영역은 매우 분명 하 고, 특정 한 시간에는 새로운 단어를 들어 본 적이 전에, 그것은 새로운 의미를 이제 나타납니다. 또한 사람의 주소록 같은 개인된 동의어 사전이입니다.

4. 통계적 언어 모델입니다. 다른 단어 문자열의 주파수는 동일 하지 않습니다, 그리고 그것은 단어 문자열의 확률 통계 분석. 더 큰 우리 검색의 큰 가능성을 할.

5. 인코더를 식별 합니다. 그것은 실제로 검색 엔진, 그리고 우리가 얻을 때 특별 한 순서, 우리는 신속 하 게 일치 하는 문장 찾을 수 있습니다.

음성 인식 인공 지능 처럼 보인다 그리고 그것은 매우 매혹적인 것 처럼 보입니다. 우리는 종종 인용 마술사, 마술사는 다양 한 트릭과 소품, 운영을 통해 마치 불가 지 한, 하지만 달성 하기 단단한 기본 기술을 통해. 자체 음성 인식 문제다 추측, 음성 기능 신호를 볼 때, 나는 생각할 것 이다 무엇을 말하고 싶은 어떤 문장, 만약 내가 10 추측 정확 하 게, 당신은이 시스템의 정확도 매우 잘 느낄 것 이다.

가장 최근의 기술 혁신은 우리가 우리는 단순히 수동 규칙 너무 잘 할 수 있기 때문에 더 좋은 시스템을 만들기 위해 더 많은 데이터를 사용할 수 있는 통계 음성 인식 건축 술의 성숙 때문 이다. 지난 10 년 동안에서 전체 학계 진행, 어떤 기술은 정말 효과적입니다, 대용량 데이터의 컨텍스트에서 이러한 기술은 많은 정확한 시스템을 어떻게 그들의 매우 효과적인 통합 될 수 있습니다, 그것은 팀 및 이해 능력의 강도 따라 되었습니다.

DNN 깊이 신경망 모델링에 초점

빨간색은 DNN 깊이 신경 네트워크 모델링, 2009 년에 시작 하지만 06부터 적용 되었습니다.

획기적인 기술, 그리고 더 중요 한 것은, 전산 용량 및 모델 대규모 데이터 능력 매우 강력한 되고있다,이 경우 실제적 일 수 있다.

음성 인식 기술에 대 한 주요 지표를 평가 하는 방법? 매우 중요 한 두 가지 포인트가 있다. 첫째, 정확도 속도입니다. 식별 정확 하지 않으면, 그것은 더 이상 가치가 있다입니다. 인식 정확도 어떻게 측정 되어야 한다? 단어, 100 단어, 있다면 얼마나 많은 단어를 식별할 수 있습니다 말할 때 우리는 또한 많은 단어 또는 단어를 누락, 오타를 줄이기 위해 싶어요. 업계에 실질적인 시스템의 정확도 90% % 이다. 그것은 수도 할 실험실에서 10 년 전, 하지만 실제 상황에서 90% 정확도 할 어렵습니다. 둘째, 실시간 계수입니다. 얼마나 많은 시간이 우리 음성 처리의 매 초 마다이 작업을 수행 해야 합니까? 실시간 계수 1 하는 경우 온라인 서비스를 할 1 보다 작은 경우, 온라인 서비스 매우 어렵습니다, 그리고 지금 더 빨리 더 나은.

그것의 가장 어려운 포인트는 무엇입니까? 음성 도구 오픈 소스, 매우 정교한 이며 그것은 인식 시스템을 구축 하는 데 매우 어렵다. 어려움은 우리가 사용 하 여 대규모 시스템에이 시스템은 매개 변수 시스템 합성 최적화, 우리가 매우 좋은 성능을 얻을 수 있습니다? 이건 매우 엄격한 수학적 프레 젠 테이 션입니다. 나는 5 링크, 99%의 정확도 속도, 전체 시스템의 전반적인 정확도 달성 하기 위해 각 링크가 될 수 있는 경우의 총 95% 달성을 언급 했다. 각 링크만 95% 정확도 비율을 얻을 수 있습니다, 만약 전반적인 정확도 77%를 도달할 수 있다. 그래서 큰 어려움은 각 링크의 절정을 달성할 수 있을 것입니다.

음성 인식의 속도 확실히 좋아지고, 응답은 매우 빠른 고 경험 아주 좋다. 대량 배포로 비용을 줄일 수 있습니다. 각 1 시간 시간 기계는 절반으로 축소할 수 있습니다. 음성 인식 사용 하 여 음성 제어로 분할 될 수 있다 하 고 음성 입력,이 제도의 음악 비전 비슷한 플랫폼을 전환 하는 소리를 통해 수 있습니다. 음성 입력은 클라우드 입력된 방법 처럼. 음성 문의 질문 및 답변, 및 의미 이해 및 데이터 서비스를 요구 하는 대화가 있다.

음성 인식 응용 프로그램을 개발 하기 위해 음향 오픈 무료 SDK 5 분 미만 구름

이것은 우리의 임무 및 서비스에 대해, 우리는 시장 수요 발생 및 음성 기술 혁신에, 정확한, 실시간, 전문, 완전 한 지능형 음성 서비스를 제공 하겠습니다. 우리의 서비스 철학 전문, 혁신적인, 열고, 승리 손실. 전문성, 봉사 개발자의 광대 한 숫자에 대 한 플랫폼을 구축 하 게 우리 시대의 모바일 음성 공유 바랍니다.

우리의 음성 클라우드, 빨리 성장 하 고 산업 관련 팀과 테스트 하는 개발자를 초대 하는 퀴즈를 지난 9 월 29 일 시작. 11 월 21 일, 출시, 검색 개 음성 길잡이 의해 각각, 12 월에 지난 1 년 하 고 4 월이 올해 실시 깊은 신경 모델링의 건설을 포함 하 여 두 가지 중요 한 성능 향상. 오늘 5 월 15 일 발표는 개발자에 게 완전히 열고 영구적으로 무료. 우리는 우리의 웹사이트에 SDK를 등록,으로 응용 프로그램 및 수익 모델에 상관 없이, 우리는 아무 예약. 우리는 이러한 응용 프로그램 모두의 요청을 만족은 느낀다, 우리가 무료로 서비스를 제공 하기 위해 계속 됩니다.

우리의 플랫폼은 주로 음성 인식, 소리를 텍스트로 변환 합니다. 의미 이해는 사용자의 실제를 알고 의도, 그 여부는 날씨를 확인 하 고 싶어 같은 TV를 시청 하거나 쇼핑 주식을 확인 하는 방법, 텍스트 문자열을 받을 때,이 함수의 의미 이해를 요구 한다. 3 유사한 데이터베이스와 그래프를 통해 모든 지식을 연결 하 고 사용자의 의도 만족 시키기 위해 의미 이해에 그것을 연결 하는 지식의 아틀라스입니다.

응용 프로그램 개발자가 같은 응용 프로그램의 수를 지 원하는이 플랫폼 응용 프로그램, 의료, 교육, 필름 문의 마이크로-편지도로 조건 뿐만 아니라 음성 작업, 문의 등의 여러 측면을 할 수 있습니다, 그리고에 게 나가서. 기업 정보, 회사의 데이터에 대 한 지능형 고객 서비스의 우리의 지식 지도에 연결 될 수 있다, 사용자 수 등 고객 서비스 플랫폼 개발 계획, 가격, 주문 통해 엔터프라이즈를 참조 하십시오. 경우에 광고주, 기업 마케팅에 수행 하려면 단어 몇 가지 광고를 밀어 것입니다는 광고주 플랫폼 응용 프로그램 서비스 터미널 고객의 각 종류를 통해 수 있습니다. 우리의 공식 웹사이트에 SDK 다운로드를 등록할 수 있습니다.

왜 우리는이 플랫폼을 할 감히 이유는 우리가 10 년 이상 기술 축적을가지고 있기 때문에, 우리의 플랫폼 업계에서 최고의 수준에 도달 수 있습니다. 속도 빠른, 우리 말을 음성 계산 시간의 매초만 필요 0.2 초, 스트리밍 전송 코드 이기 때문에이 경우에 그것은 인식 속도 차이 느낄 수 어렵습니다. 예를 들어 마이크로 편지에 목소리를 기록 하 고 반환 그것은, 차이 매우 큰. 우리의 서비스 플랫폼을 포함 하 여 지금 6 개월 이상, 매우 안정, 오류 서비스 없이 계속 하 고 필요에 따라 플랫폼을 확장할 수 있습니다. 우리의 플랫폼 지원 기능에는 20 백만 시간 초과 / 일 서비스 기능. 온라인 엔진 업데이트 및 시스템 반복 우리의 플랫폼에서 할 수 있습니다, 그리고 사용자가 업데이트를 할 필요가 없습니다, 사용자가 직접 업데이트의 효과 경험할 수 있다.

여기에 지난해 9 월 온라인 성능의 개발, 우리의 플랫폼 85% 정확도 비율을 달성할 수 있다. 2012 년 말까지 많은 테스트와 온라인 최적화를 통해 우리의 정확도 90% 이상 향상 되었습니다. 지난 4 개월 동안 정확도 속도 엔진 최적화 및 온라인 데이터 반복을 통해 93%를 초과 했습니다. 다음 버전의 정확도 비율 95% 이어야 한다.

우리의 식별 실시간 요소 0.55 배 시간을 도달할 수 있다, 작년의 끝에 얻을 수 0.45 시간 지원. 이 프로 모션의 규모는 매우 작습니다, 하지만 전체 시스템, 전통적인 높은 보다 DNN 계산 여러 번, 우리는 경우의 계산 복잡성이 증가 하는 때 아직도 향상 시킬 수 있다면 시스템 성능, 이것은 매우 큰 진행. 이 3 개월 진행 직접 이상의 1 시간 번의 속도 높이기 위해 더 큰 되었습니다. 이 매우 일반적인 서버에 행 해질 수 있다 고 강력한 컴퓨팅 리소스를 필요로 하지 않습니다.

이것은 우리의 개발자 플랫폼, 테스트 개발자의 성장 이다. 작년 우리 그냥 지난해 초를 포함 하 여 다른 사용자의 영향을 통해 어떤 프로 모션 없이 테스트 5 개발자를 초대, Sogou 음성 길잡이를 홍보 도움이. 우리는 현재 우리의 플랫폼에 400 개 이상의 개발자가 있다. Sogou 음성 길잡이, 음악, 비디오 같은 고객이 클라우드 TV, 작은 로봇, 틴 틴 그물, 터치 보물, 아빠 나

고전적인 응용 사례를 소개 하자: 우리의 플랫폼을 사용 하 여 만들 수 있습니다 논리적 구조 매우 간단, 개발자만 스마트 터미널 응용 프로그램에 초점을 맞출 필요, 우리는 의사 소통을 애플 리 케이 션, 그리고 클라우드 플랫폼에 이식 하는 SDK를 제공. 클라우드 플랫폼에는 부하 분산, 사용자 데이터, 음향 모델, 음성 모델의 데이터베이스에 포함 되어 있습니다. 사용자 게시 클라이언트를 통해 음성, 음성 인식 작업을 단순화 합니다.

이것은 Sogou 음성 보조 게시 응용 프로그램을 지원 하기 위해 지난 11 월 21 일 이었다. 음성 길잡이 11 월 초에 우리를 찾을, 우리만 원활 하 게 발표 음성 도우미를 2 주를 보냈다. Sogou 음성 보조 음성 인식 기능 사용, 그것은 우리의 서버에 다시 음성 전송, 우리가 다시 식별 피드백을 넣어, 의미 이해 및 검색 서비스는 모든 Sogou 회사 완료, 그들은 매우 강력한 검색 도구 때문에, 강한 의미 이해 팀 및 검색 플랫폼을가지고.

이것은 어떻게 할 음성 길잡이, 개에 비해 데이터 서비스는 매우 큰, 중요 한 또는 오픈 서비스를 포함 한 수직 산업 서비스, 우리는 달성 바이 Sogou 같은 플랫폼 통해 우리의 구름의 목소리 이다. 같은 날씨에, 영화에 대 한 요구 및 TV 프로그램, 요구 지금 서비스의 30 개 이상의 지역이 있다.

두 번째 경우는 애플 리 케이 션의 우리의 자신의 개발, 그것은 매우 간단, 즉, 우리의 단어 단어를 통과, 확실성의 지점에 보내질 수 있다 마이크로-편지. 올해의 시작 부분에서 이렇게, 사용자가 얼마나 빠른 인식 속도, 더 정확 하 게 알아야 클라우드를 경험 하 게 하 고 싶어요. App 스토어 무료 도구 목록에서 첫 번째 장소 주 우리가 발표 했다. 우리는 접촉 방법에서이 입력된 성능을 볼 수 있습니다.

세 번째 경우는 비디오 슈퍼 TV 글로벌 시작 Mastercard 센터에서 5 월 7. 이것은 비디오 슈퍼 텔레비젼에 우리의 음성 도우미 솔루션 이다.

개발자는 이러한 SDK를 어떻게 사용할 수 있습니까? 사실, 그것은 매우 간단 합니다, 3, 4 분 음성 인식 애플 리 케이 션을 할 수입니다. 첫 번째 등록 웹사이트에 우리의 SDK를 다운로드 하는 첫 번째 메일 활성화를 통해 계정을 등록 하 고 다음 응용 프로그램 키를 신청 하는, 해당 버전의 SDK 다운로드 받을 수 있습니다. 안 드 로이드 플랫폼 및 iOS 플랫폼을 다운로드할 수 있다. 예를 들어, 안 드 로이드 개발, 첫 번째는 SDK를 가져오는 것입니다. 2, 일부 권한을 매니페스트에 구성 해야.

이것은 매우 간단한 코드, 페이지 ppt 작성할 수 있습니다. 이러한 코드는 데 음성 입력된 인식의 매우 간단한 응용 프로그램을 만들 수 있습니다. 음성 콘텐츠를 만들 때 입력 하는 응용 프로그램의 응용 프로그램 키 고 반송 상자 표시 함수 추가 대화 상자에는 인식기를 추가할 수 있습니다. 이 SDK는 스트리밍 프로세스 이며, 나 이야기 하 고이 녹음 장치 측면에 기록. API 지 수는 5 개의 주요 기능, SDK 안에 배치 됩니다, 그리고 두 번째 인식의 개체를 설정 하는 것입니다. 세 번째는 콜백 개체입니다. 4 인식 상자 표시입니다.

감사 합니다, 내 소개는 여기입니다.

(책임 편집기: 유산의 좋은)

관련 문서

연락처

이 페이지의 내용은 인터넷에서 가져온 것이므로 Alibaba Cloud의 공식 의견이 아닙니다.이 페이지에서 언급 된 제품 및 서비스는 Alibaba Cloud와는 관련이 없으므로이 페이지의 내용이 골칫거리 인 경우 저희에게 알려주십시오. 우리는 5 일 근무일 이내에 이메일을 처리 할 것입니다.

커뮤니티에서 표절 사례를 발견한 경우 info-contact@alibabacloud.com 으로 관련 증거를 첨부하여 이메일을 보내주시기 바랍니다. 당사 직원이 영업일 기준 5일 내에 연락 드리도록 하겠습니다.

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.