大資料靈玖通用採集平台發布

來源:互聯網
上載者:User

標籤:中文分詞   漢語分詞   語義分析   

   12月20日,公司為了讓全體員工熟悉公司新產品—“靈玖通用採集平台”的技術原理、主要特點和效能優勢,方便大家在技術調用、使用者營運和客戶拓展中,對該採集平台有更深刻的理解和把握,特邀請到了採集平台的原始開發人員——高莘,為全體員工做了主題《第二代採集平台——“靈玖通用採集平台”介紹》的培訓課程。

  高莘表示,資料擷取是大資料採礦的最重要的基礎,而“靈玖通用採集平台”是一款既可以對網站深度定製,也可以使用最簡單的配置快速採集的系統平台,它採用智能匹配和先進的HTML5模組編輯工具滿足動靜態欄位的配置;配備全面且直觀的運行時監控系統;豐富多彩的開發介面和完善詳細的SDK文檔;同時支援分布採集部署,調度、資料處理,可以輕鬆的應對大資料在採集中遇到的各種問題。

  首先,高莘介紹了這次培訓課程主要內容是:平台技術創新點、資料擷取系統、平台監測系統、效能與穩定性、開發計劃等幾個方面,然後對採集系統平台進行了詳細的介紹。高莘表示,資料擷取首先要提出採集請求,採集系統才會根據要求,按照採集指令進行採集任務分發,然後到分布式流資料分析平台進行資料比對、資料來源設定、資料抓取、實體抽取、資料分類,最後到分布式資料存放區平台進行儲存。

  在培訓中高莘重點為大家示範了智能動態增減採集器的設定和使用方法。智能動態增減採集器是通過對資料ID、資料地址、採集功能添加、採集數量等功能項的設定來進行資料擷取,而採集的方式有兩種模式:一種是通用模式,既使用普通的功能設定來採集資料,一般這種模組採集的資料比較多但效果相對比較差;另一種是特殊設定模式,既按照要求對採集器進行功能設定,這種採集的效果更好,準確率高。

  最後,在培訓結束後進行了現場互動,高莘為大家解答了技術部門在開發和資料調用時遇到的問題並提出相應的解決技巧和方法,並解答了銷售部門針對功能介面簡化、頁面美觀及客戶使用便捷等問題做了一一解答。高莘表示,“靈玖通用採集平台”是針對互連網中結構化和非結構化文字文件、圖片和視頻進行資料擷取的多功能平台,它是由資料擷取、實體抽取、深度學習、文本分類、文本摘要、資料存放區與撿索、資料搜尋、資料統計、採集監測等十多套組件組成,其在工作和維護中需要相互協作才能發揮最好的採集效果。隨著“靈玖通用採集平台”的不斷完善,在以後資料擷取工作中效果會越來越好。

  資料擷取是公司為客戶提供的重要服務內容之一,公司在原有的第一代採集平台——“黃金眼”資料擷取平台基礎上,總結經驗、吸取不足,全新設計和開發了第二代資料擷取平台——“靈玖通用採集平台”,比上一代具備更好的相容性、更高的採集效率、更精準的採集品質和更具個人化的採集設定等諸多優秀特點。而在此基礎上開發的第三代採集平台——“靈玖採集雲平台”也正處在開展關鍵技術論證階段。

 


大資料靈玖通用採集平台發布

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.