對來自互聯網的非結構化資料中隱含的輿情資訊進行提煉和分析,正在大資料的第一波浪潮中創造出越來越大的市場空間。 而如何利用從互聯網、社交網路、移動應用等創新領域創造的、呈現出爆發式增長的海量非結構化資料中創造價值,是當前大資料行業最為關注的熱點話題。 利用海量資料分析工具和演算法對來自互聯網的非結構化資料中隱含的輿情資訊進行提煉和分析,從而為政府和企業管理者的工作提供決策支援,也正在大資料的第一波浪潮之中創造出越來越大的市場空間。
面對互聯網上的海量資訊,如何有效地發現和分析互聯網輿情,是當前各類互聯網資訊系統必須面對的事實。 2013年7月,國務院辦公廳公佈的《國務院關於加快促進資訊消費擴大內需的若干意見》中指出了六個方面,其中一個方面就是加大資訊消費產品的供給。 大資料輿情屬於互聯網資訊服務產業,同時也屬於目前新一代資訊技術和軟體領域的熱門領域。
而在整個大資料產業之中,互聯網輿情監測行業作為先發者也正在迎來巨大的機遇。 有分析資料顯示,在中國輿情監測軟體的市場規模將很快達到10億以上,而在未來幾年之中,輿情監測服務產業將會進一步迎來爆發式的增長,整個市場規模將達到100億左右。
大資料超市中的引領產業
對於所有意欲在大資料產業中有所作為的IT服務商而言,互聯網輿情監測服務的巨大商機都意味著所有市場的角逐者都會將其當做是不可能忽視的巨大餡餅。 誠然互聯網輿情對資訊獲取的「即時性、全面性」有更高的要求,因此,互聯網輿情系統必須能支援大資料的輿情處理,才能有效為使用者提供輿情服務。
對ISV的「全才」式要求
「在整個互聯網輿情分析產業之中,輿情軟體主要圍繞互聯網輿情搜索與監測進行,雖然一些廠商提出了一些面向不同政府部門的輿情系統改進版本,但幾乎仍是傳統輿情監測的功能,僅僅是介面等有些變化。 沒有體現出行業互聯網輿情海量非結構化資料處理的特點。 」陳宗華表示。
在他看來,政府不同的職能部門的輿情監控功能應當有所側重,比如政府宣傳部門監測輿情,應該是對本地域所有重大事件進行監控,而且還有輿情導控的功能,而消防部門關注的是本地與消防有關的輿情,組織部門側重的是本地的幹部監測等。 只有在深入的結合行業工作特點的基礎上,才能體現互聯網輿情處理的優勢。
而要想做到這些,整個輿情處理系統必須具有很好的架構支援,比如在採集目標管理和知識庫構建上都要分公共和行業管理,而且可進行自由擴展,監測專題的自動生成需結合行業特徵進行。 系統的功能應該是可配置的,為不同的行業配置不同的功能模組。
「因此,面對大資料輿情,系統的發展方向應該是面向行業的細分,比如政府版、組織檢察版、消防版、環保版、教育版等等,而且應該和行業固有工作密切結合。 隨著移動終端的普及,不僅僅是給使用者提供瀏覽器或者App方式的手機用戶端,而是要研發多元化的輸入模式的搜索、精准的內容返回、個人化的搜索體驗。 」陳宗華說。
互聯網輿情監控解決方案的開發,需要ISV在各個前沿的技術領域具備一定的能力。 在陳宗華看來,這一行業中的ISV必須有能力結合雲計算、大資料、社交網路分析、移動搜索等密切相關的技術,這樣研發出的產品才具有技術競爭力。 其中,互聯網知識工程是以知識為基礎構建的互聯網智慧資訊系統。 涉及到知識獲取、知識表示和知識應用等技術。
改進已有資料採礦和機器學習技術;開發資料網路挖掘、特異群組挖掘、圖挖掘等新型資料採礦技術;突破基於物件的資料連線、相似性連接等大資料融合技術;突破使用者興趣分析、網路行為分析、情感語義分析等面向領域的大資料採礦技術。
社會網路分析關注的焦點是關係和關係的模式,涉及到資料採礦中的關聯分析,相關矩陣或差異矩陣的統計分析,社交網路劃分,核心人物識別,資訊擴展過程,圈子話題傾向分析,小世界理論,六度空間分割等方法和技術。
而智慧資訊處理是電腦科學中的前沿交叉學科,是應用導向的綜合性學科,其目標是處理海量和複雜資訊,研究新的、先進的理論和技術。 以互聯網應用為主要背景的特定領域智慧資訊處理,包括:大規模文本處理、多媒體資訊檢索與處理、基於Web的知識挖掘、提煉和集成等。
互聯網海量資訊的高效採集方法,需結合範本定制採集,更重要的是使用諸多媒體自帶的內置搜索功能,靠完全爬取多個媒體的資訊技術已經很難滿足客戶的綜合需要。 而監測主題的機器理解,在監測互聯網輿情時陳宗華,多是以專題的形式定制的,而專題在描述時有關鍵詞、短語、規則(關鍵字及與、或關係)、一段話、若干篇文章,如何支援多種形式的主題描述,如何能自動理解使用者對主題的描述, 是輿情主題監測的首頁一環。
此外,輿情處理系統在採集、正文提取、排重、分詞、命名實體識別、分類、聚類、檢索、簡報專報生成、各類輿情統計、存儲等環節中,需要面對並行處理問題。 大資料處理的核心問題是並行化處理和資訊存儲,只有解決好了這些環節,才能體現一個輿情處理系統在大資料處理上的優勢。
即便是在各個技術領域都做好了準備,利用大資料技術搭建互聯網輿情分析系統對ISV而言同樣意味著重大挑戰。 在陳宗華看來,與使用者具體工作和業務流程的結合,以及輿情處理分析過程中的安全性,是這一產業ISV所面臨最為主要的難點和挑戰。
「行業大資料輿情系統開發與使用者工作的結合,研發的系統在業務領域,工作模式,工作流程,功能設計等環節都應與使用者的工作密切結合。 」他表示,「此外,我們公司的互聯網輿情分析採用先進的SaaS模式提供服務,而在軟體服務過程中,輿情安全性、保密性、可追溯性都值得注意。 」
而對於企業本身,研發團隊的培養同樣是進軍這一市場所必需的關注點。 大資料輿情涉及情報分析、新聞傳播、計算語言、資料採礦、機器學習、自然語言理解、社交網路分析、網路安全、知識工程、資訊檢索等等知識領域,如何組建一支知識結構合理、水準高的專業研發團隊是一個輿情軟體研發公司必須面對的問題。 此外,企業的商業模式同樣要具有獨特價值,才能在這個新興的產業市場之中取得較大的核心競爭優勢。
打造多維度生態圈
在基於互聯網的輿情分析產業之中,擁有發展機遇的不僅僅是分析技術的提供者。 自行開發之外,IT方案商也可以通過合作的方式,將其他企業的技術用於使用者解決方案的部署。 從而與提供核心技術的ISV之間,形成立體的生態合作關係。
「在互聯網輿情分析領域,人民網擁有雄厚的實力和權威性的身份,他們旗下的技術團隊開發了全套基於大資料技術的互聯網輿情分析系統,並在許多政府和大型國有企業的宣傳部門中使用,我公司也與他們建立了合作關係, 將他們的解決方案在我們的智慧城市等專案中部署。 」南京幻方科技有限公司CEO陳哲介紹。
在陳哲看來,傳統行業包括物流運輸等領域受到應用開放程度限制,大資料採礦的需求並不是特別高。 而在政府和國有企業中,對輿情的分析和處理投入巨大,在政府輿情監控的帶動下,一些大型的國有企業都參與到輿情監測控制專案的投入中。 這方面的非結構化資料分析處理解決方案市場發展前景看好。
而對於競爭力優勢在大資料之外領域的企業而言,要想進入這一被看好的市場,採取與其他企業合作的方式,同樣能夠説明企業獲得成功。 如陳宗華所言,互聯網大資料輿情分析市場的推廣,離不開產業鏈上下游夥伴之間精誠的合作。 在生態圈中,ISV最為主要的任務是推動市場更加創新,用更快的速度複製應用,從而把整個蛋糕做大。 只有應用足夠吸引人,後面的發展才會順理成章。 而將創新的應用與使用者個人化的需求進行結合,讓更多的政府、企業單位宣傳、市場和營業單位負責人接受這一新的技術,同樣也是貼近使用者的IT方案商最重要的任務和最核心的業務價值所在。