微博自身的運行機制,決定了如果要依靠技術手段實施微博行銷,資料採礦就是一個無法繞開的必然選擇。 微博中最具行銷價值的除了人本身外(針對人的行銷不能完全依靠技術,人與人的對話才是最重要的),就是大量的、快速變化的資料。 相對於其他的行銷平臺,為博行銷更需要從大量的、不完全的、有雜訊的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊,甚至是微博使用者的心理特徵。
微博資料採礦是為了能有效的採集、處理、展示微博大容量資訊。 其中當然包括使用者id、姓名、省份、城市、註冊時間、微博發佈時間、性別、是否是認證使用者、好友數、粉絲數、發表的微博條數、發表的微博等。 但這些絕不是全部,甚至可能是微博海量資訊內容中價值最低的那部分,所有這些剛性資料,通過微博平臺開發的使用者介面很容易獲取。 但是微博中資料採礦的根本目的並不是為了要獲得這些顯而易見的剛性資料,而是為了對這些資料進行精煉,從中發現對企業對行銷有價值的關聯。
首先是資料過濾,微博中存在海量的內容,即便是篩選出可能與企業相關的內容,可能仍然是巨量的資料,一個企業難以消化。 同時微博因為內容的隨性和簡短,也附加了大量的符號和網路語言,這些為分詞帶來麻煩。 如果通過從海量微博內容中篩選與企業相關的資訊這種方式,很難做到足夠的精確。 反過來可以設定與企業自身相關的分詞去尋找微博對應的內容,同時輔以特定使用者篩選,很容易找到微博中產生的與企業異常相關的內容,並加以跟蹤。 從企業自身出發,去微博尋找配對內容和使用者的方式能有效解決海量內容難以消化的問題。
其次微博中的內容太過隨性,便捷的發佈、對話模式帶來的一大問題就是資訊品質泥沙俱下,資訊真假難以識別。 微博使用者發佈資訊並不單純,所發的資訊也並非都是自身本意。 微博的社交關系很容易捲入使用者,讓使用者被動的發佈某些正在被傳播的資訊,以期讓自己也成為某個群體內的一份子。 不少微博使用者轉發某個內容並不是贊同或反對,甚至並不是發自內心的願意去轉發,僅僅是為了表達我是一份子、或者我認可發行者、或者重在參和。 在這種情況下資訊與使用者實際上是割離的,只有歷史跟蹤歷史資料才能判斷是否是使用者的真實意願,對非原創微博大多要經過這種判斷。
再者隨著微博向社交網路演進,微博平臺內的資訊形式會越來越不一致,現在絕大多數是以文本的方式呈現,未來會有大量的普通使用者會被分流到一個個具體的應用。 雖然應用的底層和資料介面大都是一樣的,但每個應用本身的呈現方式和資訊、使用者在其中的流轉方式都不一致,很難實現統一處理。 除了資料採礦演算法本身的改進,與微博平臺底層更為緊密的捆綁才能在資料獲取上有更多的優勢。