以往的經驗告訴我們,充分發揮擴展優勢會帶來更大的分析價值。 但是大資料[注]並不是一把萬能的錘子,而每一個問題也不是一個靠錘子就可以解決的釘子。
許多人認為大資料意味著越大越好。 人們也常常從各種哲學視角來詮釋「越大越好」這一問題。 對此我將這些角度歸納為:
信仰:是指容量更大、速度更快和種類更豐富的資料總會帶來更多洞察力,而這正是大資料分析的核心價值。 如果我們無法發現這些洞察力,那是由於我們沒有充分認真地嘗試,或是我們的靈活程度還不夠,或者是我們沒有使用正確的工具和解決方案。
偶像:是指資料的龐大容量本身就是有其價值的,與我們是否能夠從中獲得特殊的 洞察力無關。 如果我們僅憑其所支援的特定商業應用來評估它們的效用,那麼在這方面,我們是與資料科學家們當前的需求是不一致的,資料科學家們的需求是將數 據不加分別地存儲到資料湖中,以支援今後的探索工作。
負擔:是指資料的龐大容量未必是好事或壞事,但是一個無法改變的事實是,它們會對現有資料庫的存儲和處理能力帶來極大的壓力,並因此讓(Hadoop等)新平臺成為必需品。 如果我們不能跟上這些新資料增長的步伐,那麼核心的業務需求將被迫轉向新型資料庫。
機遇:在我看來,這是一個處理大資料的正確解決方案。 隨著資料規模上 升至新的層次,流動的速度更快,資料的來源和格式不斷增長,這一解決方案將重點放在了更為高效地獲取前所未有的洞察力方面。 它沒將大資料作為一種信仰或偶 像,因為它知道即便較小的資料規模也能夠持續獲得許多不同的洞察力。 它也沒有將資料的規模視為一種負擔,而是視為一種挑戰,這種挑戰能夠通過新的資料庫平 台、工具和實踐加以有效應對。
2013年,我在博客中曾就大資料的核心使用案例展開過討論,但當時只涉及到如上方程式中的「機遇」部分。 晚些時 候,我發現大資料中「大」這一核心價值源自于能否用增加的內容揭示出所增加的背景環境。 在你分析資料以探查其完整意義時,背景環境自然是越多越好。 同樣 的,當你嘗試著在自己的問題範疇中識別出所有的變數、關係、模式以找到更好的解決方案時,內容也是越多越好。 總之,越來越多的內容加上越來越多的背景環 境,通常會導致資料也變得越來越多。
大資料的另一個價值在於,它們能夠糾正那些小規模資料所產生的錯誤。 曾經有觀察過該問題的人說過,對於資料科學家而言,在訓練集中資料偏少意味著他們更容易受到多個模型風險的影響。 首先,資料規模偏小可能會導致使用者忽視關鍵的預測性變數。 同時,使用者選擇沒有代表性的樣本導致模型出現偏差的幾率變大。 此外,使用者可能會找到一些虛假關係,如果使用者擁有能夠揭示實際發揮作用的基本關係的完整資料,那麼他們就能夠識別出這些虛假關係。
規模非常重要
所有的人都認為,一些資料類型和使用案例比能夠帶來新洞察力的資料更有説明。
我近期偶然看到了一篇名為《大資料的預測模式:越大就越好嗎? 》文章,文章對資料的一個特定範疇——稀少的細分行 為數據進行了詳細闡述。 在這方面,資料規模通常能夠提升預測成績。 文章的作者Junqué de Fortuny、Martens和Provost稱:「這類資料集的一個重要問題是它們通常都比較稀少。 對於任何給定的實例,絕大多數特徵都沒有價值,或 是價值沒有表現出來。 」
最值得關注的是(作者通過引述豐富的研究來支援他們的論點),這類資料是許多以客戶分析為重點的大資料應用的核心。 社交媒體行為資料、Web流覽行為資料、移動行為資料、廣告反應行為資料、自然語言行為資料都屬於這類資料。
作者認為,「實際上,對於大多數預測分析型的商業應用,例如金融業和電信業的定向市場行銷、信用評分、損耗管理等應用,用於預測分析的資料都非常相似。 這些產品的特點都集中于個人的背景特徵、地域特徵和心理特徵,以及諸如優先購買行為等一些通過統計總結出來的特定行為。 」
「更大的行為資料集往往會更好」的關鍵原因非常簡單(+本站微信networkworldweixin),作者認 為「沒有大量的資料,一些顯著的行為可能就無法被有效地觀察到。 」這是因為在零散的資料集中,行為被記錄的人可能只會展示次數有限的行為。 但是當你放眼整 個人群時,每一種特定類型的行為你可能會觀察到至少一次,或者在特定的環境中觀察到多次。 如果資料偏少,那麼所觀察的目標和觀察到的行為特徵也就會偏少, 這將導致你會忽略許多東西。
預測模型所依靠的正是源行為資料集的豐富性。 為了在未來的更多場景中預測更為精准,資料規模通常是越大越好。
當越大等同于越模糊時
儘管如此,該文的作者也提到了一些場景。 在這些場景中,越大越好的假設不成立,那麼我們就不得不使用特定行為特徵的預測價值。 這時候,權衡取捨就成為了預測行為模型的基礎。
預測模式中每一個增加的行為特徵,應該與所做的預測充分地聯繫起來,以提升模型的學習收益和預測能力,克服不斷拉 大的差異,即過度學習和預測錯誤,因為這通常會產生更大的特徵集。 正如該文章作者所說的那樣,「大量不相關的特徵只是增加了差異和過擬合的機率,而沒有相 應地提升學習到更好模型的機率。 」
顯然當「大」妨礙到了獲取預測性洞察力時,越大並非越好。 使用者不希望自己的大資料分析努力成為資料規模擴張的犧牲品。 資料科學家也必須充分瞭解應該何時調整資料模型的大小,以適應手中的分析任務。