數據護城河已成空頭支票，強大的防禦能力到底靠不靠譜？

社交網絡風險投資技術 VMware 軟件投資人工智能 Netflix 獵雲網 2019-05-15

【獵雲網（微信號：）】5月14日報道（編譯：檸萌）

編者注：本文作者Martin Casado和Peter Lauten來自風險投資公司Andreessen Horowitz。Martin頭銜有很多：SDN之父、第一家SDN初創公司Nicira的聯合創始人，在Nicira被VMware收購之後曾擔任VMware的網絡和安全業務組執行副總裁，他在2016年年初從VMware離職之後，成為Andreessen Horowitz的合夥人。

長期以來，數據一直被譽為企業的一條具有競爭力的護城河，而最近一波人工智能初創企業的出現，進一步強化了這種說法。同樣地，網絡效應也被稱為構建軟件業務的一股防禦力量。因此，我們經常能聽到有人將這兩個詞組合在一起，即所謂的“數據網絡效應”。

但對於那些我們關注的初創企業來說，我們現在想知道是否有能證明數據網絡效應的實際證據。此外，我們懷疑，即使是更直接的數據規模效應，作為許多公司的防禦策略，其價值也有限。這不僅僅是一個學術問題，它對於指導企業創始人更好地分配時間和資源具有重要意義。如果你創辦了一家初創企業，假設你正在收集的數據相當於一條牢固的護城河，那麼你在其他領域的投資可能會相對不足，而這些領域實際上能真正提高你的企業的長期防禦能力，例如垂直化發展、市場主導地位、售後賬戶控制、品牌制勝等等。

換句話說，將數據視為一條神奇的護城河，可能會對企業的創始人產生誤導，使他們無法專注於贏得勝利真正需要的東西。那麼，數據網絡效應真的存在嗎？規模效應與傳統的網絡效應有何不同？初創企業如何才能建立更持久的數據護城河，或者至少我們應該弄清楚數據在他們的戰略中發揮的最佳作用是什麼？

數據+網絡效應≠數據網絡效應

廣義上講，當用戶、客戶或者端點等等組成的系統在網絡中按結構排列時，“網絡”就會發揮作用。無論這些網絡是否圍繞參與特性（如社交網絡）或協議（如以太網、電子郵件、加密貨幣）構建，它們通常都會圍繞支持網絡結構的技術、產品或服務來構建。

當參與網絡的價值隨著更多的節點進入網絡，或者隨著現有節點之間的參與增加而增加時，網絡效應就會發生。想象一下，如果你試著打一個單向電話，或者只給世界上的某五個特定的人打電話；隨著越來越多的用戶加入網絡，電話系統變得越來越有價值。網絡效應的例子很多，更常見的、更現代的可能還包括社交網絡、在線市場和加密網絡。

具有網絡效應的系統通常具有一種特性，即節點之間通過定義的接口或協議進行直接交互。加入網絡需要遵守一些標準，這就增加了所有節點的直接交互，並使這些交互變得越來越有粘性。但是，當談到關於數據網絡效應的流行說法時，我們通常不會看到相同的粘性的、直接交互，更不用說由於協議或接口導致的節點間的機械依賴關係了。

一般來說，僅僅擁有更多的數據並不會帶來固有的網絡效應。

大多數數據網絡效應實際上是規模效應

大多數關於數據防禦的討論實際上都歸結為規模效應，這是一種動態效應，適用於網絡效應的更寬鬆定義，其中節點之間沒有直接交互。例如，如果你最喜歡的電影X的大部分觀眾也傾向於看Y節目，即使這些用戶之間沒有直接互動，Netflix的推薦引擎可以預測，你很可能也喜歡看Y節目。更多的數據意味著更好的推薦，會吸引更多的客戶，又會帶來更多的數據……這就是著名的“飛輪效應”。

然而，即使有規模效應，我們仍然認為數據在大多數情況下都不算是一個足夠強大的護城河。在傳統經濟中，隨著時間的推移，固定前期投資的經濟效益會隨著規模變得越來越有利，而數據規模效應往往會產生完全相反的動態效應：向語料庫添加惟一數據的成本實際上可能會上升，而增量數據的價值卻會下降！

以一家使用聊天機器人來回應客戶諮詢的公司為例。從下圖中可以看出，從客戶支持記錄入手，創建一個初始語料庫可能會為一些簡單的諮詢直接提供答案，例如“我的包在哪裡？”。但絕大多數的問詢都要比上述情況混亂得多，其中許多問題只被問過一次，例如“我一直在等的那個會放到我前門臺階上的東西現在在哪裡？”。因此，在這種有限的情況下，隨著時間的推移，收集有用的查詢變得更加困難。而且，在本例中收集了40%的查詢之後，我們發現收集更多的數據實際上沒有任何好處！

當然，數據規模效應減小的點隨域而異。但無論這種情況在什麼時候發生，最終的結果往往是相同的：在數據規模方面，保持領先的能力往往會放緩，而不是加快。隨著數據量的增長和競爭的加劇，具有防禦能力的護城河非但沒有變得更強，反而受到了侵蝕。

這樣做的目的不是要對數據作為防禦護城河的效用作出明確的說明，我們的目的是要說明防禦能力不是數據本身固有的。而且，除非你瞭解目標域的數據旅程的生命週期，否則無法保證數據的可防禦性。下文列出的框架可能會提供些許幫助。

一個用於理解數據旅程的實用框架

最小可行語料庫

當大多數人談論網絡效應時，他們關注的是克服激活或冷啟動的問題（通俗地稱為“先有雞還是先有蛋”問題），即獲得足夠的早期節點，使網絡對所有節點都有用，並使業務的經濟效益具有競爭力。在大多數網絡效應業務中，激活問題很難解決，特別是當你需要網絡已經啟動好並在運行中以吸引流量的時候。

但對於許多具有數據規模效應的企業業務來說，這並不一定正確。激活我們所認為的“最小可行語料庫”就足以開始針對它進行訓練，這也是初創企業數據旅程的第一個轉折點。這個初始語料庫可以有多種來源：從可用的來源自動捕獲數據，比如抓取網頁；讓早期用戶用他們的數據交換一些東西；通過轉移學習重新利用來自其他領域的數據；甚至是綜合生成數據，通過編程創建數據進行訓練。

在數據旅程的早期，達到最小可行語料庫需要相對較低的投資，而且這顯然不會是一條持久的護城河。

數據採集成本

在給定的語料庫中，隨著時間的推移，獲取下一個數據塊的成本往往會越來越高。為你的語料庫帶來新信號的獨特數據可能更難在噪聲中找到，而且隨著時間的推移需要更長的時間來清晰地標記。這在許多依賴於所謂“數據網絡效應”的領域裡是正確的。

另一方面，由於傳統的網絡效應，用戶獲取成本會隨著時間的推移而下降，因為加入網絡的價值會增加。此外，伴隨著傳統網絡效應，也往往會出現一種伴隨而來的、更內在的病毒式傳播。在這種模式下，激發節點是為了促進網絡增長，從而為網絡增加更多的價值。這些特性都不適用於數據效應，因為數據成本上升。

增量數據價值

當你在收集數據時，添加到語料庫中的數據的價值也會變得越來越小。這是為什麼呢？即使新的任意批數據的收集成本與最後獲得的批數據相同，但考慮到你獲得的一些新數據已經與現有語料庫重疊，因此它的價值更低。隨著時間的推移，情況只會變得更糟：新數據帶來的價值會越來越低。

在我們所見過的大多數初創企業中，早期的新數據適用於整個客戶群。但是，超過某個特定的點——例如上面示例圖中的漸近線——所收集的新數據將只適用於特殊用例中的小子集。因此，隨著數據集的擴展，任何數據規模效應護城河的價值都會降低。

數據新鮮度

這一點似乎很明顯，但再怎麼強調也不為過。在許多實際的用例中，數據會隨著時間的推移而過時，變得無關。比如說街道變了，氣溫變了，態度變了等等。

不僅如此，隨著時間的推移，許多數據初創公司的專有見解最初都會減弱，因為隨著越來越多的人收集數據，數據的價值也會下降。當競爭對手在同一領域追逐你時，你的預測優勢就會減弱。而且，隨著時間的推移，隨著規模的擴大，僅僅保持現有語料庫的新鮮度就需要大量的工作，更不用說保持領先了。

從這個意義上說，數據就像一種商品。

什麼時候數據是具有防禦性的？可以通過什麼方式來管理它們?

這並不是說數據毫無意義！但擁有大量數據並不代表有長期防禦能力。要在這之間劃上等號確實需要更多深思熟慮。由於數據護城河顯然不能單獨通過數據收集持續（或自動發生），因此，仔細考慮映射到數據旅程上的策略可以幫助你與數據優勢競爭，並且是以更有意識、更主動的方式保持數據優勢。當你的公司突然逼近一條漸近線或收益遞減點時，針對性地制定計劃總比盲目行動要好得多。

激活初始語料庫，與現有對手競爭

正如前文所述，在某些域中激活數據並沒有那麼困難。然而，創始人實際上可以利用這一優勢，與擁有數據但未能正確應用數據的現有對手正面交鋒。在激活到一個最小可行的語料庫之後，在構建正確數據集方面處於領先地位的初創企業可以充分利用這一技術，在現有競爭對手尚未搞清楚如何理解數據之前加快速度，佔領高地。

要趕上現有的存儲大量數據的公司，生成合成數據是另一種方法。據我們所知，有一家初創公司生產合成數據，用於在企業自動化領域培訓系統。因此，一個團隊只需要少數工程師，就能夠激活他們的最小可行語料庫了。該團隊最終擊敗了兩家大型企業，贏得了勝利。這兩家大型企業都依賴於數十年來在全球範圍內收集的現有數據。對於當前問題的解決，他們都不是合適的人選。

瞭解數據的分佈情況

對數據語料庫的分佈有一個清晰的理解將會促進你對數據策略的認知，也會讓你感知到你實際上可以創建的防禦能力有多大，這取決於應用程序空間。

數據的分佈及其對應的值隨領域的不同而有很大的差異。因此，深入瞭解分佈的形狀，並制定正確的策略來捕捉它是至關重要的。是否存在難以獲取的大量關鍵數據？如果真的存在，將語料庫擴展成“長尾”的計劃是什麼？在你的領域，準確性有多重要？什麼樣的錯誤率是可以接受的？如果機器學習在發給同事的電子郵件中預測出錯誤的自動完成功能，這並不是世界末日，但在自動駕駛汽車的領域中，對象分類不準確可能是一個生死攸關的問題。如果不仔細觀察，例如，如果沒有正確地將權重應用於時間序列數據（請參閱“災難性遺忘”），甚至很難發現錯誤的數據分佈。

如果你是先行者，那麼我們之前分享的挑戰——許多領域的大量經驗教訓都是在異常用例的長尾中獲得的——也可能成為一個優勢。對於將這些經驗教訓嵌入產品和銷售過程的企業公司來說尤其如此。儘管一些投資者不願在複雜的市場中艱難跋涉，因為他們只看到了規模和利潤率上的困難，但我們相信，進入複雜市場的道路上必然會留下傷疤，而傷疤本身是有防禦功能的。

瞭解數據對產品的改進程度

在某些領域，擁有更多的數據會帶來更好的產品，以至於隨著時間的推移而增加的開銷和數據價值的遞減都將被克服。例如，如果你有一個準確率達到85%的癌症篩查，它會比準確率80%的更容易被使用。使用越多就能提供更多的數據，從而提高準確性。

雖然我們還沒有看到這些效應在實踐中發揮出來，但有幾個例子表明，數據優勢可以在產品方面建立贏家通吃的風格優勢，這顯然是一個強大護城河的形成基礎。

當然，理解數據對產品的貢獻程度並不總是那麼簡單直接。通常，選擇算法或其他產品特性調優的影響要比單獨擁有更多數據要大得多。

在質量和數量之間權衡

在創建數據語料庫時，最棘手的問題之一就是如何平衡質量和數量之間的關係。為什麼要平衡關係呢？解決規模過大的問題可能會導致在廣泛的用例範圍內得到相對不錯的估計，但對其中任何一個用例來說都不算好；而解決規模過小的問題可能導致一個語料庫能夠很好地解決範圍狹窄的問題，但是卻不能滿足客戶期望的整個用例集。

在實踐中，這可能意味著將更多的精力放在為一個範圍狹窄的用例標記豐富的數據上，或者更廣泛地向在更多用例中有用的數據開放。顯然，對任何語料庫來說，深度和寬度都是關鍵屬性，但是在任何方向上的平衡錯誤都會嚴重影響性能。當涉及到保持競爭優勢時，保持對特定領域的質量和數量權衡的領先地位將使你添加到數據護城河中的增量數據的價值能夠實現最大化。

保障專有數據來源安全

我們在這篇文章中提出的問題是數據規模效應究竟存在於何處，又會持續多久？對於這個問題，我們希望創始人能夠捫心自問。這並不意味著一家公司無法從專有數據中獲得實際的防禦能力。顯然，有很多行業（比如製藥業）和反例主宰了它們的市場數十年，特別是當它們出於行業結構原因有權訪問專有數據集時（如Equifax、LexisNexis、Experian等），他們便獲得了防禦能力。

積累專有數據是一種能夠增強防禦能力的策略。當數據源不足或不願向多個供應商（如政府採購商）提供數據時，這種策略最為有效。現在，安全性要求和遵從性標準的門檻升至歷史最高水平，為獲得敏感數據而進行的供應商審查本身就可能成為針對競爭對手的一道護城河。

即使承擔組裝、清理和標準化大型公共數據集池的所有前期成本，也會產生一種規模效應，新興競爭對手將不得不從頭再創造這種效應，尤其是在首先需要專門知識來查找、理解和清理數據的情況下。那些被證明是負責任的數據保管人的初創企業可以贏得客戶的信任，而客戶只會與他們分享日益敏感的數據，從而形成一道護城河。

數據護城河不是萬能的

數據是許多軟件公司產品戰略的基礎，它可以通過多種方式增強防禦能力，但不要把它當作魔杖。大多數關於數據網絡效應的敘述都是圍繞著數據規模效應展開的，正如我們在本文中所概述的，如果沒有正確地規劃，這些效應有時會產生相反的效果。但是，記住不要假設您有數據網絡效應，因為您可能沒有；也不要假設數據規模效應將永久存在，因為這幾乎可以肯定不會發生。

相反，我們鼓勵初創企業更全面地考慮防禦能力。更強大的長期防禦能力更可能來自包裝差異化技術；瞭解該領域，並將其反映在您的產品中；主導市場競爭，並贏得人才大戰，打造一支世界級的一流團隊。這些努力終將有所回報，你會獲得強大的防禦能力，最終贏得市場，這遠比獲得數據本身來得更有價值。