乾貨｜如何利用Social Listening從在線垂直社區提煉有價值的信息？

鈦媒體移動互聯網汽車之家 UGC 技術社交網絡數據挖掘網易搜索引擎網易雲音樂大眾點評網 36氪攜程旅行網寶寶樹搜狐歷史 Google 京東商城音樂產品經理百度攝影電子商務新浪淘寶網人人都是產品經理 2019-06-02

在本文中，筆者將焦點集中在對互聯網在線垂直社區的內容挖掘上，並且利用了多種數據挖掘方法和商業模型，以汽車之家的口碑數據挖掘為例，進一步對Social Listening的分析方法和應用場景進行分析與闡述。

在筆者之前的文章《乾貨｜如何利用Social Listening從社會化媒體中“提煉”有價值的信息？》中曾提到，Social Listening可以幫助企業實現如下圖所示的幾個商業目標，這引起了一些新媒體、諮詢從業者濃厚的興趣，他們強烈要求筆者繼續對Social Listening的分析方法和應用場景做進一步的闡述。

作為迴應，筆者將在本文中對該主題做進一步的延展，聚焦到對互聯網在線垂直社區的內容挖掘上。在本文的第二部分，筆者將利用多種數據挖掘方法和商業模型，以一個實際案例來聊聊Social Listening是如何從垂直社區中挖掘出商業價值的。

一、分析背景：從互聯網垂直社區的數據中“淘金”

1.1 垂直社區蘊含著更具商業價值的信息

從目前社會化媒體的發展格局來看，門戶網站日漸式微，微博、微信、抖音等社交網絡玩得風生水起。根據消費者的關係輕重來看，社交網絡是由關係引發起討論，因此討論的時效性比較短，消費者的注意力也會比較分散；而垂直社區則是由興趣引發話題和討論，因此時效性較長，消費者粘性也較高。

從更深層次來講，垂直社區和第一代大而全的綜合性網站（搜狐、網易、新浪等）或包羅萬象的社交網絡不同，垂直網站將注意力集中在某些特定領域或某種特定需求，提供有關這個領域或需求的全部深度信息和相關服務。

最後，基於垂直社區內容的垂直搜索可以幫助消費者提高搜索信息的效率和質量。隨著互聯網消費者和網上內容的急劇增長，由通用信息源向專用信息源的過渡是很自然的。舉個例子來說，某人如果想在Baidu或者Google上找個靠譜點的美容醫院就像是大海撈針，因為搜索引擎上的廣告多，且內容分佈較零散，不容易找到符合消費者需求的專業信息。但是，如果直接在某知名的X氧網，情況可能會好不少，因為垂直搜索一下，大量專業機構、從業者和海量點評可供選擇和參考。搜索領域有句明言：消費者無法描述道他要找什麼，除非讓他看到想找的東西。這個過程有點像找對象，“碰運氣”是消費者搜索行為的最大的特徵，而基於垂直社區的垂直搜索引擎就可以幫助消費者提升“運氣”。

一言以蔽之，社會化媒體中的垂直社區是移動互聯網時代的“寵兒”，沉澱有大量的優質且專業的內容，因而吸聚了大批用戶，隨之而來的是海量的UGC，這給Social Listening提供了可供挖掘的礦藏，從中提煉出改進產品、提升品牌價值的insight來。

1.2 各領域較知名的垂直社區

互聯網流量也遵循“冪次法則”，即80%的用戶（注意力）集中在20%的網站上，大量的用戶UGC也集中在這小部分網站上，對於行業垂直社區而言，更是如此。

所以，筆者在做Social Listening的時候，特別關注頭部的行業垂直社區，這些行業頭部媒體/平臺較為專業，擁有最多的、精準的目標用戶群，分析上面的用戶UGC能發掘出用戶對產品的反饋和用戶痛點，甚至可以由內容反推出目標人群畫像，可謂是玩法多多。

以下是筆者梳理的若干有影響力的行業（移動）垂直社區，其中的UGC是Social Listening的重要分析信源：

旅遊類：攜程網、驢媽媽、馬蜂窩、貓途鷹
汽車類：汽車之家、愛卡汽車
互聯網技能類：人人都是產品經理、運營派、PMCAFF
互聯網資訊類：虎嗅、36氪、鈦媒體
醫療美容類：新氧網、悅美網、更美網
攝影類：蜂鳥網
女性類：辣媽幫、她社區、美柚
母嬰類：寶寶樹、寶寶知道、媽媽幫
財經類：雪球、財新網
在線音樂類：蝦米、網易雲音樂
音頻分享：喜馬拉雅、蜻蜓FM
點評類：大眾點評
……

除此之外，淘寶、京東、網易考拉海購等電商平臺也紛紛開通了內容頻道，針對不同的商品品類和人群打造內容生態，吸聚擁有特定需求的人群，這些都是極具分析價值的Social Listening信源。

下面，筆者將從X車之家上的口碑評論數據出發，利用各種數據挖掘技術，對凱迪拉克這個汽車品牌做產品反饋和品牌形象方面的挖掘分析，力求得出make sense的結論。

二、從凱迪拉克在汽車之家的口碑數據中挖掘出有價值的信息

2.1 數據獲取

本文的數據獲取來源為汽車之家。那為什麼選擇汽車之家作為分析對象呢？

汽車之家成立於2005年6月，成立至今已有14年的歷史，它為汽車消費者提供選車、買車、用車、換車等所有環節的全面、準確、快捷的一站式服務，是基於汽車專業內容的垂直社區，是全球訪問量最大的汽車網站。因此，它上面能集中大量優質的用戶UGC，可以“傾聽”到用戶關於汽車及其品牌的“聲音”。

在這裡，筆者獲取的是汽車之家上“口碑頻道”的數據，是關於購車消費者買車後的評論。該頻道提供的數據維度豐富，包括汽車各方面的評分及其文字評論、晒圖，以及各帖子的互動數據等。

下圖是一條口碑評論的截圖，可以看到一條口碑評論由許多結構化和半結構化的數據維度組成：

筆者在這裡進行數據採集的根據是Python中的Scrapy，它是Python下的一個快速、高層次的web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。獲取的數據對用戶和帖子詳情信息做了處理，不涉及到用戶隱私，且本分析不作商業用途，僅供學習探討。

獲取的口碑評論量為30w+,其中凱迪拉克下的評論有12,900條，存儲在SQL SERVER2017中,以下是數據的存儲效果：

2.2 分析目的

以下是筆者接下來分析挖掘的重點內容，主要集中在凱迪拉克的產品反饋和品牌調性方面：

1）瞭解消費者的購車目的，從用途/使用場景角度進行分析

2）瞭解消費者的購車原因，從汽車的幾個重要維度，如安全性,操控,動力,油耗等

3）瞭解消費者比較重要的購車因素，即用戶比較關注哪些汽車功能或汽車器件

4）分析消費者眼中的品牌調性，與事先設定的品牌調性有何差異

5）在上述分析中加入競品分析，分析異同點

2.3 數據特徵及分類

現在，根據分析目的對獲取到的數據的字段進行分類和挑揀，選擇部分可作為分析的數據：

1）評級類數據：

comfortableness_score（舒適性評分）
internal_score（內飾得分）
maneuverability_score（操控性得分）
oil_score（油耗評分）
power_score（動力評分）
apperance_score（外觀評分）
costefficient_score（性價比評分）
space_score（空間評分）
Satisfaction （滿意度）

2）半結構化數據：

purpose （購車目的/用途）
bought_Address（購買地址）
brand_name （品牌名稱）
buy_date（購買日期）
buy_price（購買價格）
carowner_levels（車主等級）
prov_name（省份名稱）
city_name（城市名稱）
Comment_count（評論數）
Helpful_count（有用數)
Visit_count (瀏覽量)
product_name（產品名稱）
pub_date（發佈日期）

3）文本類數據：

apperance_feeling(外觀感受)
comfortableness_feeling (舒適性感受)
costefficient_feeling (性價比感受)
maneuverability_feeling (操控性感受)
internal_feeling (內飾感受)
power_feeling (動力感受)
oil_feeling (油耗感受)
space_feeling(空間感受)
car_defect(車輛缺陷)
car_merit(車輛優點)
review_summary (評論總結)
bought_reason (購買原因)

本文分析所用到的數據主要是文本類數據和小部分的半結構化數據。

2.4 消費者購車目的分析

在“消費者目的”分析中，筆者選取了寶馬、捷豹、奔馳、凱迪拉克和路虎這5個汽車品牌作為分析對象，想要知曉消費者在這5個汽車品牌的使用場景上有什麼不同，這也是汽車廠商較為關注的方面 — 自己的產品定位於消費者心智中的定位是否一致，宣傳策略是否需要強化或者調整。

在口碑頻道的評論中，存在“購車目的”這一字段，是一個半結構化的選項，評論者可以選填自己喜歡購買小車的應用場景，官方提供了10個候選項：

購物
接送小孩
拉貨
跑長途
泡妞
賽車
商務接送
上下班
越野
自駕遊

從上圖中可以看到，消費者可以同時填寫多個購車目的標籤。所以，在正式分析之前，需要對該標籤數據進行拆分，出現多個標籤的行要拆解成多行，對結果進行透視表統計，最後整理成交叉列聯表。結果如下表所示：

從上面的表格中，我們可以看到，寶馬、捷豹、凱迪拉克和路虎這4個汽車品牌的主要購車目的是“上下班”，用於上下班通勤，而奔馳的主要購車目的集中在“泡妞”上，購車目的不單純……

然而，上面的表格並沒有完全挖掘出多元關聯數據中的價值，此時該對應分析（Correspondence Analysis）出馬了！

對應分析（Correspondence Analysis）也稱關聯分析、R-Q型因子分析，是近年新發展起來的一種多元相依變量統計分析技術，通過分析由定性變量構成的交互彙總表（也就是上表）來揭示變量間的聯繫，它可以揭示同一變量的各個類別之間的差異，以及不同變量各個類別之間的對應關係，是一種強有力的數據可視化技術。
對應分析主要應用在市場細分、產品定位、地質研究以及計算機工程等領域中。原因在於，它是一種視覺化的數據分析方法，它能夠將幾組看不出任何聯繫的數據，通過視覺上可以接受的定位圖展現出來。
對應分析的基本思想是將一個列聯表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。
它最大特點是能把眾多的樣例（這裡是汽車品牌）和眾多的變量（這裡是購車目的）同時作到同一張圖解上，將樣例的大類及其屬性在圖上直觀而又簡潔地表示出來，具有直觀性。另外，它還省去了因子選擇和因子軸旋轉等複雜的數學運算及中間過程，可以從因子載荷圖上對樣例進行直觀的分類，而且能夠指示分類的主要參數（主因子）以及分類的依據，是一種直觀、簡單、方便的多元統計方法。

得到對應分析二維座標圖以後，要想作出正確的解讀，還需要使用點“小手段”：

從座標軸中心向任意汽車品牌連線（具有方向，是一條射線），指向汽車品牌的方向為正向，然後將所有的使用場景往這條連線及其正反延長線作垂線，（使用場景的）垂點越靠近該連線及其延長線的正向方向，就代表該使用場景對於該汽車品牌而言更常見。

轉換後的可視化結果更能發現一些有趣的事實：

捷豹、凱迪拉克和寶馬從使用場景（購車目的為購物、上下班、商務接送、接送小孩等）上來說，幾乎是重疊的，彼此是競爭對手；
奔馳最突出的使用場景還是泡妞（射線正向上離得最近），其他使用場景並不突出（在射線負向上）；
路虎的越野特性還是最突出的，跑長途和自駕遊的特性也較突出。

由分析的結果可知，凱迪拉克的使用場景比較泛，當然原因也有可能在於筆者分析的是品牌而不是具體的車系和車型，分析的粒度較粗，筆者將會在文末聊到這一點。

2.5 瞭解消費者關注的典型話題

這裡，筆者將凱迪拉克口碑數據的兩個字段 — Car_defect（車輛缺陷）、Car_merit（車輛優點）整合到一起，對評論內容進行一個“鳥瞰式”的分析，迅速識別出汽車消費者較為關注的話題。

此處的分析基於HDBSCAN（Hierarchical Density-Based Spatial Clustering of Applications with Noise）實現。相較於K-means、Spectral clustering、Agglomerative clustering、DBSCAN等傳統聚類算法，筆者特別欣賞它的3大特性：

不需要設定聚類數，有算法自動算出來簇群數
可以較好的處理數據中的噪音
可以找到基於不同密度的簇（與DBSCAN不同），並且對參數的選擇更加魯棒（Robust，模型更加健壯）

基於自動聚類形成的關鍵詞詞雲，能自然的反映評論數據中的潛在結構和語義特徵，由此能準確且清晰的知曉消費者對於汽車及其功能、器件的關注側重點。

對於生成的可視化結果，可以這樣解讀：

字體大小表示詞彙的權重值大小，注意，這裡的權重非詞頻數，而是TF-IDF值，更能表示該詞彙在評論中的重要性
顏色代表不同的話題
詞彙之間距離越近，說明它們在同一語境中出現的頻率較高，越具有語義相關性，比如“胎噪”、“輪胎”、“啃胎”、“噪音”、“隔音”等詞彙捱得很近，我們能迅速聯想到是胎噪導致噪音或者隔音效果差，而不是汽車發動機或者車廂內組件老化產生的摩擦聲引起的。

下圖是自動聚類出來的結果，自動聚為12個主題：

上圖中，較為突出的是11個主題，按其重要性程度（字體大小、主題詞數）選出TOP5，根據其中的關鍵詞可以推測消費者的熱門討論內容，依次是：

外觀：汽車的整體設計，主要是外形，買車的消費者大都是“顏控”
空間：後排空間、儲物空間和後排座椅是大家比較關注的方面，另外，一家人出行的時候，空間問題就容易突顯
動力：發動機、汽車起步（油門、起步）、提速/加速問題是動力這一主題下消費者較為關心的方面
配置：汽車配置這塊，消費者對導航系統和內部的顯示屏較為關心
內飾：內飾這塊，消費者反映較多的是材質的塑料感

由於筆者不是汽車行業的從業人員，平時也不開車，所以對該領域的關鍵詞不太敏感。不過，如果是這方面的從業者，根據詞彙之間的關聯性（距離遠近），會有可能從總體上發現一些業務相關問題。

2.6 從“車輛缺陷”中識別凱迪拉克的重要產品缺陷

剛才的關鍵詞雲是一個“鳥瞰式”的分析，可以在較短的時間內抓住海量評論的重點。但是，如果我們想要進一步瞭解消費者對於凱迪拉克的哪些缺點比較關注，也就是挖掘消費者關於凱迪拉克的產品缺陷的典型意見，這就涉及到分析Car_defect(車輛缺陷)這個字段了。

這裡，筆者想找到凱迪拉克的12,900條負面評價中最具代表性的差評，思路如下：

1）抽取語句中的主觀性信息（形容詞、副詞、習語，反映消費者的評價），和客體信息（名詞，主要是汽車各器件、功能、使用場景等，排除掉人名、地名、時間等實體）。

2）對每條評論中代表主觀性信息和客體信息的詞彙的TF-IDF值進行累加，得到每個評論語句的重要性得分。

3）對這些評論進行聚類，最終形成了10個規模較大的簇群，數量較少的被當做噪音處理，儘管它們具有一定的長尾價值。

4）在每個簇群中，找出重要性得分最高的語句，且詞彙數限定在100個以內，字數太多，觀點不明確，重點不突出，對於後續瀏覽者的影響力也有限。

以下是按照上述思路挖掘出的TOP10典型意見，代表了購買凱迪拉克的用戶對於凱迪拉克車輛缺陷中的10個方面較為不滿：

30多萬的車標配的鹵素大燈，沒有前後雷達讓人有點無語
提速沒有傳說快！倒車後視鏡顯示太模糊！A柱有點擋視線！
儲物空間明顯不夠用比起我家之前的小6子少太多，特別是手機完全不知道怎麼搞
基本沒有，硬要找的話可能是有時會有點異響
6AT確實老了點，算是夠用吧。
最不中意的就是排擋杆，巨醜
暫時沒有，再就是新車油耗有點高。漆有點薄，準備去做鍍晶。
這個也不算是不滿意吧，因為後輪驅動的原因，中間的隆起實在是有點影響乘坐，後備箱也因為這樣子不是很大平時東西多的時候都要放在後座。
底盤確實硬一點，舒適度差了一點~
感覺這個車的音響效果並不如想象中的好。

上面這些典型缺陷可以作為汽車廠商接下來產品改進的重要考量。

對於“30多萬的車標配的鹵素大燈，沒有前後雷達讓人有點無語”這個典型觀點，利用基於LSI的相似語句檢索，可以看到最相關的若干信息，看看在這個話題下，用戶具體的槽點和痛點是哪些：

2.7 從“購車原因”評論中挖掘凱迪拉克的優劣點

“購車原因”跟之前的“購車目的”還不一樣，後者說的是消費者買車的使用場景，買車用來幹嘛；而“購車原因”指的是汽車品牌的某些方面（比如外觀、動力、油耗等）對消費者有強大吸引力，從而促成下一步的購車行為。對於本部分分析，筆者用到的是口碑數據中的Bought_reason（購買原因）字段，它一般出現在口碑評論的最後一部分，如下圖所示：

值得注意的是，該部分的分析要比之前的購車目的分析困難不少，原因在於：

該部分僅有評論，沒有結構化或半結構化的標籤，不便於統計分析；
如果需要給評論打標籤的話，促使消費者買單的原因往往不只一個，比如消費者買車可能是因為汽車的油耗低、動力強勁及性價比低，這就是一個多標籤分類問題了。

具體情形，如下圖所示：

鑑於此種情況，筆者採用基於機器學習的文本多標籤分類（Multi-Label Classification）模型。要提高本模型的預測效果，除了要做好文本預處理，同時也要在模型的構建中充分考慮標籤之間的關聯性，採用融合模型，再用GridSearchCV找到最優參數，如此才有可能獲得較好的預測效果。

用於訓練模型的評論有7,000條，用於測試模型效果的評論有3,489條，模型的評估結果如下圖所示：

將預測的結果保存到csv中：

注意，上述結果中，有些評論不在已有的標籤範圍內，比如“沒辦法，買奔馳就是為了裝X，泡妹子，購車愉悅指數120！”，對於這種情況，返回的是空值。如果要得到更為精確的結果，就需要人工標註大量數據，再次訓練分類模型，這就是另一個問題了，不在本文的討論範圍之內。

跟之前分析“購車目的”的方法一致，先構建交叉列聯表，然後再繪製對應分析圖，結果如下：

從上圖的垂點距離射線“座標軸中心—>凱迪拉克”正向方向的遠近可以看到，消費者購買凱迪拉克的主要原因在於它的價格優勢，也就是性價比高，其次是動力和配置，這些都可以看做是凱迪拉克在市場上的優勢。由於“座標軸中心—>路虎”這條射線和“座標軸中心—>凱迪拉克”射線的夾角最小，所以它們的優勢趨同。同時，在射線“座標軸中心—>凱迪拉克”負向方向的末端，可以看到操控是購買誘因中最弱的一項，由此可知，與其它4個競品相比，凱迪拉克的操控性能還有待提高。

“操控性”即汽車的操縱與控制性能。我們在駕駛汽車時的操控行為無非是加速、制動、轉向。如果要看到消費者關於操控性能的具體“槽點”在哪裡，可以針對Maneuverability_Feeling (操控性感受)這個字段進行典型差評查找，好奇心又驅使筆者去查了一波：

這車的操控不好與同價位的轎車相比，另外原來要買鉻灰米內，廠家不排產米內，浪費我一個月，比較生氣， 0.942013
太大了，轉向不太靈敏，對於我這種手法不好的人不太友好, 0.6233139
懸掛太硬，過沉降路段體驗不好，甚至於驚險, 0.511822
才提車買發現太多缺點，有一點就是它比我以前開的鋒範大太多了，停車有時候不好停，上次還因為車身太大，被擦過一次保險槓，以後過了首保再來說說吧，0.34865487

2.8 從“購車原因”中挖掘出重要的購車影響因素

在這部分分析中，筆者將所有文本類字段進行合併，做進一步文本挖掘，看看具體是哪些因素誘發消費者購買凱迪拉克的。筆者的做法是，從每條語句中抽取TF-IDF最高的TOP15關鍵詞，主要是汽車實體詞（描述汽車零部件、特性、配置相關的詞彙）、功能或者評價詞。

從上圖可以看到，外觀、座椅、儲物空間、發動機、方向盤、後備箱是凱迪拉克購車者較為關注的方面，至於是好的評價還是差的評價，現在還未可知。這些關鍵詞節點的“Betweenness Centrality （中介性核心性）”較高，該詞學術的解釋是“兩個非鄰接的成員間的相互作用依賴於網絡中的其他成員，特別是位於兩成員之間路徑上的那些成員，它們對這兩個非鄰接成員的相互作用具有某種控制和制約作用“，在評論中經常與其它汽車器件共同出現，說明這些器件是購車者較為關注的方面。如果想看到消費者關於這些器件的具體看法，可以採用上述LSI檢索相關的語句，筆者在這裡就不做贅述。

2.9 基於微博數據的消費者興趣挖掘

瞭解消費者的興趣愛好對於打造品牌調性、營銷內容創作及投放渠道選擇都有幫助，是產品市場調研和競品分析中的重要事項。

這裡，筆者先挖掘出汽車品牌對於人群的興趣圖譜，然後結合使用與滿足理論(Uses and Gratifications)對結果進行解讀，為內容創作和媒體投放方面提供方向。

對於消費者的興趣愛好的挖掘，筆者會用到新浪微博的消費者個性標籤數據。該部分數據基於關鍵詞命中，也就是說，採集到的標籤數據僅針對提及目標汽車品牌的微博用戶。

在這裡，筆者採用的標籤數據涉及到5個品牌，即凱迪拉克、寶馬、奔馳、路虎和捷豹，時間跨度為近一個月。

數據預處理方式跟前面的一致，最終得到如下對應圖譜：

比照之前對應分析圖譜的分析方法，我們可以得到與各個汽車品牌典型且最為接近的微博消費者興趣標籤：

凱迪拉克：星座命理、汽車、美甲、韓劇、內地綜藝等
寶馬：心靈雞湯、歌手、娛樂明星、搞笑段子、人生感悟等
奔馳：美女帥哥、網絡模特、模特、重口味、網紅草根等
路虎：投資、汽車資訊、歌手、旅遊出行、A股、軍事等
捷豹：體育、美女帥哥、電子競技、日韓明星、模特等

可以看到，這幾個汽車品牌的關注人群的興趣大體上都呈現娛樂化的特點，影視、明星方面的興趣較多，這也與微博娛樂化的平臺特性有關。

挖掘出汽車品牌所對應人群的興趣愛好以後，可以採用使用與滿足理論(Uses and Gratifications)對結果進行深度解讀和應用。

使用與滿足理論是一種以受眾為中心的理論，側重於對大眾傳播的理解。雖然其理論框架來自傳統媒體，並遠遠早於互聯網和社會化媒體，但其理論假設使其完全適用於互聯網和社會化媒體研究。該理論假設可以概括為：

在選擇媒體和內容時，受眾是積極的參與者，會根據個人目標選擇媒體和閱讀傾向；
媒體渠道彼此之間競爭，還與其他資源競爭，以獲得受眾的關注；
人們在選擇媒體和內容時，是主動、自我清醒且受動機驅動的，這使得他們能夠清楚的表達選擇媒體的原因。

基於這些假設，該理論認為受眾會積極的尋求滿足，而滿足的類型將推動他們對社會化媒體及內容的選擇，因而媒體選擇是目標導向和實用驅動的，也就是受眾的需求要被所選擇的社會化媒體滿足。滿足類型背後往往潛藏著更為個性化的內在需求，E·卡茨、M·格里維奇和H·赫斯將其歸納為5個大類：

1. 認知需求——獲得信息、知識和理解，如上知乎提問或者瀏覽感興趣的話題、母嬰論壇找育兒知識等；
2. 情感需求——情緒的、愉悅的或美感體驗，如快手、抖音上看美女直播；
3. 個人整合需求——加強信心，穩固身份地位，如通過加入線上圈子，觀察同類的言行，並通過這種方式獲得身份認同；
4. 社會整合需求——如利用即時通訊軟件與熟人或生人進行交流，發展或維護人際關係；
5. 舒解壓力需求——逃避或轉移注意力，主要是娛樂活動，包括各種網遊和對戰遊戲。

利用使用與滿足理論對上述各汽車品牌的興趣標籤結果進行分析，大體上可以得出如下結果：

凱迪拉克：舒解壓力需求
寶馬：舒解壓力需求、情感需求
奔馳：情感需求
路虎：個人整合需求
捷豹：舒解壓力需求、情感需求

上述結果反映了各汽車品牌用戶在媒體選擇時的內在需求，在內容製作和媒體選擇時可以作為參考。比如，凱迪拉克可以選擇舒解壓力需求的內容頻道或者社會化媒體（比如即刻、一條等，舉個例子，不是打廣告哦），內容製作上可採用遊記類主題，音樂可以採用舒緩的輕音樂，圖片風格則是小清新…

當然，上述興趣標籤還可以有另一種用途 —利用Censydiam消費動機模型挖掘汽車品牌消費者進行消費時的情感驅動因素。詳情可參看筆者之前的文章《當數據分析遭遇心理動力學：用戶深層次的情感需求浮出水面（萬字長文，附實例分析）》。

此外，從競品分析的角度，對應分析圖還可以作如下解讀：

向量的夾角大小：

從向量夾角的角度看不同品牌之間的相似情況。上圖中任意兩個汽車品牌向量之間的夾角越小，代表這兩個汽車品牌的消費者興趣愛好相近，實際上反推出品牌調性的趨同。這裡可以看到，奔馳和捷豹的在微博上的關注人群的興趣愛好趨同，由此反推出品牌調性較為接近。凱迪拉克和其他4個汽車品牌之間的品牌調性差異較大，個性較鮮明。

距離座標軸的遠近：

從統計學上來看，品牌越靠近座標軸中心，越沒有特徵；越遠離座標軸中心，說明特徵越明顯。

從品牌角度來考慮，說明越遠離中心的汽車品牌，消費者越是容易識別，說明品牌特徵（特點、特色）很明顯；越靠近中心的品牌，消費者越是不容易識別，要說明品牌定位有問題，沒有顯著的特徵可以識別，差異化還不夠。從這一點來看，凱迪拉克和捷豹的品牌個性較為鮮明，奔馳的品牌定位最為模糊。

瞭解了品牌在潛在消費者心中的品牌形象以後，如果發現跟預期接近，繼續加強這方面的投入即可，如果發現偏離預期，就需要及時調整思路了，在社會化媒體平臺上發佈能反映品牌調性的內容，引發關注人群的互動，長此以往，可以對塑造特定的品牌印象起到一定幫助。

2.10 基於評論內容的品牌調性挖掘

現今這個消費時代，消費者的消費模式逐步從實用主義消費過渡到象徵性消費，從僅注重產品的功能和質量，轉變為更注重品牌與自身品位、氣質的契合度，從這個方面來講，品牌越來越成為消費者的自我延伸。

與此同時，與早期產品和品牌宣傳事實信息、功能化描述及產品訴求不同，強調品牌調性的情感式營銷聚焦於產品、服務和品牌的“人格化”因素，展現品牌的“人性化特徵”逐漸成為社會化媒體語境下強化傳播和建立關係的主要手段，更為人性化的積極互動在社交媒體體驗中的重要性越來越突出。

如果品牌與追隨它的消費者保持持續的“人性化交流”，那麼，相對於硬性推銷方式，這種注重消費者關係維護的營銷方式更能打動消費者，同時也能夠鼓勵消費者積極參與並長期追隨。

為營造消費者與品牌之間積極互動的條件，品牌必須不斷採用“擬人化”的方式來進行營銷傳播，使品牌具有人的性格和氣質，這就涉及到“品牌調性”的話題了。

比較常規的做法是，品牌會用“擬人化”的方式在社會化媒體上去宣揚產品和服務的獨特品質，這種方式可能是活潑的，也可能是清新的，抑或是高貴的…總之，品牌會著力打造一個屬於自己的品牌個性和風格，從而與消費者在情感上產生聯結，催生出大量擁簇。

然而，品牌所創造的品牌調性是通過各類媒介及內容呈現的，其中的重要信息隨著表現的形式或者傳播層級的遞增而消減，最終反饋到消費者腦海中的可能是另一番景象，可能會產生一定的品牌個性認知偏差。因此，品牌運營者需要經常性的進行消費者品牌調性印象調研，及時瞭解消費者對於品牌個性的認知情況，視理解偏差的程度進行調整或優化。

在本文中，為了測量消費者對於凱迪拉克的品牌調性的實際認知情況，筆者採用千家品牌實驗室改良過的品牌個性模型。千家品牌實驗室向忠宏近六年來對20個行業領域1000多個品牌的持續監測與品牌個性的分析，提取出一些中國本土化的品牌個性詞彙，這些新增的品牌個性語彙對應的品牌人格通過合併到三個品牌層面，最終也併入了Aaker提出的品牌個性的五個維度中。

下面是筆者進行品牌個性挖掘的實際步驟：

1）將凱迪拉克口碑數據中的所有文本類數據（外觀感受、舒適性感受、性價比感受、操控性感受、內飾感受、動力感受、油耗感受、空間感受、車輛缺陷、車輛優點、評論總結、購買原因等）進行合併；

2）經過自然語義分析，即“實體/屬性—情感詞”抽取分析，得到7035個“物件詞+情感詞”組合：

3）去除掉功能性的形容詞，保留跟品牌調性相關的情感詞。剔除掉描述汽車器件及功能的形容詞，如“漆面+不薄”、“起步+很肉”、“氣味+難散”、“真皮+柔軟”等，其中的觀點詞/形容詞對於描述品牌個性意義不大，而要保留擬人化的觀點詞，如“腰線”+“剛勁”中的剛勁，“體型+嬌”中的“嬌”；

4）根據品牌個性維度語彙庫，對保留下來的品牌調性形容詞進行歸類統計。結果如下所示：

從最終結果可以看到，凱迪拉克的品牌調性偏於教養，主要在於高貴、精緻、迷人的氣質；其次是其“刺激”的一面，主要在於其活潑的個性。

我們不妨從百度百科上的凱迪拉克品牌史概略來看待這個結果：

“一百多年來，凱迪拉克汽車在行業車內創造了無數個第一，締造了無數個豪華車的行業標準；可以說凱迪拉克的歷史代表了美國豪華車的歷史。在韋伯斯特大詞典中，凱迪拉克被定義為“同類中最為出色、最具聲望事物”的同義詞；被一向以追求極致尊貴著稱的倫敦皇家汽車俱樂部冠以“世界標準”的美譽。凱迪拉克融匯了百年曆史精華和一代代設計師的智慧才智，成為汽車工業的領導性品牌。
一款美國汽車可以很狂野，也可以很豪華，但是如果想要很尊貴就比較難了。不過卡迪拉克就是一個例外，他的創始人為了紀念底特律的奠基者、法國貴族安東尼凱迪拉克，就將其家族的徽章作為了車標。現在的卡迪拉克車標已經有了很大的變化，比如少了象徵著三聖靈的黑色小鳥和鑲嵌著珍珠的王冠，只是由桂冠環繞著經典的盾牌形狀，而盾牌形狀則由各種顏色的小色塊組成，其中紅色代表勇氣，銀色代表純潔的愛，藍色代表探索。”

如此看來，挖掘的結果較能反映事實情況，與品牌發展歷程相符。

結合使用與滿足理論和品牌調性分析，可以對於內容的規劃、製作，以及渠道的投放提供參考，輔助決策。比如，分析汽車品牌跟網紅的調性以及粉絲群體是否契合，找到合適的品牌代言人。

最後再來一個稍微扯淡點的分析，讓思路再飛一會兒~

2.11 基於語義相關性搜索的品牌形象聯想

接著前面的分析，假如我們想著力打造上述品牌個性中的某個方面，比如凱迪拉克想突出“現代”的調性，那我們該如何去操作呢？

首先，我們得有思路：結合品牌所附著的產品特性和策劃者的意願，找到通向目標品牌調性的那條“認知鏈條”，即說服消費者接受品牌個性的內容要符合消費者的認知規律，符合邏輯。

在這裡，筆者利用基於預訓練詞向量模型的語義相關性搜索，從154,800(12個文本數據字段*12900條凱迪拉克相關的口碑評論 )條汽車評論中挖掘出品牌和目的品牌調性之間的最短認知關聯路徑，用科學的方法發掘出構建品牌調性認知路徑的線索。

這樣說起來太抽象，筆者舉一個實際例子來說明吧，比如我們想找到’原始森林’到’凱迪拉克’的認知路徑，基於中文維基百科這個語境，結果如下：

print (morph(‘原始森林’, ‘凱迪拉克’))
原始森林–>自然保護區–>野生動物–>野生–>馬鹿–>棕熊–>野性–>野馬–>克萊斯勒–>凱迪拉克

從上面的結果可以看出，如果偏要將原始森林和凱迪拉克建立關聯，最合理（同時也是最短）的路徑就是中間這塊【自然保護區–>野生動物–>野生–>馬鹿–>棕熊–>野性–>野馬–>克萊斯勒】。

上述是基於維基百科的語境得出的結果，接下來是基於154,800條汽車評論數據，做3個跟品牌調性聯想路徑挖掘。

print (word_morph(‘凱迪拉克’, ‘活潑’))
凱迪拉克–>XT5–>XTS–>凱迪–>承襲–>無餘–>展露–>中正–>素雅–>雅緻–>高雅–>活潑
print (word_morph(‘凱迪拉克’, ‘精緻’))
凱迪拉克–>漢蘭達–>中級轎車–>最出色–>百裡挑一–>出眾–>精密–>精美–>精緻
print (word_morph(‘凱迪拉克’, ‘迷人’))
凱迪拉克–>獨樹一幟–>標新立異–>前衛–>曼恩–>稜角分明–>線條美–>妖嬈–>銷魂–>迷人

上面的標記顏色的詞彙是比較有意義的“線索”，可以以此展開聯想，發揮創意，進行內容創作。

結語

筆者在進行社會化媒體數據挖掘的實操中，有如下2點思考：

1. 分析粒度的問題

在本文中，筆者是從品牌的角度進行分析，粒度還是粗了些，因為不同的品牌會針對不同的受眾開發不同的車系/車型，混雜在一起分析出來的結果會比較混雜，尤其是品牌定位這塊會不精確。

理想的做法應該針對具體的series_name（2017款28T時尚型、2017款28T技術型、2018款28E四驅技術型、2018款28E四驅鉑金版），或是spec_name（2017款 28T 時尚型、2017款 28T 技術型、2018款 28E 四驅技術型、2018款 28E 四驅鉑金版），這樣去做分析，指向性更強一些，結論更加鮮明。

2. 水軍或虛假信息的問題

筆者之前在網上檢索汽車之家的相關訊息時，發現一些讀者戲稱其為“水軍之家”、“軟文之家”，部分讀者覺得上面的信息“人工鑿痕”較明顯，各大廠商為了宣傳自己的新車無所不用其極。

殭屍橫行，水軍氾濫，作假成風，在這種情況下，社交媒體數據挖掘還有意義嗎？

在筆者看來，是有的。

2018年10月份，麻省理工學院的Zakaria el Hjouji, D. Scott Hunter等學者發表了《The Impact of Bots on Opinions in Social Networks》，該研究通過分析 Twitter 上的機器人在輿論事件中的表現，證實了社交網絡機器人可以對社交網絡輿論產生很大的影響，不到消費者總數1%的活躍機器人，就可能左右整個輿論風向。

麻省理工學院研究組的這項工作，最大的發現是，影響社交網絡輿論所需要的機器人，其實是很少的。少數活躍的機器人，可以對網絡輿論產生重大影響。

雖然社交媒體機器人不會帶來物理威脅，但它們卻可能有力影響到網絡輿論。在微博裡，各類水軍已經經常出現在營銷造勢、危機公關中。雖然你能一眼識別出誰是水軍，但仍然可能不知不覺地被他們影響。

這些機器人看似殭屍，發起聲來，比人類響亮得多，可能只要幾十個幾百個就足夠扭轉輿論！

所以，從社會化媒體數據挖掘的角度來看，信息的真實性並不重要，只要文章、帖子或者評論能影響到瀏覽者或受眾，具有一定的（潛在）影響力，這類社媒數據數據就值得去挖掘。

更進一步說，跟銷售數據反映消費者決策價值、搜索數據反映消費者意圖價值相比，雖然社會化媒體文本數據的價值密度最低，好比是蘊藏金子和硅、卻提煉極為困難的沙子，但由於它在互聯網領域的分佈極為廣泛，且蘊含著對客觀世界的細節描述和主觀世界的宣洩（情緒、動機、心理等），其最大價值在於潛移默化地操控人的思想和行為的影響力，通過社會化媒體挖掘，我們可以得到對目標受眾具有（潛在）影響力的商業情報。淘沙得金，排沙簡金，最終得到的分析結果用以預判受眾的思考和行為，為我們的生產實踐服務。

此時，先賢Marcus Aurelius在《沉思錄》中那句名言在耳畔響起，彷彿他在2000多年前就已經預言到我們所面臨的困境：

Everything we hear is just an opinion, not the fact；Everything we see is just a perspective, not the truth.
我們所聽到的一切，只是人們的主觀意見，並非客觀事實；我們所看見的一切，只是事物的冰山一角，並非本來真相。

參考資料：

數據來源：汽車之家口碑頻道，2016.05-2018.12 ；新浪微博，2019.04 – 2019.05
數據處理和分析工具：Excel、Gephi、Python
蘇格蘭折耳喵，《數據運營|數據分析中，文本分析遠比數值型分析重要！（上）》
蘇格蘭折耳喵，《在運營中，為什麼文本分析遠比數值型分析重要？一個實際案例，五點分析（下）》
蘇格蘭折耳喵，《乾貨｜如何利用Social Listening從社會化媒體中“提煉”有價值的信息？》
蘇格蘭折耳喵，《乾貨｜作為一個合格的“增長黑客”，你還得重視外部數據的分析！》
蘇格蘭折耳喵，《以《大秦帝國之崛起》為例，來談大數據輿情分析和文本挖掘》
蘇格蘭折耳喵，《當數據分析遭遇心理動力學：用戶深層次的情感需求浮出水面（萬字長文，附實例分析）》
蘇格蘭折耳喵，《文本挖掘從小白到精通（三）—主題模型和文本數據轉換》
蘇格蘭折耳喵，《文本挖掘從小白到精通（四）—文本相似度檢索》
TZ橘子，簡書，《如何進行品牌形象定位分析？》
集智俱樂部，虎嗅，《MIT研究組：別瞧不起殭屍粉，它們真能左右輿論》，
Zakaria el Hjouji, D. Scott Hunter, Nicolas Guenon des Mesnards, Tauhid Zaman，《The Impact of Bots on Opinions in Social Networks》
Hiroshi Ishikawa 著，郎為民譯，《社交大數據挖掘》
百度百科詞條.對應分析.https://baike.baidu.com/item/%E5%AF%B9%E5%BA%94%E5%88%86%E6%9E%90/9170336?fr=aladdin
百度百科詞條.凱迪拉克標誌.https://baike.baidu.com/item/%E5%87%AF%E8%BF%AA%E6%8B%89%E5%85%8B%E6%A0%87%E5%BF%97/12650790?fr=aladdin
百度百科詞條.品牌個性.https://baike.baidu.com/item/%E5%93%81%E7%89%8C%E4%B8%AA%E6%80%A7/3718084?fr=aladdin
百度百科詞條.垂直網站.https://baike.baidu.com/item/%E5%9E%82%E7%9B%B4%E7%BD%91%E7%AB%99/8922876?fr=aladdin
使用與滿足理論.MBA智庫百科，https://wiki.mbalib.com/wiki/%E4%BD%BF%E7%94%A8%E4%B8%8E%E6%BB%A1%E8%B6%B3%E7%90%86%E8%AE%BA
黃善晴，微信公眾號【騰訊大講堂】，垂直社區產品：如何把相類似的用戶都聚集起來？
傅瑞棟，站長之家，《移動互聯網：論壇已死，社區新生》