如何捕捉冗長討論裡的目標信息？谷歌推出最大標註數據集

Google 信息檢索 Reddit 機器學習雷鋒網 2017-05-19

雷鋒網AI科技評論按：信息爆炸時代，如何在浩瀚如海的網絡中找到自己的需求？谷歌研究團隊推出了 Coarse Discourse 數據集，可以將一段文字中“廢話”剔除，精準識別用戶所需要的目標信息。作為一名雷鋒網編輯，信息蒐集和分類是日常工作中極為耗時的一件事。谷歌推出的新方法能否解決這一問題？

每一天，社區中的活躍者都在發送和分享他們的意見，經驗，建議以及來社交，其中大部分是自由表達，沒有太多的約束。這些網上討論的往往是許多重要的主題下的關鍵信息資源，如養育，健身，旅遊等等。不過，這些討論中往往還夾雜著亂七八糟的分歧，幽默，爭論和鋪墊，要求讀者在尋找他們要的信息之前先過濾內容。信息檢索領域正在積極探索可以讓用戶能夠更有效地找到，瀏覽內容的方式，在論壇討論缺乏共享的數據集可以幫助更好地理解這些討論。

在這個空間中為了幫助研究人員，谷歌發佈了 Coarse Discourse dataset，是最大的有註釋的數據集。 Coarse Discourse dataset包含超過10萬條人可在線討論的公開註解，這些是從reddit.com網站中的130個社區，超過9000個主題中隨機抽取的。

為了創建這個數據集，我們通過一小部分的論壇線程開發了論壇註解的話語分類系統。通俗的說就是閱讀每一個評論，並判斷評論在討論中扮演什麼角色。我們用眾包的人工編輯再重複和修正這種練習來驗證話語類型分類的重現性，包括：公告，問題，答案，協議，分歧，闡述和幽默。從這個數據，超過10萬條的評論由眾包編輯單獨註釋其話語類型和關係。連同眾包編輯的原註釋，我們還提供標註任務指南，供編輯們使用幫助他們從其他論壇收集數據和對任務進一步細化。

圖中為用話語類型和關係來註釋的示例線程。早期的研究結果表明，問和答模式在大多數社區是一個突出的運用，有的社區會話更集中，來回的相互作用。

論文摘要

在這項工作中，我們提出了一種新的方法將在線討論中的評論分類成一些粗糙語料，是為了在一定規模上更好理解討論這個目標的實現。為了促進這項研究，我們設計了一個粗糙語料的分類，旨在圍繞一般在線討論，並允許工作人員簡單註釋。使用我們的語料庫，我們演示瞭如何分析話語行為，可以描述不同類型的討論，包括話語序列，如問答配對，分歧鏈，以及不同的社區中的表現。

最後，我們進行實驗，使用我們的語料庫預測話語行為，發現結構化預測模型，如在條件隨機場合下可以實現F1得分75%。我們還演示瞭如何擴大話語行為，從單一的問和答到更豐富的類別。可以提高Q&A抽取的召回性能。

實驗結論

使用了一種新的話語行為的分類，我們推出一個從Reddit上數千個社區採樣，最大的人工標註的數據集的討論，在每個線程上的每個評論根據話語行為和關係註釋。從我們的數據集，我們觀察到常見的話語序列模式，包括問答和參數，並使用這些信號來表徵社區。最後，我們用結構化CRF模型進行了分類的話語行為實驗，實現了75% F1得分。此外，我們演示瞭如何使用我們的9個話語行為在只標籤了問題和答案的模型，整體提高Q&A抽取的召回性能。

對於機器學習和自然語言處理的研究人員試圖描述在線討論的性質，我們希望這個數據集是一個有用的資源。可以訪問我們的GitHub庫下載數據。更多細節，請查看論文 ICWSM，“Characterizing Online Discussion Using Coarse Discourse Sequences.”

via Google；雷鋒網整理編譯

相關推薦

'谷歌推出免費3D遊戲生成器，不會編程也能輕鬆玩'

"如何能讓創建一款遊戲就像玩遊戲一樣輕鬆呢？這是谷歌最近一直在思考的問題。前段時間，谷歌在一篇博客中表示，使用谷歌推出的原型遊戲生成器Game Builder，即使用戶沒有編程知識，也能通過它來創建屬於自己的3D遊戲。Game Builder號稱“讓任何人都能創建3D遊戲”...

Google 程序員 Mac電腦我的世界 Windows 可視化技術 Steam 軟件小遊戲 Qwodeshijie 2019-09-09

'谷歌廣告推出季節性廣告調整功能，現可用於搜索廣告、展示廣告系列'

"在促銷期間，谷歌的出價算法可以讓你更好地瞭解短期廣告轉換率變化。今年5月谷歌在Google Marketing Live上演示的季節性調整功能，現在可用於搜索和展示廣告系列。為什麼要用谷歌廣告季節性調整功能？谷歌的tCPA和tROAS智能競標策略考慮到了大規模的季節性變化...

Google 算法機器學習高峰 2019-09-08

'谷歌旗下Waymo開源部分自動駕駛數據集'

"谷歌母公司 Alphabet 旗下自動駕駛公司 Waymo 21 日對外宣佈，將對外開放部分其自動駕駛相關數據。Waymo 表示，這些開源的數據集包含 1000 段自動駕駛路徑，每一段包含 20 秒的不間斷自動駕駛視頻，這 20 秒視頻中由 Waymo 的傳感器採集的包含...

無人駕駛 Google 雷達加利福尼亞交通人生第一份工作 Uber 2019-08-31

'谷歌搜索算法更新：對播客內容推出垂直推薦功能'

"最近谷歌搜索又有了更新，這次更新的主要內容是對播客內容進行一種垂直推薦的的功能，主要為了幫助那些經常通過搜索來收聽播客的用戶更快捷的找到相關內容。並且以劇集形式來展現結果，相當於推出了一種垂直搜索展現的搜索功能，對用戶搜索博客內容有很大的幫助。據磊哥瞭解，所謂的播客其實就...

播客 Google 算法搜索引擎技術新聞網絡爬蟲 2019-08-12

'谷歌近期推出谷歌購物已上線！將直接與亞馬遜、ebay產生競爭'

"新的Google購物主頁現在擁有2000家商店，試圖將公司的購物工作統一為一體。谷歌已將市場轉型的谷歌快車合併為谷歌購物，這項服務過去常常專注於價格比較。該公司已於5月首次宣佈這些變化，現在已經在美國用戶上線。以Google購買是重點。Google購物目錄包括附近商店，在...

Google eBay 亞馬遜公司比較購物百思買沃爾瑪 YouTube 人生第一份工作 2019-08-11

'谷歌推出購物平臺，在電商領域叫板亞馬遜，背後的商業邏輯'

"誰有可能是亞馬遜未來最有威脅的競爭對手呢？有可能是谷歌。谷歌最近在美國新推出了 Google 購物門戶網站。谷歌為什麼進軍電商領域，叫板亞馬遜呢？其實是亞馬遜先在搜索領域動了谷歌的蛋糕。亞馬遜為什麼沒事惹谷歌呢？並非有意為之，而是平臺發展到一定程度的必然。隨著亞馬遜越來越...

Google 亞馬遜公司電子商務百度有啊百度淘寶網技術沃爾瑪搜索引擎 2019-07-31

'谷歌中國搜索項目已取消，支付寶推出新型反欺詐服務'

"關注我，和600萬差友一起玩轉科技~下面是今天的其他大新聞 # Google 已經取消了面向中國的 Project Dragonfly 項目（ solidot ）在美國參議院司法委員會的聽證會上，Google 公共政策副總裁 Karan Bhatia 稱該公司已經取消了...

Google 支付寶 Xeon 谷歌中國英特爾亞馬遜中國亞馬遜搜索引擎 Bing Solidot 2019-07-22

'谷歌推出了全新的Fuchsia OS，這款操作系統目前專注於IoT市場'

"谷歌旗下的Android是全球市場份額最高的智能手機操作系統，由於其開源的特性，這個操作系統成為絕大部分智能手機廠商採用的手機系統，同時由於其可定製化的特色，不少的手機品牌紛紛對其定製。不過谷歌對於Android似乎也有自己的理解，除了一直升級Android版本之外，谷歌...

Google 操作系統智能手機 Android 華為公司 2019-07-17

研發費用超1000億，排名世界第四，谷歌倒逼任正非推出鴻蒙系統

對於研發的投入，華為一向是走在世界的前列。6月27日，華為在其深圳總部召開新聞發佈會時表示，截止2018年底，華為累計獲得授權專利87805項，其中一萬多...

任正非華為公司華為手機 Google 電信蘋果公司操作系統三星集團技術跳槽那些事兒微軟香港小米科技愛立信深圳 Android 無人駕駛物聯網歐洲 2019-07-10

研發費用超1000億，排名世界第四，谷歌倒逼任正非推出鴻蒙系統

任正非華為公司華為手機 Google 電信蘋果公司操作系統三星集團技術跳槽那些事兒微軟香港小米科技愛立信深圳 Android 無人駕駛物聯網歐洲 2019-07-10

谷歌“措手不及”，無論安卓斷供與否，華為鴻蒙都將推出

前段時間大家都很關注華為5G的事件，而華為最終還是迎難而上，很多困難都是迎刃而解了，很諷刺的是，美方還慫恿科技巨頭來斷供華為技術，其中不乏有世界巨頭谷歌、...

華為公司 Android Google 操作系統任正非技術微軟英特爾硬件量子計算理論 OPPO 小米科技 iOS 電腦物聯網 2019-07-08

谷歌造出拉馬努金機：幾毫秒求解數學常數，無需任何先驗信息

馭洋曉查發自凹非寺量子位出品 | 公眾號 QbitAI3.1415926……π和e這樣的基本常數在科學領域中無處不在，但計算它們的高精度近似值往往...

數學 Google 算法電腦機器學習計算複雜性理論 Python 波恩哈德·黎曼萊昂哈德·歐拉 Reddit 以色列 2019-07-08

谷歌或恢復安卓對華為的支持，鴻蒙系統還有推出的必要嗎？

雖然現在華為仍處於美國所謂的“實體名單”中，但業界對特朗普逐步緩和的說法仍普遍抱持樂觀態度。畢竟前幾周，已有美企開始陸續恢復對華為的供貨，而這次總統G20...

Android 操作系統 Google 華為公司 iOS 智能手機軟件 Windows Phone 技術任正非電腦 Windows 百度餘承東物聯網 2019-07-06

比爾·蓋茨：最後悔的事情就是給了谷歌推出安卓的機會

在眾多的商業企業案例裡，當時行業的頭號領先企業，往往會成為未來創新發展的最大障礙，因為新的技術應用會衝擊現有的盈利模式，如果躺著就可以賺錢，那麼又何必要辛...

Android 比爾·蓋茨操作系統微軟 Google 伊士曼柯達公司技術 Windows 智能手機 iOS 托馬斯·愛迪生蘋果公司 Windows Phone 軟件特斯拉汽車 2019-06-29

比爾·蓋茨談最大錯誤：讓谷歌推出安卓系統微軟損失4千億美元

身為世界上第二富有的人，微軟創始人比爾·蓋茨是許多人羨慕崇拜的對象。但對蓋茨而言，曾經犯下的一個錯誤至今卻仍令他無法釋懷。蓋茨近日在參加一場活動時發表演講...

Android Google 微軟比爾·蓋茨 iPhone Windows 華為公司三星集團 iOS 演講 2019-06-28

「鈦晨報」特斯拉推出電子遊戲功能Arcade；Slack以DPO模式掛牌紐交所；谷歌放棄平板電腦業務

圖片來源：視覺中國【鈦媒體綜合】6月20日，一個名叫Tesla Arcade的新遊戲中心，出現在特斯拉的電動車生產線上。下午早些時候，特斯拉將Model ...

特斯拉汽車 Slack Google 平板電腦電子遊戲騰訊電腦人生第一份工作華為公司智能手機伊隆·馬斯克蘋果公司鈦媒體電子遊戲機筆記本電腦 Chrome 視覺中國硬件賽車遊戲卡通百度納斯達克 Spotify 投資廣州汽車集團股份有限公司電動汽車美國證監會輻射李彥宏馬化騰 iPad Android 廣州 2019-06-22

完全不懂代碼也能上手！谷歌推出免費遊戲生成器，快來試試吧

關注我，和600萬差友一起玩轉科技~今天，差評君發現一個竄上 Steam 好評榜的一個 “ 遊戲 ” 。它叫「 Game Builder 」。他表面上看...

Google Steam 我的世界遊戲引擎程序員軟件 2019-06-20

SE欲推出自家訂閱服務松田洋祐：正向微軟和谷歌取經

繼EA和育碧這樣的遊戲大廠推出了自己的訂閱服務後，SE也有推出自己訂閱服務的想法。松田洋祐表示雖然公司暫時沒有具體的計劃，但是他們正在與微軟和谷歌進行合...

微軟 Google Xbox 育碧軟件最終幻想美國藝電公司 2019-06-17

FIFA AI控場：谷歌推出強化學習“足球引擎”完爆人類玩家

【新智元導讀】繼圍棋、Dota和星際爭霸後，AI進軍體育遊戲了！近日，谷歌AI發佈足球遊戲強化學習訓練環境“足球引擎”，智能體經過由易到難的強化學習自我比...

人工智能 Google 足球電子遊戲算法星際爭霸 Dota Dota 2 FIFA 技術電腦體育遊戲設計圍棋 GPU GitHub 歷史雅達利 2019-06-12

FIFA變身AI主場：谷歌推出強化學習“足球引擎”完爆人類玩家

人工智能 Google 足球電子遊戲算法星際爭霸 FIFA 技術 Dota 電腦 Dota 2 體育遊戲設計圍棋 GPU GitHub 歷史雅達利遊戲引擎中央處理器機器人 2019-06-10

推薦中...