R語言數據挖掘實踐——電影推薦系統綜合實例（一）

數據挖掘推薦技術 R語言冒險片數據分析和挖掘數據分析和挖掘 2017-08-29

我們嘗試將判別技術應用於實際，並使用MovieLens所提供的數據集為例展開。

MovieLens是一個推薦系統和虛擬社區網站，它的主要功能是運用協同過濾技術，以及所收集到的用戶對電影的喜好信息，來向用戶推薦電影。

具體來說，MovieLens可根據用戶對一部分電影的評分，預測出該用戶對其他電影的評分情況。當一個新用戶進入MovieLens，他需要對15部電影評分，評分範圍為1~5分，評分間隔為0.5分。這樣一來，當用戶查看某部電影時，MovieLens的推薦系統就可以根據之前獲取的該用戶電影偏好信息，即以往的評分來預測其對該電影的評分。而推薦系統中最古老，同時也是最著名的算法就是K最近鄰（kNN）算法。

kNN與推薦

kNN的一般原理在之前已經說明，這裡為了自然地將此算法應用於推薦系統，我們結合推薦系統的基本思想對kNN原理進行更為具體通俗地闡述。

首先，kNN的基本思想簡單來說就是，要評價一個未知的東西U，就去尋找K個與U相似的已知的東西，看看這些已知的東西大多是屬於什麼水平、什麼程度、什麼類別，據此就可以估計出U的水平、程度、類別。就像我們平常所說的，要看出一個人的性格，就去看他周圍的朋友們都是怎樣的一些人，這與kNN的原理是一個道理。

而運用於推薦系統中，我們以電影為例，假如我們現在想要預測一位註冊名為A的用戶對電影M的評分，根據kNN的思想，我們就可以找出K個與A對其他電影給予相似評分，且對電影M已經進行評分的用戶，然後再用這K個用戶對M的評分來預測A對M的評分。這種找相似用戶的方法被稱之為基於用戶的kNN（User-based kNN）。

另外，我們也可以先找出K個與電影M相似的，並且A評價過的電影，然後再用這K部電影的評分來預測A對M的評分。這種找相似物品的方法叫作基於項目的kNN（Item-based kNN）。

MovieLens數據集說明

這裡給出一個數據集的下載地址：http://download.csdn.net/download/zhongwen7710/8510549，其中共有3個規模等級的數據集可供下載，分別為100k、1M、10M,其結構內容相同，僅樣本量不同。這裡我們選用100k的數據集，它包含1000位用戶對1700部電影的評分信息。我們對其中3個重要的數據文件愛你進行說明。

u.data：含有943位用戶對1682部電影總計10萬條評分，且每位用戶至少記錄了其對20部電影的評分。格式上，每條數據按照永固ID（user id）、電影ID（item id）、評分（rating）以及時間戳（timestamp）4個變量列示，樣本排序是無序的，其中我們將主要用到前三個變量信息。

u.item：記錄每部電影的信息，包括電影ID（item id）、電影名稱（movie title）、上映時間（release date）、視頻發佈時間（video release date）、網絡電影資料庫的網址（IMDb URL），以及是否為某類型電影的一系列二分變量，如是否為動作片（Action）、冒險片（Adventure）、動畫片（Animation）等，這是探究各電影間相似性的重要數據資料。

u.user：記錄每位用戶的基本信息，包括用戶ID（user id）、年齡（age）、性別（gender）、職業（occupation）以及郵編（zip code）。這是探究各用戶間相似性的重要信息來源。

相關推薦

'推薦10部不可錯過的經典系列電影，其中肯定有一部你沒看過'

"1、《加勒比海盜》《加勒比海盜》系列電影是由戈爾·維賓斯基、喬阿吉姆·羅恩尼以及艾斯彭·山德伯格執導，約翰尼·德普、奧蘭多·布魯姆、凱拉·奈特莉等人主演的奇幻冒險電影。系列電影包括《加勒比海盜：黑珍珠號的詛咒》、《加勒比海盜：聚魂棺》、《加勒比海盜：世界的盡頭》、《加勒...

小鬼當家霍比特人指環王終結者2018 小鬼當家3 黑客帝國黑暗騎士蝙蝠俠加勒比海盜教父侏羅紀公園彼得·傑克遜伊恩·麥凱倫蝙蝠俠：開戰時刻侏羅紀公園2 終結者馬丁·弗里曼科波拉冒險片高能小子終極裝備侏羅紀公園3 伊萊賈·伍德史矛革二十世紀福克斯科幻電影動作片小說教父2 華納兄弟奧蘭多·布魯姆木乃伊2 馬里奧·普佐加里·奧德曼摩根·弗里曼強尼·戴普護戒使者教父3 雙塔奇兵匪徒科幻小說克里斯托弗·諾蘭克里斯蒂安·貝爾基努·裡維斯凱拉·奈特莉沃卓斯基兄弟馬里奧不完美媽媽 2019-09-13

'RevoScaleR 中函數rxDTree 擬合決策樹模型（R語言/ MLS)'

"RevoScaleR中的rxDTree函數使用基於二進制的遞歸分區算法來匹配基於樹的模型。得到的模型與推薦的R包rpart生成的模型相似。就像rpart一樣，rxDTree也支持分類樹和迴歸樹；差異由響應變量的性質決定：一個因子響應生成一個分類樹；數值響應生成迴歸樹。rx...

R語言算法手術兩百年大數據技術 2019-08-07

LinkedIn 招聘之搜索和推薦系統背後的 AI

在這篇文章中，簡要概述了我們的模型探索之旅以及 LinkedIn 中人才搜索系統所使用的架構。這些模型對我們的關鍵業務指標產生了影響。更重要的是，Link...

Linkedin 推薦技術人工智能招聘信息檢索設計工程師數據挖掘經濟 2019-05-20

高分電影推薦丨盤點漫威系列22部經典電影以及正確的觀影順序

作為一個資深的漫威迷肯定每一部都要看，因為每一部裡面的劇情，信息、彩蛋與整個系列裡的電影都是相通的。那麼今天給大家整理一下漫威系列19部經典電影以及其系列...

漫威漫畫漫威電影宇宙漫威：未來之戰復仇者聯盟鋼鐵人科幻小說美國隊長雷神索爾小羅伯特·唐尼美國隊長2 克里斯·海姆斯沃斯動作片鋼鐵俠2 無敵浩克湯姆·希德勒斯頓神盾局特工鋼鐵俠3 漫畫格溫妮絲·帕特羅喬恩·費儒娜塔莉·波特曼洛基傑夫·布里吉斯斯嘉麗·約翰遜克里斯·埃文斯喬斯·惠登艾倫沙恩·布萊克寇碧·史莫德斯愛德華·諾頓米基·洛克麗芙·泰勒肯尼斯·布萊納蒂姆·羅斯馬克·魯法洛宇宙克拉克·格雷格綠巨人雨果·維文海莉·薇思特拉冒險片哈洛德·史塔克森姆·積遜喬·約翰斯頓唐·錢德爾賽巴斯汀·斯坦蓋·皮爾斯海莉·阿特維爾傑瑞米·雷納 2019-05-11

推薦幾部國外的奇幻冒險系列的電影，部部都精彩。

國外的冒險題材的電影真的都是挺精彩的，小編個人也是非常喜歡看的。那小編就推薦幾部這種類型的電影給大家，每一部都非常好看哦！1、《哈利·波特》系列（共8部）...

冒險片侏羅紀公園哈利·波特納尼亞傳奇指環王霍比特人恐龍加勒比海盜逃出魔幻紀比爾博·巴金斯布萊絲佛羅多·巴金斯埃瑪·湯普森丹尼爾·雷德克里夫博物館驚魂夜伊恩·麥凱倫神奇動物在哪裡伏地魔羅賓·威廉斯凱倫·吉蘭動物雷德勞拉·鄧恩魯伯特·葛林特傑夫·高布倫本·斯蒂勒不完美媽媽伊萊賈·伍德伶盜龍山姆·尼爾傑克·布萊克馬丁·弗里曼道恩·強森強尼·戴普約翰·海廷加文物 2019-05-07

推薦幾部國外經典的穿越題材電影，總有一部適合你

1：勇敢者遊戲系列豆瓣評分8.0《勇敢者的遊戲》是由美國哥倫比亞影片公司出品的科幻影片。由喬·莊斯頓執導，羅賓·威廉姆斯、克爾斯滕·鄧斯特等人主演。該片...

哥倫比亞電影時光倒流七十年邁克爾·克萊頓米高·肯恩逃出魔幻紀小說科幻小說彗星埃裡克·巴納安妮·海瑟薇星際穿越克里斯托弗·諾蘭冒險片伊森·霍克傑克·吉林哈爾馬修·麥康納瑞秋·麥克亞當斯戀愛道格拉斯·亞當斯愛情片宇宙黑洞弗郎西絲·布蘭登 2019-04-20

推薦系統、風控模型、知識圖譜，竟然都可以用網絡挖掘來實現

提到社交網絡分析，推薦系統、風控模型這些名詞，相信你並不陌生，社交網絡分析無非是 Pandas+Matplotlib，推薦系統大概率是餘弦相似性、協同過濾...

推薦技術社交網絡 Python 數據挖掘算法 Linux 金融搜索引擎 Mac電腦 iOS Google Git 藥品蘋果公司 0verflow 2019-04-07

數據挖掘顯示《Apex英雄》存在載具系統懸浮摩托即將上線

毋庸置疑，《Apex英雄》已經成為了當下最火爆的大逃殺類遊戲，其增長速度非常快，短短一週就佔領了大逃殺遊戲的市場，玩家人數超過2500萬。如此的火爆程度也...

數據挖掘射擊遊戲堡壘之夜摩托車探路者 2019-02-20

如何搭建一套個性化推薦系統？

個性化推薦可以說是2016-2017年最火的概念之一了。可能是從今日頭條開始，互聯網圈被帶起了一股“個性化”風潮，不管是什麼產品，似乎加一套個性化推薦系統...

推薦技術移動互聯網數據挖掘產品運營 nice輕態度 2017-09-15

R語言數據挖掘實踐——Rattle模型評估案例實戰

現在通過一個綜合實例，完整地講述模型的評估與選擇。數據介紹這個案例選擇的數據來源於Rattle程序包中關於審計的"audit.csv"數據集，在data選...

數據挖掘機器學習 R語言隨機森林數據分析和挖掘 2017-09-12

R語言數據挖掘實踐——神經網絡代碼實戰

下面我們開始運用R語言分析來源於UCI數據庫中的關於白酒品質研究的數據集進行算法演示，該數據集是關於白酒中的各項變量對白酒品質的影響情況。這裡將利用該數據...

機器學習 R語言 Wine 白酒數據分析和挖掘 2017-09-08

R語言數據挖掘實踐——用R語言實現神經網絡

神經網絡概述人工神經網絡是一種應用類似於大腦神經突觸連接的結構進行信息處理的數學模型。在工程學與學術界也常將其直接簡稱為神經網絡或類神經網絡。神經網絡是一...

機器學習 R語言人工智能數學數據分析和挖掘 2017-09-07

R語言數據挖掘實踐——支持向量機代碼實戰

我們開始使用R語言分析iris數據集中各種花類別所具有的花萼及花瓣的特徵，建立適合的支持向量機模型，並對所建立的模型進行相應的分析，查看建立模型的預測能力...

機器學習 R語言數據挖掘可視化數據分析和挖掘 2017-09-06

R學習筆記系列—R語言從數據集中篩選需要的數據

1.5 篩選數據在前面的教程中，我們已經簡單地介紹過如何訪問數據集中的數據，比如通過下標或者變量名訪問數據集。這裡，我們再將如何從數據集中篩選數據的技巧集...

R語言 SQL 程序設計技術愛編程愛統計 2017-09-05

R語言數據挖掘實踐——支持向量機的常用函數

e1071包是R語言中用於支持向量機建模與分析的軟件包，其主要用於支持向量機的模型構建，提供核心函數svm()來建立支持向量機的基礎模型，並且可輔助使用p...

機器學習 R語言數據挖掘技術數據分析和挖掘 2017-09-05

R學習筆記系列—R語言從文本和Excel文件中讀取數據

1.4.1 從文本文件中導入數據可以使用 read.table() 函數從帶分隔符的文本文件中導入數。調用格式為：這個函數看上去很複雜，但其實很多參數在使...

編程語言 Excel R語言 C語言愛編程愛統計 2017-09-03

R語言數據挖掘實踐——五個場景全面讀懂支持向量機

到目前為止，我們已經學習了隨機森林、樸素貝葉斯算法、關聯規則、聚類分析等。這裡再介紹另外一個重要的機器學習算法——支持向量機模型。什麼是支持向量機？支持向...

機器學習數據挖掘 R語言隨機森林數據分析和挖掘 2017-09-02

R語言數據挖掘實踐——K最近鄰算法

K最近鄰算法，簡稱KNN算法，單從名字來猜想，可以簡單粗暴的認為是：K個最近的鄰居，當K=1時，算法便成了最近鄰算法，即尋找最近的那個鄰居。所謂K最近鄰算...

數據挖掘 R語言教育數據分析和挖掘 2017-08-30

R語言數據挖掘實踐——樸素貝葉斯分類

我們使用NaiveBayes()函數來實現樸素貝葉斯分類算法，同線性判別的核心函數一樣，我們分為兩種函數格式來分別介紹。在此之前，先要安裝和引入klaR軟...

機器學習 R語言數據挖掘教育數據分析和挖掘 2017-08-28

R語言數據挖掘實踐——使用randomForest包構建隨機森林

下面使用randomForest包在iris數據集上構建一個預測模型。使用randomForest()函數存在兩個限制：第一個限制是該函數不能處理帶有缺失...

機器學習隨機森林 R語言數據挖掘數據分析和挖掘 2017-08-06

推薦中...