添加時(shí)間:2013/9/7 10:35:21 編輯:奇億網(wǎng)站建設(shè)公司
Netflix讓國人廣泛關(guān)注莫過于利用大數(shù)據(jù)分析技術(shù)“算出來”的自制原創(chuàng)劇《紙牌屋》的火爆。紙牌屋有多火,網(wǎng)上搜一下。而實(shí)際上Netflix最擅長(zhǎng)的是它非常厲害的視頻推薦算法,估計(jì)這也是Netflix作為全球十大視頻網(wǎng)站中唯一收費(fèi)站點(diǎn)的重要原因。
提到推薦算法,很容易想到搜索引擎的相關(guān)搜索推薦,各類網(wǎng)站相關(guān)推薦插件(百度的百度推薦、阿里的云推薦等),各自網(wǎng)站開發(fā)的相關(guān)文章閱讀推薦等,多基于關(guān)鍵詞廣泛匹配來推薦,各類在線視頻網(wǎng)站,大部分“你可能喜歡看”、“看xxx的還喜歡看”等推薦,也多根據(jù)演員、導(dǎo)演及視頻所屬標(biāo)簽等推薦。
為了打造比搜索引擎更精準(zhǔn)的推薦引擎,Netflix曾兩次公開懸賞百萬美元,只為提供更精準(zhǔn)的推薦算法。推薦引擎也成為Netflix的一個(gè)標(biāo)志。很多人都想要了解在浩如煙海的大數(shù)據(jù)及評(píng)分星級(jí)的背后,Netflix是如何利用其算法來向用戶作出推薦的?
Netflix個(gè)性化算法副總裁卡洛斯·葛梅茲-烏里韋(Carlos Gomez-Uribe)的一些回答整理:
1、查找相似性
通過查閱元數(shù)據(jù)找到各種各樣的相似性。比如兩部電影是不是在同一時(shí)間被創(chuàng)作的?是不是傾向于擁有相同的評(píng)分?此外,你還可以查看用戶行為——瀏覽、播放和搜索等,從而找到它們之間的相似性。
2、鑒別視頻特點(diǎn)并標(biāo)記分類
有員工專門負(fù)責(zé)以人工方式來對(duì)電視劇和電影進(jìn)行標(biāo)記。
3、個(gè)性化追蹤用戶觀看歷史
我們能知道你播放和搜索過哪些視頻,對(duì)哪些視頻進(jìn)行了評(píng)分。我們還知道你播放視頻的時(shí)間、日期和使用的設(shè)備。我們甚至還會(huì)追蹤用戶交互活動(dòng),如瀏覽或滾動(dòng)等行為。
4、推薦引入上下文環(huán)境
在一個(gè)星期中的不同日子,在一天的不同時(shí)間段,用戶的觀看行為都會(huì)有所不同;此外,他們的觀看行為還會(huì)隨著設(shè)備的改變而有所差異,有時(shí)候甚至用戶所在的位置也會(huì)產(chǎn)生影響。
5、預(yù)測(cè)評(píng)分并非最重要指標(biāo)
問:為什么我會(huì)在推薦中看到如此之多的三星級(jí)甚至是兩星級(jí)的電影呢?
答:人們喜歡把《辛德勒的名單》等電影的評(píng)分打得很高,而不是我喜歡看的《熱浴盆時(shí)光機(jī)》惡搞喜劇片。如果你只向用戶推薦四星級(jí)或五星級(jí)電影,并不意味著他們工作一天以后還想看那樣的電影。