來源:幼教網(wǎng) 2018-07-17 15:22:52
摘要:本文從用戶的聽歌數(shù)據(jù)入手,通過數(shù)據(jù)預處理技術(shù)提取相關(guān)特征,利用FP-tree算法得到歌曲之間的關(guān)聯(lián)規(guī)則;在此基礎(chǔ)上,利用DBSCAN聚類算法將歌曲根據(jù)其本身屬性進行聚類,找到同類歌曲。最終把兩者有機結(jié)合,互相補充,使新的推薦系統(tǒng)發(fā)揮更加理想的功能。
關(guān)鍵詞:歌曲;FP-tree;關(guān)聯(lián)規(guī)則;聚類;推薦系統(tǒng);DBSCAN
一、推薦系統(tǒng)簡介
談起推薦系統(tǒng)首先要從個性化推薦談起。個性化推薦是根據(jù)用戶的興趣特點和購買行為,向用戶推薦其感興趣的商品和服務(wù)。隨著電子商務(wù)規(guī)模迅速擴大,商品數(shù)量和種類急速增長,顧客需要花費大量時間才能找到自己想買的商品。這種瀏覽大量無關(guān)信息和產(chǎn)品的過程會給用戶帶來極大的不便,從而導致消費者不斷流失。為了解決這些問題,個性化推薦系統(tǒng)應(yīng)運而生。本文主要研究大數(shù)據(jù)在音樂推薦系統(tǒng)中的應(yīng)用。通過一些挖掘算法,發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,預測用戶喜歡的歌曲類別以及更加具體的特點構(gòu)建用戶畫像,快速準確推測使用者的喜好,及時為用戶推薦更多感興趣的信息、數(shù)據(jù)及鏈接,以達到方便用戶吸引消費者的目的。
(一)推薦系統(tǒng)現(xiàn)狀和弊端
現(xiàn)在商業(yè)智能平臺上信息量呈爆炸式發(fā)展,但數(shù)據(jù)本身所具有的規(guī)模巨大和不穩(wěn)定性,對人們?nèi)绾螠蚀_迅速提取出有價值的信息,仍具有不可忽視的制約作用。比如,實際上喜歡聽流行歌曲的用戶,因參與合唱活動反復聽了一些經(jīng)典革命歌曲,使軟件在他結(jié)束合唱活動后,仍然繼續(xù)推薦大量經(jīng)典老歌,導致出現(xiàn)不符合用戶需求的情況。這就是由于推薦系統(tǒng)數(shù)據(jù)處理系統(tǒng)過于僵化造成的不良后果。所以,推薦系統(tǒng)還有很多方面的技術(shù)需要優(yōu)化升級。
。ǘ﹥(yōu)化升級推進系統(tǒng)的創(chuàng)新點
在設(shè)計推薦系統(tǒng)過程中,如果強化數(shù)據(jù)預處理技術(shù),并采用關(guān)聯(lián)規(guī)則與聚類算法相結(jié)合的方法,則會盡最大可能地避免推薦系統(tǒng)僵化的問題。1、強化優(yōu)化數(shù)據(jù)預處理功能。在用戶選擇的歌曲中,并非都是用戶所喜愛的,所以,需要將數(shù)據(jù)先進行簡單處理。在用戶選擇過的歌曲中,將播放時間短于總歌曲時長60%的歌曲剔除;2、采用關(guān)聯(lián)規(guī)則與聚類算法相結(jié)合的方法。聽歌是一種較為個性的行為,單使用關(guān)聯(lián)規(guī)則推薦,會導致推薦范圍過于寬泛,沒有針對性;單使用同屬性歌曲推薦,會使用戶永遠無法嘗試新的歌曲,無法了解與自己類似愛好用戶的選擇。所以把兩者有機結(jié)合,互相補充,才能使新的推薦系統(tǒng)發(fā)揮更加理想的功能。使用關(guān)聯(lián)規(guī)則是從每一位用戶出發(fā),挖掘聽了“a”歌曲的人同時聽的其它相關(guān)歌曲,形成“a”的關(guān)聯(lián)規(guī)則。這樣就可以在后續(xù)推薦中,為聽了“a”歌曲的人推薦與“a”相關(guān)的其他歌曲。使用聚類算法是對歌曲的各項屬性進行區(qū)別。各項屬性包括節(jié)奏、發(fā)行時間、語言和情感等。在實際情況中,用戶的喜好都是獨特的,不能單純的依靠其他用戶的選擇來推測,這樣就可以做到,為聽過“a”歌曲的用戶推薦與其屬于同一類別的歌曲。
二、實際應(yīng)用
。ㄒ唬╆P(guān)聯(lián)規(guī)則FP-tree的應(yīng)用
在進行關(guān)聯(lián)規(guī)則分析時,以每個用戶在一個時間段的聽歌情況為一個元組。值得注意的是,用戶點擊的歌曲并非都是他喜歡的,首先需要對其進行預處理,把用戶聽了一小部分就直接跳過的歌曲直接清除,進而排除異常值對最終結(jié)果的影響。首先,設(shè)定最小支持度閾值為50%,最小置信度閾值為75%,將每一位用戶的每一首歌按照遞減的支持度排序,并構(gòu)造FP-tree。從樹根處的節(jié)點向上尋找路徑,挖掘頻繁項集。例如,從h處向上的路徑只有一條且支持度小于最小支持度閾值,所以沒有包含歌曲h的頻繁項集。在歌曲h挖掘完成后對其它歌曲用此方式挖掘FP-tree。從d向上兩條路徑中發(fā)現(xiàn){c,d}支持度為50%和在歌曲c中置信度75%,滿足條件。從歌曲c向上尋找路徑,可發(fā)現(xiàn){a,c}也為頻繁項集,支持度為75%,歌曲c中置信度為75%。通過FP-tree算法,我們得到頻繁項集{a,d},{a,c}。
相關(guān)推薦:
小升初試題、期中期末題、小學奧數(shù)題
盡在奧數(shù)網(wǎng)公眾號
歡迎使用手機、平板等移動設(shè)備訪問幼教網(wǎng),幼兒教育我們一路陪伴同行!>>點擊查看