久久九九国产无码高清_人人做人人澡人人人爽_日本一区二区三区中文字幕_日韩无码性爱免费

Web日志的研究分析

時間:2024-09-27 14:51:20 Web Services 我要投稿
  • 相關(guān)推薦

關(guān)于Web日志的研究分析

  描述了Web日志數(shù)據(jù)預(yù)處理技術(shù)的一種改進(jìn)技術(shù)——Frame過濾技術(shù),對其關(guān)鍵部分與運作模式進(jìn)行了研究與改進(jìn)。討論了Frame頁面過濾預(yù)處理技術(shù)在Web頁面挖掘中的效率問題,分析了決策樹算法中最著名的算法——ID3算法,并用ID3算法對Frame過濾算法進(jìn)行了改進(jìn),比較新舊算法的執(zhí)行效率及算法結(jié)果質(zhì)量,得出了新算法執(zhí)行效率更高及質(zhì)量更好的結(jié)論,從而搞高了對存在Frame頁面的網(wǎng)站實施Web日志挖掘算法時挖掘結(jié)果的興趣度。

關(guān)于Web日志的研究分析

  1 引言

  Internet的迅速發(fā)展使得Web為人們提供了內(nèi)容豐富且數(shù)量龐大的信息,隨著數(shù)據(jù)挖掘技術(shù)的出現(xiàn)以及發(fā)展,數(shù)據(jù)挖掘逐漸被應(yīng)用于Web數(shù)據(jù)。

  Web日志挖掘是三大類Web挖掘之一,它主要包括數(shù)據(jù)預(yù)處理和挖掘算法實施兩個主要階段.實施挖掘算法之前要對Web日志文件進(jìn)行預(yù)處理,將其轉(zhuǎn)化為用戶會話集.本文著重討論Web日志挖掘預(yù)處理技術(shù)中的Frame頁面過濾預(yù)處理技術(shù),即在傳統(tǒng)的Web日志預(yù)處理過程中加入Frame頁面過濾這一步驟,并提出了用決策樹算法著名的ID3算法進(jìn)行Frame頁面過濾,進(jìn)一步提高了日志數(shù)據(jù)預(yù)處理的質(zhì)量和效率,從而為挖掘算法的實施提供更為準(zhǔn)確的數(shù)據(jù),提高了對存在Frame頁面的網(wǎng)站實施Web日志挖掘算法時整個Web日志挖掘的效率及挖掘結(jié)果的興趣性。

  2 Web日志預(yù)處理中的Frame頁面過濾技術(shù)[2]2.1 Web日志預(yù)處理技術(shù)現(xiàn)狀

  Web日志挖掘[1] [3-4]是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件,以發(fā)現(xiàn)隱藏在其中的用戶訪問模式。Web日志預(yù)處理是在Web日志挖掘前,對Web日志進(jìn)行清理、過濾以及重新組合的過程,其目的是剔除日志中對挖掘過程無用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識別的保存形式。到目前為止提出的Web日志的預(yù)處理技術(shù),它包含三種方法識別用戶的活動集合:

  (1) Web服務(wù)器提供Cookie,則具有相同Cookie值的頁面請求是來自同一個用戶,則用戶會話識別的主要的任務(wù)就是將Web日志劃分為不同Cookie值所對應(yīng)的頁面請求集合。

  (2) Web服務(wù)器沒有提供Cookie,但每個網(wǎng)站用戶都要一個登錄標(biāo)識符方可訪問站點,則分析工具即可利用登錄標(biāo)識符識別會話。

 、湃绻鸚eb服務(wù)器既沒有Cookie也沒有登錄標(biāo)識符,可以利用主機地址,同時分析日志中每條記錄的請求頁和引用頁的URL,然后根據(jù)Web站點的拓?fù)浣Y(jié)構(gòu)(超鏈接)和其它啟發(fā)式規(guī)則識別用戶會話,但是這種方法的精確度較低,不能100%正確地識別出每個請求對應(yīng)的用戶。這里主要討論第3種預(yù)處理方法。一般Web日志預(yù)處理主要包括:數(shù)據(jù)凈化、用戶識別、會話識別、路徑補充、事務(wù)識別數(shù)據(jù)凈化指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。由于在Web日志中通常只有HTML文件與用戶會話相關(guān),所以通過檢查URL的后綴刪除不相關(guān)的數(shù)據(jù)。

  用戶識別是指要識別出每個訪問網(wǎng)站的用戶。一般Web日志挖掘工具中常使用基于日志/站點的方法,并輔助一些啟發(fā)式規(guī)則幫助識別用戶。

  會話識別是將用戶的訪問記錄分為單個的會話。通常采用超時方法識別用戶會話,如果兩頁間請求時間的差值超過一定的界限(超時閾值)就認(rèn)為用戶開始了一個新的會話。路徑補充是由于本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會遺漏一些重要的頁面請求。路徑補充就是將這些遺漏的請求補充到用戶會話中,解決的方法類似于用戶識別中的方法。

  事務(wù)識別,用戶會話是Web日志挖掘中唯一具備自然事務(wù)特征的元素,但是,對于某些挖掘算法來說可能用戶會話的粒度太大,需要利用分割算法將其轉(zhuǎn)化為更小的事務(wù)。一般通常采用圖1所示的數(shù)據(jù)預(yù)處理過程。如果按照前面所介紹的日志預(yù)處理技術(shù)對Web日志進(jìn)行預(yù)處理,則Frame頁面和其SubFrame頁面也將一起出現(xiàn)在用戶會話文件中。在這樣的用戶會話文件上進(jìn)行數(shù)據(jù)挖掘,F(xiàn)rame頁面和SubFrame頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現(xiàn)的概率很高,并且他們同時出現(xiàn)在挖掘結(jié)果中,這就降低了挖掘結(jié)果的興趣性。

  HTML規(guī)范通過“Frame”標(biāo)記支持多窗口頁面,每個窗口里裝載的頁面對應(yīng)一個URL。 當(dāng)用戶請求Frame頁面的URL時,F(xiàn)rame頁面和其中的SubFrame頁面作為一個多窗口頁面展現(xiàn)在用戶面前,我們可以將用戶對Frame頁面的請求看成就是對多窗口頁面的請求。這樣,在數(shù)據(jù)預(yù)處理階段將Frame頁面和其中的SubFrame頁面作為一個整體考慮,并且把Frame頁面對應(yīng)的URL當(dāng)作這個整體的代表。從全局而言,這樣處理可以有效地消除Frame頁面對日志挖掘的影響,最終提高挖掘結(jié)果的興趣性。

  改進(jìn)的Web日志數(shù)據(jù)預(yù)處理過程中,在會話識別與路徑補充這兩個步驟之間增加了Frame頁面過濾。Frame頁面過濾要完成的任務(wù)是,根據(jù)從站點的拓?fù)浣Y(jié)構(gòu)中提取出的Frame-SubFrame關(guān)系表,從會話識別過程中生成的會話文件中,尋找Frame頁面及其SubFrame頁面,將會話文件中對Frame和其SubFrame頁面的請求用Frame頁面代替,從而刪除會話文件中多余的SubFrame頁面。由于刪除了會話文件中的SubFrame頁面,因此會丟失SubFrame頁面中包含的超鏈接信息,所以接下來的路徑補充步驟中必須使用提升的站點結(jié)構(gòu)。

  3 基于ID3算法的Frame頁面過濾預(yù)處理技術(shù)

  如上文所述,我們應(yīng)用Frame頁面過濾技術(shù)有效地消除了Frame頁面對日志挖掘的影響,然而我們知道Web日志挖掘的記錄是成千上萬的,上述Frame頁面過濾算法中是對每個用戶對話的每個頁面進(jìn)行是否Frame和SubFrame的判斷,并且對判斷出的子框架逐個地進(jìn)行刪除,而且因為SubFrame頁面的刪除導(dǎo)致后面必須用提升的站點結(jié)構(gòu),雖然較一般預(yù)處理技術(shù)增加了興趣度,但是效率還是比較低的,而且也增加了開銷。并且SubFrame過濾中被刪去,在后面的路徑補全中能否完全恢復(fù)也值得高榷。而且有快速分類性質(zhì)允許多粒度層的決策樹分類算法可以解決此問題。

  ID3算法的基本思想是貪心算法,采用自上而下的分而治之的方法構(gòu)造決策樹。首先檢測訓(xùn)練數(shù)據(jù)集的所有特征,選擇信息增益最大的特征A建立決策樹根節(jié)點,由該特征的不同取值建立分枝,對各分枝的實例子集遞歸,用該方法建立樹的節(jié)點和分枝,直到某一子集中的數(shù)據(jù)都屬于同一類別,或者沒有特征可以在用于對數(shù)據(jù)進(jìn)行分割。

【W(wǎng)eb日志的研究分析】相關(guān)文章:

基于web的綜合測評與分析05-20

面向電子商務(wù)的Web日志挖掘系統(tǒng)09-27

網(wǎng)站日志分析診斷和作用10-16

Web Workers加速移動Web應(yīng)用07-01

關(guān)于Meta標(biāo)簽元素分析研究分析07-21

基于Web的MES系統(tǒng)安全架構(gòu)設(shè)計及分析10-16

解析企業(yè)內(nèi)訓(xùn)研究與分析01-11

新西蘭研究生留學(xué)的優(yōu)勢分析08-01

日本研究生留學(xué)趨勢分析06-30

關(guān)于網(wǎng)絡(luò)營銷策略的分析與研究01-22