Web日志的研究分析

時間：2024-09-27 14:51:20 Web Services 我要投稿

相關(guān)推薦

關(guān)于Web日志的研究分析

　　描述了Web日志數(shù)據(jù)預(yù)處理技術(shù)的一種改進(jìn)技術(shù)——Frame過濾技術(shù)，對其關(guān)鍵部分與運作模式進(jìn)行了研究與改進(jìn)。討論了Frame頁面過濾預(yù)處理技術(shù)在Web頁面挖掘中的效率問題，分析了決策樹算法中最著名的算法——ID3算法，并用ID3算法對Frame過濾算法進(jìn)行了改進(jìn)，比較新舊算法的執(zhí)行效率及算法結(jié)果質(zhì)量，得出了新算法執(zhí)行效率更高及質(zhì)量更好的結(jié)論，從而搞高了對存在Frame頁面的網(wǎng)站實施Web日志挖掘算法時挖掘結(jié)果的興趣度。

關(guān)于Web日志的研究分析

　　1 引言

　　Internet的迅速發(fā)展使得Web為人們提供了內(nèi)容豐富且數(shù)量龐大的信息，隨著數(shù)據(jù)挖掘技術(shù)的出現(xiàn)以及發(fā)展，數(shù)據(jù)挖掘逐漸被應(yīng)用于Web數(shù)據(jù)。

　　Web日志挖掘是三大類Web挖掘之一，它主要包括數(shù)據(jù)預(yù)處理和挖掘算法實施兩個主要階段.實施挖掘算法之前要對Web日志文件進(jìn)行預(yù)處理，將其轉(zhuǎn)化為用戶會話集.本文著重討論Web日志挖掘預(yù)處理技術(shù)中的Frame頁面過濾預(yù)處理技術(shù)，即在傳統(tǒng)的Web日志預(yù)處理過程中加入Frame頁面過濾這一步驟，并提出了用決策樹算法著名的ID3算法進(jìn)行Frame頁面過濾，進(jìn)一步提高了日志數(shù)據(jù)預(yù)處理的質(zhì)量和效率，從而為挖掘算法的實施提供更為準(zhǔn)確的數(shù)據(jù)，提高了對存在Frame頁面的網(wǎng)站實施Web日志挖掘算法時整個Web日志挖掘的效率及挖掘結(jié)果的興趣性。

　　2 Web日志預(yù)處理中的Frame頁面過濾技術(shù)[2]2.1 Web日志預(yù)處理技術(shù)現(xiàn)狀

　　Web日志挖掘[1] [3－4]是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件，以發(fā)現(xiàn)隱藏在其中的用戶訪問模式。Web日志預(yù)處理是在Web日志挖掘前，對Web日志進(jìn)行清理、過濾以及重新組合的過程，其目的是剔除日志中對挖掘過程無用的屬性及數(shù)據(jù)，并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識別的保存形式。到目前為止提出的Web日志的預(yù)處理技術(shù)，它包含三種方法識別用戶的活動集合：

　　(1) Web服務(wù)器提供Cookie，則具有相同Cookie值的頁面請求是來自同一個用戶，則用戶會話識別的主要的任務(wù)就是將Web日志劃分為不同Cookie值所對應(yīng)的頁面請求集合。

　　(2) Web服務(wù)器沒有提供Cookie，但每個網(wǎng)站用戶都要一個登錄標(biāo)識符方可訪問站點，則分析工具即可利用登錄標(biāo)識符識別會話。

　�、湃绻鸚eb服務(wù)器既沒有Cookie也沒有登錄標(biāo)識符，可以利用主機地址，同時分析日志中每條記錄的請求頁和引用頁的URL，然后根據(jù)Web站點的拓?fù)浣Y(jié)構(gòu)（超鏈接）和其它啟發(fā)式規(guī)則識別用戶會話，但是這種方法的精確度較低，不能100％正確地識別出每個請求對應(yīng)的用戶。這里主要討論第3種預(yù)處理方法。一般Web日志預(yù)處理主要包括：數(shù)據(jù)凈化、用戶識別、會話識別、路徑補充、事務(wù)識別數(shù)據(jù)凈化指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。由于在Web日志中通常只有HTML文件與用戶會話相關(guān)，所以通過檢查URL的后綴刪除不相關(guān)的數(shù)據(jù)。

　　用戶識別是指要識別出每個訪問網(wǎng)站的用戶。一般Web日志挖掘工具中常使用基于日志/站點的方法，并輔助一些啟發(fā)式規(guī)則幫助識別用戶。

　　會話識別是將用戶的訪問記錄分為單個的會話。通常采用超時方法識別用戶會話，如果兩頁間請求時間的差值超過一定的界限(超時閾值)就認(rèn)為用戶開始了一個新的會話。路徑補充是由于本地緩存和代理服務(wù)器緩存的存在，使得服務(wù)器的日志會遺漏一些重要的頁面請求。路徑補充就是將這些遺漏的請求補充到用戶會話中，解決的方法類似于用戶識別中的方法。

　　事務(wù)識別，用戶會話是Web日志挖掘中唯一具備自然事務(wù)特征的元素，但是，對于某些挖掘算法來說可能用戶會話的粒度太大，需要利用分割算法將其轉(zhuǎn)化為更小的事務(wù)。一般通常采用圖1所示的數(shù)據(jù)預(yù)處理過程。如果按照前面所介紹的日志預(yù)處理技術(shù)對Web日志進(jìn)行預(yù)處理，則Frame頁面和其SubFrame頁面也將一起出現(xiàn)在用戶會話文件中。在這樣的用戶會話文件上進(jìn)行數(shù)據(jù)挖掘，F(xiàn)rame頁面和SubFrame頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現(xiàn)的概率很高，并且他們同時出現(xiàn)在挖掘結(jié)果中，這就降低了挖掘結(jié)果的興趣性。

　　HTML規(guī)范通過“Frame”標(biāo)記支持多窗口頁面，每個窗口里裝載的頁面對應(yīng)一個URL。當(dāng)用戶請求Frame頁面的URL時，F(xiàn)rame頁面和其中的SubFrame頁面作為一個多窗口頁面展現(xiàn)在用戶面前，我們可以將用戶對Frame頁面的請求看成就是對多窗口頁面的請求。這樣，在數(shù)據(jù)預(yù)處理階段將Frame頁面和其中的SubFrame頁面作為一個整體考慮，并且把Frame頁面對應(yīng)的URL當(dāng)作這個整體的代表。從全局而言，這樣處理可以有效地消除Frame頁面對日志挖掘的影響，最終提高挖掘結(jié)果的興趣性。

　　改進(jìn)的Web日志數(shù)據(jù)預(yù)處理過程中，在會話識別與路徑補充這兩個步驟之間增加了Frame頁面過濾。Frame頁面過濾要完成的任務(wù)是，根據(jù)從站點的拓?fù)浣Y(jié)構(gòu)中提取出的Frame-SubFrame關(guān)系表，從會話識別過程中生成的會話文件中，尋找Frame頁面及其SubFrame頁面，將會話文件中對Frame和其SubFrame頁面的請求用Frame頁面代替，從而刪除會話文件中多余的SubFrame頁面。由于刪除了會話文件中的SubFrame頁面，因此會丟失SubFrame頁面中包含的超鏈接信息，所以接下來的路徑補充步驟中必須使用提升的站點結(jié)構(gòu)。

　　3 基于ID3算法的Frame頁面過濾預(yù)處理技術(shù)

　　如上文所述，我們應(yīng)用Frame頁面過濾技術(shù)有效地消除了Frame頁面對日志挖掘的影響，然而我們知道Web日志挖掘的記錄是成千上萬的，上述Frame頁面過濾算法中是對每個用戶對話的每個頁面進(jìn)行是否Frame和SubFrame的判斷，并且對判斷出的子框架逐個地進(jìn)行刪除，而且因為SubFrame頁面的刪除導(dǎo)致后面必須用提升的站點結(jié)構(gòu)，雖然較一般預(yù)處理技術(shù)增加了興趣度，但是效率還是比較低的，而且也增加了開銷。并且SubFrame過濾中被刪去，在后面的路徑補全中能否完全恢復(fù)也值得高榷。而且有快速分類性質(zhì)允許多粒度層的決策樹分類算法可以解決此問題。

　　ID3算法的基本思想是貪心算法，采用自上而下的分而治之的方法構(gòu)造決策樹。首先檢測訓(xùn)練數(shù)據(jù)集的所有特征，選擇信息增益最大的特征A建立決策樹根節(jié)點，由該特征的不同取值建立分枝，對各分枝的實例子集遞歸，用該方法建立樹的節(jié)點和分枝，直到某一子集中的數(shù)據(jù)都屬于同一類別，或者沒有特征可以在用于對數(shù)據(jù)進(jìn)行分割。

【W(wǎng)eb日志的研究分析】相關(guān)文章：

基于web的綜合測評與分析05-20

面向電子商務(wù)的Web日志挖掘系統(tǒng)09-27

網(wǎng)站日志分析診斷和作用10-16

Web Workers加速移動Web應(yīng)用07-01

關(guān)于Meta標(biāo)簽元素分析研究分析07-21

基于Web的MES系統(tǒng)安全架構(gòu)設(shè)計及分析10-16

解析企業(yè)內(nèi)訓(xùn)研究與分析01-11

新西蘭研究生留學(xué)的優(yōu)勢分析08-01

日本研究生留學(xué)趨勢分析06-30

關(guān)于網(wǎng)絡(luò)營銷策略的分析與研究01-22

久久九九国产无码高清_人人做人人澡人人人爽_日本一区二区三区中文字幕_日韩无码性爱免费

Web日志的研究分析