歡迎來到東莞企信網絡公司官方網站!
打開客服菜單
東莞網站建設
網站建設 > 技術支持 > 企信分享幾種網頁抽取技術和算法
企信分享幾種網頁抽取技術和算法
時間 : 2021-05-22 10:17 瀏覽量 : 95

實現基于分類器的網頁抽取算法(第二類算法),大致流程如下:


找幾千個網頁作為訓練集,對網頁的正文和非正文(即需要抽取和不需要抽取的部分)進行人工標注。


設計特征。例如一些算法將DOM樹的標簽類型(div,p,body等)作為特征之一(當然這是一個不推薦使用的特征)。


選擇合適的分類器,利用特征進行訓練。


對于網頁抽取,特征的設計是第一位的,具體使用什么分類器有時候并不是那么重要。在使用相同特征的情況下,使用決策樹、SVM、神經網絡等不同的分類器不一定對抽取效果造成太大的影響。


從工程的角度來說,流程中的第一步和第二步都是較為困難的。訓練集的選擇也很有講究,要保證在選取的數據集中網頁結構的多樣性。例如現在比較流行的正文結構為:


<div>


<p>xxxx</p>


<p>xxxxxxxx</p>


<span>xxx</span>


<p>xxxxx</p>


<p>xxxx</p>


</div>


如果訓練集中只有五六個網站的頁面,很有可能這些網站的正文都是上面這種結構,而恰好在特征設計中,有兩個特征是:


節點標簽類型(div,p,body等)


孩子節點標簽類型頻數(即孩子節點中,div有幾個,p有幾個…)


假設使用決策樹作為分類器,最后的訓練出的模型很可能是:


如果一個節點的標簽類型為div,且其孩子節點中標簽為p的節點超過3個,則這個節點對應網頁的正文

雖然這個模型在訓練數據集上可以達到較好的抽取效果,但顯而易見,有很多網站不滿足這個規則。因此訓練集的選擇,對抽取算法的效果有很大的影響。


網頁設計的風格一致在變,早期的網頁往往利用表格(table)構建整個網頁的框架,現在的網頁喜歡用div構建網頁的框架。如果希望抽取算法能夠覆蓋較長的時間段,在特征設計時,就要盡量選用那些不易變化的特征。標簽類型是一個很容易變化的特征,隨著網頁設計風格的變化而變化,因此前面提到,非常不建議使用標簽類型作為訓練特征。


上面說的基于分類器的網頁抽取算法,屬于eager learning,即算法通過訓練集產生了模型(如決策樹模型、神經網絡模型等)。與之對應的lazy learning,即事先不通過訓練集產生模型的算法,比較有名的KNN就是屬于lazy learning。


一些抽取算法借助KNN來選擇抽取算法,可能聽起來有些繞,這里解釋一下。假設有2種抽取算法A、B,有3個網站site1,site2,site3。2種算法在3個網站上的抽取效果(這里用0%-100%的一個數表示,越大說明越好)如下:


網站 A算法抽取效果 B算法抽取效果

site1 90% 70%

site2 80% 85%

site3 60% 87%

可以看出來,在site1上,A算法的抽取效果比B好,在site2和site3上,B算法的抽取效果較好。在實際中,這種情況很常見。所以有些人就希望設計一個分類器,這個分類器不是用來分類正文和非正文,而是用來幫助選擇抽取算法。例如在這個例子中,分類器在我們對site1中網頁進行抽取時,應該告訴我們使用A算法可以獲得更好的效果。


舉個形象的例子,A算法在政府類網站上抽取效果較好,B算法在互聯網新聞網站上抽取效果較好。那么當我對政府類網站進行抽取時,分類器應該幫我選擇A算法。


這個分類器的實現,可以借助KNN算法。事先需要準備一個數據集,數據集中有多個站點的網頁,同時需要維護一張表,表中告訴我們在每個站點上,不同抽取算法的抽取效果(實際上只要知道在每個站點上,哪個算法抽取效果最好即可)。當遇到一個待抽取的網頁,我們將網頁和數據集中所有網頁對比(效率很低),找出最相似的K個網頁,然后看著K個網頁中,哪個站點的網頁最多(例如k=7,其中有6個網頁都是來自CSDN新聞),那么我們就選擇這個站點上效果最好的算法,對這個未知網頁進行抽取。


3 .基于網頁模板自動生成的網頁抽取算法

基于網頁模板自動生成的網頁抽取算法(第三類算法)有很多種。這里例舉一種。在《URL Tree: Efficient Unsupervised Content Extraction from Streams of Web Documents》中,用多個相同結構頁面(通過URL判斷)的對比,找出其中異同,頁面間的共性的部分是非正文,頁面間差別較大的部分有可能是正文。這個很好理解,例如在一些網站中,所有的網頁頁腳都相同,都是備案信息或者版權申明之類的,這是頁面之間的共性,因此算法認為這部分是非正文。而不同網頁的正文往往是不同的,因此算法識別出正文頁較容易。這種算法往往并不是針對單個網頁作正文抽取,而是收集大量同構網頁后,對多個網頁同時進行抽取。也就是說,并不是輸入一個網頁就可以實時進行抽取。


標簽:
cache
Processed in 0.013207 Second.
亚洲А∨天堂2014在线无码,性欧美BBW性A片片高清视频,美女脱内衣禁止18以上观看,脱了她的内裤让我添
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>