蜜桃无码视频,欧美日韩一=三道夲,国产精品午夜AV电影网免费看,aaa.www

歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學(xué)習(xí)網(wǎng)站!

[ Ctrl + D 鍵 ]收藏本站

您所在的位置:首頁 > 教育學(xué)習(xí) > 問答

問答

爬蟲如何辨別目錄頁?

分類: 問答 常識詞典 編輯 : 常識 發(fā)布 : 08-22

閱讀 :365

爬蟲如何辨別目錄頁?現(xiàn)在有一堆url,我想根據(jù)這些url爬取網(wǎng)頁,但是那些主頁和目錄頁是沒用的,要怎么辨別并過濾掉這些頁面?例如news.sina.cn/z/cjzxyz...,我要怎么辨別呢?4 個答案

答案 1:

當(dāng)下我采用的是簡單幼稚但還算有效的辦法----鏈接數(shù)目,超過閾值便處理為索引頁,否則判定為內(nèi)容頁。

答案 2:

我猜想可以這樣判斷:1、頁面子鏈個數(shù)很多。2、頁面子鏈的url形式(目錄)有一定共性。3、判斷錨文本占頁面所有文本比重很高。

答案 3:

首先要區(qū)分問題解決的環(huán)境:如果是處理特定的站點,肯定是手工配url pattern,如果是大規(guī)模海量無共性站點,那么@鄭傳義的方法機上@Paul說的特征,毫無疑問是性價比最高的,當(dāng)然如果你對自己自信,可以基于站點構(gòu)型做挖掘最后,這些索引頁是幫你發(fā)現(xiàn)新鏈接的,如果做spider,怎么會沒用呢?

答案 4:

我的想法是這樣的,如果有子url的就是目錄頁,如果沒有的基本都是內(nèi)容頁。但是就是news.sina.cn/z/cjzxyz...,這個這樣下來就不大好辨別了

下一篇:京九線運營至今,盈虧分析究竟如何?大家如何看待? 下一篇 【方向鍵 ( → )下一篇】

上一篇:一般而言,一天睡多少個小時才是正常的、健康的? 上一篇 【方向鍵 ( ← )上一篇】

亚洲一级全裸视频| 国产一级一级理论片一区二区| 国产A级网站免费看| 精品熟| 精品久久久久成人片| 久久久久久尹人网香蕉| 亚洲av色av| 久久91精品国产91久久跳舞| 国产69精品久久久久9999不..| 五月花无码视频在线| 中文字幕区图| 99久久精品无码一区二区不卡 | 日本天套视频| 久久精品无遮挡一级毛片| 成人精品在线| 丁香五月缴情综合网| 蜜臀久久精品久久| 亚洲va天堂va欧美ⅴa在线| 午夜影院在线| 无码专区第四页| 日本精品久久久久青青草原大综合 | 18免费观看网站| 日日夜夜人人骑| 少妇人妻我| 国产精品乱码毛片在线人与| 欧美性高朝久久久久久久| 黄色一级免费网站| 色在线三区| 日韩久久久精品无码一区二区网站| 九九色综合| 五月婷婷丁香开心| 咪咪久久网| 99国产在线视频| 九九免费精品视频| 91熟女第一页| 欧美日韩少妇久久久久久| 亚洲色噜噜噜狠狠站欲八| 蜜臀亚洲一区| 精品久久久无码人妻中文字幕| 中文字幕大香频蕉无码 | 亚洲永久无码永久在线观看软件 |