了解過搜索引擎爬蟲抓取爬行的可能會(huì)有一個(gè)比較清晰的答案,是的就是幫助爬蟲盡可能的抓取頁面,只有被讀取到的頁面才有可能被收錄。
扁平化的結(jié)構(gòu)將網(wǎng)站的頁面盡可能的直接展示在蜘蛛爬蟲面前或者很容易被爬蟲發(fā)現(xiàn),不需要一個(gè)層級(jí)一個(gè)層級(jí)的深入挖掘,除非知名站點(diǎn)或大型網(wǎng)站能夠享有這種特權(quán)。因?yàn)檎麄€(gè)互聯(lián)網(wǎng)的數(shù)據(jù)量是相當(dāng)龐大的,而每天更新的信息量現(xiàn)有的蜘蛛資源都很難去實(shí)現(xiàn)完全抓取,還有些頁面每天會(huì)被蜘蛛重復(fù)抓取,所以這就需要蜘蛛舍棄一些,所以也就出現(xiàn)了抓取策略,對(duì)低質(zhì)量的網(wǎng)站降低抓取量,很難發(fā)現(xiàn)新頁面的網(wǎng)站將資源全都消耗在頁面的重復(fù)抓取上面。
贊
5
有一點(diǎn)幫助
1
沒有幫助
參與評(píng)論