蜘蛛最简单的爬行策略有3种
2022-03-09

🧘‍♀️整个互联网站点都是由链接组成的呀， 🤾也就是说，呢搜索引擎蜘蛛从任何页面最终都会爬行所有页面。 😽

当然 🧘，嗯网站和网页的链接结构太复杂，呢所以蜘蛛只能用一定的方法来抓取所有的网页 🧑‍🦰，据民间SEO高手了解最简单的爬行策略有三种：呀

1 最佳优先

最佳优先搜索策略根据特定的网页分析算法预测候选URL和目标页面之间的相似度或与主题的相关性，并选择一个或几个评价最佳的URL进行爬取。它只访问通过网页分析算法预测有用的网页。呢

🛀存在的问题是，爬虫抓取路径上的许多相关页面可能被忽略 👸，嗯因为最优优先级策略是局部最优搜索算法，所以需要将最优优先级与特定应用结合起来加以改进呢，呢以便跳出局部最优点。通过对SEO优化网络的研究，可以实现这种闭环调整，使无关网页数量减少30%~90%。呀

呀2 深度优先

深度首先指的是蜘蛛沿着发现的链接爬行呢，直到前面没有其他链接，呢然后返回到第一页， 🧖‍♀️沿着另一个链接， 👴然后直线爬行。呢

☝️3 广度优先 🧔‍♂️

呀Width-first是指蜘蛛发现页面中有多个链接，不是直接沿着链接向前 🙅‍♀️， 🫦而是沿着页面上的所有链接爬行 🙏，然后沿着链接中找到的第二层链接爬向页面的第三层。

从理论上讲 😊，无论是深度优先还是广度优先，嗯蜘蛛可以在足够长的时间内爬过整个互联网。

在实践中呀，蜘蛛的带宽资源、时间不是无限的，呢也不能爬行所有的页面嗯，呀事实上 👷‍♀️，最大的搜索引擎只是爬行和收录了互联网的一小部分， 👨‍🌾当然 🫣，并不是蜘蛛爬取的越多越好。 🥱

蜘蛛最简单的爬行策略有3种2022-03-09