搜索引擎从哪里开始抓取?

搜索引擎爬虫以什么为起点? 是 DNS 查找还是从一些公认的网站列表开始? 有什么假设或建议吗?

12
2022-06-07 15:15:51
资源 分享
答案: 3

您可以使用他们的 网站提交表格 将您的网站发送到搜索引擎 - 这肯定会让您直接进入他们的系统。 实际上,当您实际上爬到之后很难声称 - 从经验来看,初步爬网通常需要一周左右的时间(主页,几个其他各种网页 1 - 从那里深入链接)。 您可以使用清晰的语义链接结构并提交 网站地图 来增加您的网页被抓取和索引的数量 - 这些允许您详细说明每个页面,并相互权衡它们,这有助于互联网搜索引擎了解您看到网站的每个组件对其他组件的重要性。

如果您的网站是从其他各种被抓取的互联网站点连接的,那么您的网站将被额外抓取,从连接的页面开始,并最终传播到您网站的其余部分。 这可能需要很长时间,并且取决于链接站点的抓取规律,因此 url 条目是让 google 了解您的最快方法!

我不能建议的一种工具是 谷歌网站管理员工具。 它允许您查看您被蹑手蹑脚的频率、googlebot 遇到的任何错误(损坏的网络链接等),并且其中还有许多其他有价值的设备。

4
2022-06-07 18:08:37
资源

从概念上讲,它们从一无所有开始。 就在有人明确通知他们包含他们的网站时,他们可以开始爬行该网站并使用该网站上的网络链接查看更多内容。

然而,在实践中,搜索引擎的创建者肯定会放置在他们能想到的一些近似网站中。 例如,他们自己的博客或书签中的网站。

理论上,人们也可以简单地选择一些随机地址,并查看那里是否有网站。 我怀疑有人这样做; 上面的方法肯定会很好用,也不需要额外的编码来引导搜索引擎。

2
2022-06-07 18:08:05
资源

您的询问可以翻译成 2 种方式:

您是在问在线搜索引擎一般从哪里开始抓取,还是从哪里开始抓取特定网站?

我不知道大玩家是如何运作的; 但是,如果您要制作自己的搜索引擎,您可能会在首选门户网站上为其播种。 DMOZ.org 似乎是一个突出的起始因素。 考虑到大型玩家拥有比我们更多的数据,他们很可能从选择的地方开始爬行。

如果您询问 SE 从哪里开始爬到您的特定网站,这很可能与您的哪些页面是最受欢迎的页面之一有很大关系。 我认为,如果您有一个非常喜欢的页面,并且很多其他网站都链接到该页面,那么这肯定是SE开始进入的网页,因为有更多来自其他网站的入口因素。 .

请记住,我不是 SEO 或其他任何东西; 我刚刚为我正在服务的工作检查了一段时间的 bot 和 SE 网络流量。

8
2022-06-07 18:00:36
资源