蜘蛛首先解析网站域名,从而得到 A 记录,也就是网站服务端的 IP 地址。接着,蜘蛛会前往服务端请求内容。这整个过程就是抓取的过程。
2)CDN节点缓存内容的更新频率
对于已使用 CDN 加速的网站,蜘蛛抓取的是 CDN 节点里的缓存内容。若希望确保内容能及时刷新,那就要求网站负责人能够合理地对缓存内容的更新频率进行配置。存在一套默认的缓存策略,它能够适应多数业务的缓存配置情况。同时,它还支持在后台依据网站不同的 url 模板,设定灵活多样的缓存策略以及主、被动的数据更新方式,并且进行智能调控和缓存。只要节点缓存的更新频率设置得合理,那么对于 SEO 的影响就可以被忽略。
3)IP的变化对SEO的权重
如果蜘蛛抓取到各个节点的数据,会怎样呢?是否会导致一个网站好像有不同的 IP 地址呢?搜索引擎会不会对这种情况进行惩罚呢?
百度官方 SEO 指南有这样的描述:站点的抓取方式与普通用户的访问方式相同。只要普通用户能够访问到内容,我们就能够抓取到。无论使用何种技术,只要能确保用户能够流畅地访问网站,就不会对搜索引擎产生影响。由此可见,在保证网站服务可用性的情况下,节点 IP 的变换不会导致网站被降权。百度提到“应尽量挑选有实力的服务商以及成熟的技术,不成熟的技术容易致使访问不稳定,这或许会对搜索引擎的抓取产生影响”,因此,选择一个安全且稳定的 CDN 服务提供商依旧是极为重要的。
4)另一种思路
搜索引擎收录的网站数目极为庞大。每次重新解析全量域名的 A 记录,对效率和系统的要求都很高。所以蜘蛛可能会缓存之前的解析结果。在此期间,如果 CDN 服务节点发生调度,蜘蛛就有可能访问到之前的节点。碰到割接、维护等情况,可能会导致蜘蛛无法抓取到预期的内容。