在做网站结构分析之前,要理解搜索引擎蜘蛛是拟人化的算法而已。算法就是按部就班的执行事先设计的抓取策略,所以良好的网站结构具备引导、分配权重、提高抓取效率等作用,只有内部框架搭建好之后,内容的布局才能井然有序,蜘蛛才能有序爬行。
事先问题思考:
1.蜘蛛是否实现逻辑上的全站抓取
2.蜘蛛是否可以区分页面重要性
3.蜘蛛是否可以提取页面的关键词
一、逻辑上全站爬行
1.网站结构优化
网站物理结构,即基于内容聚合的目录及文件位置决定的结构。目前的主流思维就是网站扁平化设计,即平行结构。如:
列表目录扁平化设计
主要实现方式:
第一种 只是简单的上下页操作
第二种 在第一种的基础上 增加页面的选择性
第三种 目前主流的列表页设计方式 交流性比较合理
首页的扁平化设计
首页一般是权重的最高页面,也是蜘蛛最先访问的页面。所以在首页链接对于页面的“重要性”有一定影响,但往往一个网站的页面成千上万,首页的链接数理论上维持100-150是合理的,所以将想要频道页、详细页在首页留下链接,实现逻辑上首页扁平化设计。同样适用频道页等聚合属性的页面。
那么问题来了,面对数量巨大页面,如何保证都可以实现被爬行抓取?
树形结构的辅助,就是为了解决,扁平化带来的不足,在导航栏、面包屑导航等设计页面层级思维,辅助蜘蛛对网站结构的理解。
如:采用二级域名的网站树形结构
总体上扁平化+树形结构才是合理的网站结构优化策略组合。
2.链接结构优化
两种蜘蛛抓取不到的页面:网站本身不希望被收录的页面;没有链接到达的页面,即孤岛页面。对于没有被首页推荐的页面,可以再内链上补充。合理的内链就是一个四通八达、井然有序的交通系统,蜘蛛就是来往的车辆。社会化、描文本、设置链接入口等。
3.Domain结构优化
主要是二级域名和二级目录的选择策略。没有绝对的好与不好,就科易网小编来说目前公司网站正在有二级域名网站结构向二级目录转变,只是采取适应当前科易网发展的核心:塑造公司品牌。所以根据自身特点选择合理的domain策略。
二、重要性的主导
对于搜索引擎来说,什么样页面会被认为“更重要”?有这么一句话:每个链接都是一个投票,意思是:页面的所有链接都是投票。在搜索引擎看来:获得更多内部投票的网页相对来说更加重要。
如:搜索引擎角度页面重要性 黄色>红色>蓝色>绿色
三、网页的标签:关键词
搜索引擎在分析页面的内容是优先从TDK入手,即title、description、keyword;之后就是H标签、alt标签;最后是TF-IDF ,即词频-文件频率。从三个的关联度定义页面的“标签”,即抓取的时页面的定义的关键词。