当 抓取网页时,假如某个搜索引擎程序遇到robots.txt文件,则会阻挠抓取特定内容. 能够看到指向该网站的链接,但 对网站自身的内容不甚了了. 无法看到该网站的出站链接.这会导致链接图表当即呈现缺点,至少在相似于Google的情况下(假如Googlebot未被相似阻挠).
但这不是仅有的问题.蜘蛛以抓取优先级的方式被robots.txt阻挠,导致级联失利.当一个僵尸程序抓取网络时,它会发现链接,并且有必要优先考虑下一个抓取的链接.比方说,谷歌发现100个链接,并排名前50的优先次序进行抓取.可是,不同的蜘蛛能够找到相同的100个链接,可是通过抓取前50页中的10个robots.txt阻挠.相反,他们被迫抓取这些内容,使他们挑选不同的50页来抓取.当然,这些不同的已爬网页将返回一组不同的链接.鄙人一轮抓取过程中,Google不但会答应他们抓取不同的调集,并且调集自身也会有所不同,由于他们首要抓取了不同的网页.
长话短说,很像蝙蝠翅膀终究导致飓风的谚语般的蝴蝶,robots.txt中的小改变阻挠了一些蜘蛛并答应其他人终究导致与谷歌实践看到的成果天壤之别.
robots.txt
该方法相当简单.
下载Quantcast Top Million
如果可以从所有百万个网站获得,请下载robots.txt解析robots.txt以确定主页和其他页面是否可用收集与被封锁网站相关的链接数据
收集与被封锁网站相关的现场总页数.
报告抓取工具之间的差异.
总站点被阻止
报告的第一个也是最简单的指标是在允许Google的同时阻止各个抓取工具(广州SEO,Majestic,Ahrefs)的网站数量.大多数阻止其中一个主要搜索引擎优化搜索器的网站封锁了他们.他们只是制定robots.txt,以允许主要搜索引擎阻止其他bot流量.越低越好.
条形图显示阻止robots.txt中每个SEO工具的网站数量在分析的网站中,有27,123人阻止了MJ12Bot(Majestic),32,982人阻止了Ahrefs,25,427人阻止了广州SEO.这意味着在主要的行业爬虫中,广州SEO是最不可能从允许Googlebot的网站转移出去的.但这到底意味着什么?
robots.txt书写规范方法
正如前面所讨论的,不同robots.txt条目的一个大问题是它会阻止PageRank的流动.如果Google可以查看某个网站,则可以将引荐网域的链接资产通过该网站的出站网域传递到其他网站.如果某个网站被robots.txt阻止,就好像进入该网站的所有道路上的流量通道都被阻止了.通过计算所有进站车道的流量, 可以了解对链路图的总体影响.越低越好.
根据 研究,Majestic在17,787,118处提到了死路一条,Ahrefs在20,072,690处和广州SEO在16,598,365处.再次,广州SEO的robots.txt配置文件与Google的最相似.但是提到域名并不是 应该关注的唯一问题.
总页数被封锁
网络上的大多数页面只有内部链接.Google对创建链接图不感兴趣 - 他们有兴趣创建搜索引擎.因此,像Google这样设计的bot应该只关注只接收内部链接的页面,因为它们是接收外部链接的页面. 可以衡量的另一个指标是使用Google网站阻止的页面总数:查询来估计Google访问的页面数量,即不同的爬虫.那么,竞争的行业爬虫如何表现?越低越好.