今天又有一个学员咨询关于网站日志的问题;他发现404状态下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的网站本身不存在的url的抓取。这是怎么回事呢?是否影响网站排名?以专注于线上seo培训的魔贝课凡的另外一个博客为例,这个网站的日志404异常状态URL如下图所示;
出现非本网站的目录或链接,或者不存在的页面的主要原因是:
有人在试图扫描网站漏洞,看看特定位置是否有特定文件。分析如下:
head 是 http 中像 GET、POST 一样的请求方式,与 GET 不同的是:客户端向服务器发送 HEAD 请求。服务器只会返回页面的 head 头部部分,这就比请求页面主体部分快得多。网站日志记录的 IP 显然是通过HEAD扫描网站根目录中可能的文件,通过 HTTP 状态码,攻击者就可以知道它随机扫描的文件是否存在,如果存在的话就进行下载。当然,日志中清一色的404(请求的资源不存在)说明攻击者并没有得逞。推荐阅读:常用的网站日志分析工具
对于这类蜘蛛的访问,我们采取直接屏蔽IP方法,但是对方也有可能会切换不同的IP进行访问,对于切换IP的方式,我们只能见一个屏蔽一个,没有办法预知对方要使用的IP。