明明sitemap里已经设置某页面禁止,为啥爬虫还会爬页面,还会提交数据这个爬虫是小程序官方的爬虫?
我们的小程序,有一个申请功能,这个申请功能呢,会直接推送消息给客户。
然后这几天,我们陆续收到客户的投诉,多次收到无效的申请消息。
一开始还以为是竞争对手之类的恶意在搞我们接口,可是一查,发现请求的UA全都是微信的爬虫,而且哪怕设置页面禁止爬虫,还是有挂着小程序爬虫UA的请求经常在刷接口,
而且IP地址发现确实都是在腾讯云的ip段内,我想确认一下,这个是否真的是微信小程序的爬虫,还是有人恶心在腾讯云内部部署爬虫在扫小程序?
如果确实是小程序的爬虫,那么为什么在设置了禁止爬取页面,仍然会有爬虫来爬?
还有小程序的爬虫能够明确一下官方小程序爬虫ip段都是哪些吗?好让我们分辨。
经查,这一堆UA挂着小程序爬虫的请求,ip段都是腾讯云的,而且全部都是直接绕过前端一些规则直接调用接口的
因为这个是页面是用户登陆后才能够调用的,因此会带上登陆相关的token,但是这些调用都没有token,很明显是绕过前端直接来的
基于安全考虑,我隐藏了地址和小程序信息。
后面的请求爬虫好像突然之间会登陆之后再来调用这个接口,然后就产生了无效信息发送到客户那里的事情了。
3 回复