明明sitemap里已经设置某页面禁止,为啥爬虫还会爬页面,还会提交数据这个爬虫是小程序官方的爬虫?
发布于 4 年前 作者 lidong 507 次浏览 来自 官方Issues

我们的小程序,有一个申请功能,这个申请功能呢,会直接推送消息给客户。

然后这几天,我们陆续收到客户的投诉,多次收到无效的申请消息。

一开始还以为是竞争对手之类的恶意在搞我们接口,可是一查,发现请求的UA全都是微信的爬虫,而且哪怕设置页面禁止爬虫,还是有挂着小程序爬虫UA的请求经常在刷接口,

而且IP地址发现确实都是在腾讯云的ip段内,我想确认一下,这个是否真的是微信小程序的爬虫,还是有人恶心在腾讯云内部部署爬虫在扫小程序?

如果确实是小程序的爬虫,那么为什么在设置了禁止爬取页面,仍然会有爬虫来爬?

还有小程序的爬虫能够明确一下官方小程序爬虫ip段都是哪些吗?好让我们分辨。

经查,这一堆UA挂着小程序爬虫的请求,ip段都是腾讯云的,而且全部都是直接绕过前端一些规则直接调用接口的

因为这个是页面是用户登陆后才能够调用的,因此会带上登陆相关的token,但是这些调用都没有token,很明显是绕过前端直接来的

基于安全考虑,我隐藏了地址和小程序信息。

后面的请求爬虫好像突然之间会登陆之后再来调用这个接口,然后就产生了无效信息发送到客户那里的事情了。

3 回复

总开关关了吗

要这个小程序官方的爬虫那是真恶心了,会乱提交表单,还会乱构造表单数据。

回到顶部