HTTP/1.1" 200 1393 “https://servicewechat.com/wxc8523abf72921800/26/page-frame.html” “Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1 MicroMessenger/6.5 mpcrawler” “-”
最近nginx日志上出现很多这样的请求,想问一下,如果我们屏蔽掉这些浏览器头的请求,会不会有问题?
微信现已开放小程序内搜索,开发者可以通过 sitemap.json
配置,或者管理后台页面收录开关来配置其小程序页面是否允许微信索引。当开发者允许微信索引时,微信会通过爬虫的形式,为小程序的页面内容建立索引。当用户的搜索词条触发该索引时,小程序的页面将可能展示在搜索结果中。 爬虫访问小程序内页面时,会携带特定的 user-agent:mpcrawler
及场景值:1129
。需要注意的是,若小程序爬虫发现的页面数据和真实用户的呈现不一致,那么该页面将不会进入索引中
具体请参考:
1、页面收录设置:可对整个小程序的索引进行关闭,小程序管理后台-设置-基本设置-页面收录设置;(https://mp.weixin.qq.com/wxopen/readtemplate?t=config/collection_agreement_tmpl)
2、sitemap 配置:可对特定页面的索引进行关闭(https://developers.weixin.qq.com/miniprogram/dev/framework/sitemap.html)