小程序搜索推送接口:https://developers.weixin.qq.com/miniprogram/dev/api-backend/open-api/search/search.submitPages.html
小程序获取assess_token:https://developers.weixin.qq.com/miniprogram/dev/api-backend/open-api/access-token/auth.getAccessToken.html
当时看到小程序页面收录的时候也是很恍然,一直都没有怎么注意到这个东西,直到加了微信小程序社区的官方群才看到有人提及这个东西,索性点进去看了一下,发现收录页面达到了17万,应该不算太多,属于爬虫自然收录。
也有过人问过我怎么做收录的,真的,就是自然收录,无非是详情页比较重要而已,因为参数的不同收录肯定会增多很多,前提是不要随意的拦截用户登录。当然也和朋友交流过这方面的东西,后面发现收录是周期性的,大概是间隔7天左右会有一次上涨,所以过了几天之后涨了4万达到了21万。
但是他们都是页面推送的收录,我去看了下发现我们的是一个推送收录都没有,然后大概的问了问自己就写了一份推送收录的Python脚本。
废话过多直接上代码吧,如有不足之处还望指教。
import requests
import math
import time
import json
"""
[@author](/user/author): axin
[@time](/user/time):2019/12/14 14:30
[@File](/user/File): smpush.py
"""
# 设置配置信息
appid = "" # 小程序appid
secret = "" # 小程序secret
sn = 990 # 每次推送数量
timer = 5 # 每次睡眠时间
# 获取小程序assess_token
tokenUrl = "https://api.weixin.qq.com/cgi-bin/token?grant_type=client_credential&appid={}&secret={}".format(appid, secret)
tokenReq = requests.get(tokenUrl)
tokenResp = tokenReq.json()
token = tokenResp['access_token']
# 拼接推送链接
url = "https://api.weixin.qq.com/wxa/search/wxaapi_submitpages?access_token={}".format(token)
# 获取小程序招工推送列表
postData = {
"access_token": token,
"pages": []
}
#读取所有待推送信息
with open('ids.txt', 'r') as f:
ids = f.read()
ids = ids.split(",") # 切割成数组保存
idsLen = len(ids) # 获取数组长度
maxGroup = math.ceil(idsLen / sn) # 最大的分组数量
group_m = -1
lists = [] # 使用新数组保存
for i in range(idsLen):
if i % sn == 0:
group_m += 1
lists.append([ids[i]])
else:
lists[group_m].append(ids[i])
#分组推送
sign = 0 # 标记当前推送条数
for item in lists:
arrData = [] # 声明或重置待提交数组
for i in item:
data = {
"path": "pages/detail/info/info",
"query": "id=" + i
}
arrData.append(data)
postData['pages'] = arrData
onceReq = requests.post(url, json.dumps(postData))
onceRes = onceReq.json()
signStart = sign * sn
signEnd = (sign * sn) + sn
if onceRes['errcode'] == 0:
print("当前推送第{} - {} 条:成功!最后一条数据为:{}".format(signStart, signEnd, arrData[-1]))
elif onceRes['errcode'] == 47006:
print("当前推送第{} - {} 条:失败!返回状态码:{},最后一条数据为:{}, 当日推送已达到最大上限!".format(signStart, signEnd, onceRes['errcode'], arrData[-1]))
break
else:
print("当前推送第{} - {} 条:失败!返回状态码:{},最后一条数据为:{}".format(signStart, signEnd, onceRes['errcode'], arrData[-1]))
sign += 1
time.sleep(timer) # 设置睡眠时间
还有一个参数文本,由于id过多就将id导入了一个txt,然后读取之后用","进行了一次分割。
感谢@克隆🐑多利建议改了Python的format以及下掉eval
如有错误或者探讨欢迎留言,看到必回。
最后也祝大家的页面尽早收录。
掘金地址:https://juejin.im/post/5e99a5486fb9a03c576cbf6c
因为刚开始在掘金写文章,如果对您有用,还望赐给小弟一个赞赞。