python实现小程序推送页面收录 - WXOPEN Club

小程序搜索推送接口：https://developers.weixin.qq.com/miniprogram/dev/api-backend/open-api/search/search.submitPages.html

小程序获取assess_token：https://developers.weixin.qq.com/miniprogram/dev/api-backend/open-api/access-token/auth.getAccessToken.html

当时看到小程序页面收录的时候也是很恍然，一直都没有怎么注意到这个东西，直到加了微信小程序社区的官方群才看到有人提及这个东西，索性点进去看了一下，发现收录页面达到了17万，应该不算太多，属于爬虫自然收录。

也有过人问过我怎么做收录的，真的，就是自然收录，无非是详情页比较重要而已，因为参数的不同收录肯定会增多很多，前提是不要随意的拦截用户登录。当然也和朋友交流过这方面的东西，后面发现收录是周期性的，大概是间隔7天左右会有一次上涨，所以过了几天之后涨了4万达到了21万。

但是他们都是页面推送的收录，我去看了下发现我们的是一个推送收录都没有，然后大概的问了问自己就写了一份推送收录的Python脚本。

废话过多直接上代码吧，如有不足之处还望指教。

import requests
import math
import time
import json

"""
[@author](/user/author): axin
[@time](/user/time):2019/12/14 14:30
[@File](/user/File): smpush.py
"""

# 设置配置信息
appid = ""     # 小程序appid
secret = ""    # 小程序secret
sn = 990        # 每次推送数量
timer = 5      # 每次睡眠时间

# 获取小程序assess_token
tokenUrl = "https://api.weixin.qq.com/cgi-bin/token?grant_type=client_credential&appid={}&secret={}".format(appid, secret)
tokenReq = requests.get(tokenUrl)
tokenResp = tokenReq.json()
token = tokenResp['access_token']

# 拼接推送链接
url = "https://api.weixin.qq.com/wxa/search/wxaapi_submitpages?access_token={}".format(token)

# 获取小程序招工推送列表
postData = {
    "access_token": token,
    "pages": []
}

#读取所有待推送信息
with open('ids.txt', 'r') as f:
    ids = f.read()
    ids = ids.split(",")   # 切割成数组保存
    idsLen = len(ids)      # 获取数组长度
    maxGroup = math.ceil(idsLen / sn)  # 最大的分组数量
    group_m = -1
    lists = []   # 使用新数组保存
    for i in range(idsLen):
        if i % sn == 0:
            group_m += 1
            lists.append([ids[i]])
        else:
            lists[group_m].append(ids[i])

    #分组推送
    sign = 0  # 标记当前推送条数
    for item in lists:
        arrData = []  # 声明或重置待提交数组
        for i in item:
            data = {
                "path": "pages/detail/info/info",
                "query": "id=" + i
            }
            arrData.append(data)

        postData['pages'] = arrData
        onceReq = requests.post(url, json.dumps(postData))
        onceRes = onceReq.json()
        signStart = sign * sn
        signEnd = (sign * sn) + sn
        if onceRes['errcode'] == 0:
            print("当前推送第{} - {} 条：成功！最后一条数据为：{}".format(signStart, signEnd, arrData[-1]))
        elif onceRes['errcode'] == 47006:
            print("当前推送第{} - {} 条：失败！返回状态码：{},最后一条数据为：{}, 当日推送已达到最大上限！".format(signStart, signEnd, onceRes['errcode'], arrData[-1]))
            break
        else:
            print("当前推送第{} - {} 条：失败！返回状态码：{},最后一条数据为：{}".format(signStart, signEnd, onceRes['errcode'], arrData[-1]))

        sign += 1
        time.sleep(timer)  # 设置睡眠时间

还有一个参数文本，由于id过多就将id导入了一个txt,然后读取之后用","进行了一次分割。

感谢@克隆🐑多利建议改了Python的format以及下掉eval

如有错误或者探讨欢迎留言，看到必回。

最后也祝大家的页面尽早收录。

掘金地址：https://juejin.im/post/5e99a5486fb9a03c576cbf6c

因为刚开始在掘金写文章，如果对您有用，还望赐给小弟一个赞赞。