微信公众号文章爬取方法整理

1.用python爬取http://blog.csdn.net/d1240673769/article/details/75907152完成方式:根据手机微信带来的微信文章启用插口,完成爬取微信文章的作用

流程:

1.必须安裝python selenium控制模块包,根据selenium中的webdriver推动电脑浏览器获取Cookie的方式、来做到登陆的实际效果;

2.应用webdriver作用必须安裝相匹配电脑浏览器的推动软件,我这里检测用的是谷歌游览器: google chrome版本为52.0.2743.6 ; chromedriver版本为:V2.23 留意:谷歌游览器版本和chromedriver必须相匹配,不然会造成运行日报错。【附:selenium之 chromedriver与chrome版本投射表(升级至v2.30)http://blog.csdn.net/huilan_same/article/details/5 ** 6672)】

3.微信公众平台登录详细地址:https://mp.weixin.qq.com/

4.微信公众平台文章内容插口详细地址可以在微信公众平台后台管理中新创建文图信息,超链作用中获取:

5.搜索公众号名字

6.获取要爬取的微信公众号的fakeid

7.选中要爬取的微信公众号,获取文章内容插口详细地址

8.文章列表换页及內容获取

2.AnyProxy代理批量采集https://zhuanlan.zhihu.com/p/24302048完成方式:anyproxy js

https:// ** .cnblogs.com/luojiangwen/p/7943696.html完成方式:anyproxy java web ** gic

3.FiddlerCorehttps:// ** .v2ex.com/t/181857完成方式:抓包工具,Fiddler4

根据对好几个账户开展抓包软件剖析,可以明确:

_biz:这一14位的字符串数组是每一个微信公众号的“id”,搜狗搜索的微信公众平台可以得到uin:与来访者相关,微信号码idkey:和所浏览的微信公众号相关

流程:

1,写按键精灵脚本,在手机上自动点击公众号文章列表页,也就是“查看信息”;2,应用fiddler代理挟持手机上端浏览,将网址分享到当地用php写的网页页面;3,在php网页上把接受到的网址备份数据到数据库查询;4,用python从数据库取下网址,随后实现常规的爬取。

爬的历程中发觉一个问题:假如仅仅想爬取文章,好像并没浏览頻率限定,但假如想爬取点击数、关注点赞数,超出一定頻率后,回到便会变成空值,我设置的间隔时间为10秒,可以一切正常爬取,这类頻率下,一个小时只有爬取360条,早已没有什么现实意义了。

4.清博 清博指数

假如就是要看数据信息得话,直接看每日的排行榜就可以了,还无需掏钱,假如必须连接自身的系统软件得话,她们也给予api接口

扫码免费用

源码支持二开

申请免费使用

在线咨询