当前位置：首页 > 科技 > 正文

一键下载公众号所有文章，导出文件支持PDF，HTML，Markdown，Excel，chm等格式

启示号
科技
3年前
481

上面写的备份公众号方法都是单篇备份，如果你想备份某个公众号的所有文章，就有点太麻烦了，所以今天分享的是用Python一键备份某个公众号的所有文章，再也不用担心想看的文章被删了，这里就以我自己的公众号苏生不惑为例了，原理就是通过抓包抓取微信客户端的接口，用Python请求微信接口获取公众号文章链接再下载。

charles 抓包

常见的抓包工具有Fiddler，charles，这里用的charles，先去官网 https://www.charlesproxy.com/download 下载软件,然后打开微信客户端找到公众号，进入文章列表可以看到发过的文章。

不过charles没安装证书前获取不到https接口数据，显示unknown。

安装证书后在 proxy->ssl proxying settings 添加域名和host 。

再次抓取可以看到公众号文章接口数据了。

公众号文章的接口地址/mp/profile_ext?action=getmsg&__biz=MjM5ODIzNDEx&f=json&offset=25&count=10&is_ok=1&scene=124&uin=MTU0MTQzNj&key=f57423 ，参数比较多，其中有用的参数 __biz 是用户和公众号之间的唯一id，uin是用户的id，这个是不变的，key 是请求的秘钥，一段时间就会失效，offset 是偏移量，count 是每次请求的条数，返回值可以看到返回数据包括文章标题titile、摘要digest、文章地址content_url、阅读原文地址source_url、封面cover、作者author ，只要抓取这些有用的数据就行了。

python 抓取公众号文章

上面分析了接口参数和返回数据，开始用Python请求微信接口就是了。

这里只抓取原创文章，我的公众号有160多篇原创，生成HTML文件2分钟就搞定了。

用谷歌浏览器打开就能看。

生成的HTML文件还可以转成chm格式，需要先安装软件 Easy CHM，这是一款强大的CHM电子书或CHM帮助文件的快速制作工具 http://www.etextwizard.com/cn/easychm.html

左侧是文章标题，右侧是文章内容，看起来非常方便。

还有含有文章标题和链接的 markdown 文件，关于markdown之前文章介绍过用 Markdown 来写简历和 PPT。

excel文件格式也有。

生成HTML，markdown和Excel都比较快，因为都是文本，下面开始导出PDF。

导出PDF

导出PDF用的工具是wkhtmltopdf ，先到官网https://wkhtmltopdf.org/downloads.html 下载安装 wkhtmltopdf ，安装后设置环境变量，这个之前文章写过那些你可能不知道的 windows 奇技淫巧，然后直接命令行就能生成PDF。

λ wkhtmltopdf http://www.baidu.com baidu.pdf Loading pages (1/6) Counting pages (2/6) Resolving links (4/6) Loading headers and footers (5/6) Printing pages (6/6) Done

比如生成百度首页的PDF。

Python中使用pdfkit 模块来调用wkhtmltopdf ，先用pip install pdfkit -i http://pypi.douban.com/simple --trusted-host pypi.douban.com来安装它。

再次运行程序，PDF文件也生成了。

PDF也可以用谷歌浏览器直接打开，比如这篇一键解锁网易云音乐变灰歌曲。

不过由于生成PDF比较慢，文章多的话key参数会失效，需要重新获取，然后修改next_offset继续抓取。

你可能想看：

Excel VBA 7.19 Excel跨工作薄多工作表数据合并之Excel表格多行表头

所以我们今天针对多行表头的数据汇总来分析下方法场景模拟假设我们要统计的Excel中每个表格都有表头，1) End If Next sth End If ActiveWorkbook.Close Fal...

PDF转Excel不用动手打字！用这3个方法，一键自动生成！

这种格式的文档优势在于不管你在任何操作系统、任何设备、任何尺寸和分辨率屏幕上看到的显示效果都是一样的。PDF中大量的表格想要转换成可编辑的Excel表格时，让你轻松将PDF文档转换成可直接编辑的Exc...

自定义格式，Excel的最强“化妆术”，居然可以让数字显示为汉字

2.删除E+显示当在Excel中输入的数据超过11位的时候，数据就会被自动的设置为E+显示，然后点击确定即可不过我们需要注意的是Excel的精度只有15位，只有将格式设置为0后再输入数据才可以，3.负...

《Excel2003入门动画教程27、Excel拆分表格》

《Excel2003入门动画教程27、Excel拆分表格》。　　演示动画，　　操作步骤，　　有时候在Excel中：们需要比较浏览同一工作表中不同区域的数据时，可以通过折分窗口来实现“　　选中窗口中部的...

Excel 中Alt键的高手用法 Excel必学技巧

即可一键生成柱形图，Alt加Enter（回车键）单元格内强制换行五、Alt加数字键输入符号 (需要在带有小键盘的电脑上操作哦）Alt加41446输入温度符号Alt加41409输入错号Alt加41420...

VS2010操作Excel2010，报错解决及读写excel

加到模块std中:#include "CWorksheet.h";#include "CRange.h":5、将以上头文件的#import "C;\\Program Files\\Microsoft ...

Excel教程：30秒做好Excel超链接目录

工作表前面插入一张空白工作表Sheet。点击右键，查看代码会激活VBE编辑器界面，点击插入——模块，并且复制以下代码到右边编辑区。"选择目录起始单元格",Excel提示我们是否VB项目，选择文件保存类...

EXCEL | 使用特殊符号自定义单元格格式，要什么格式你做主

单元格格式中常使用特殊符号来定义特殊格式。如果单元格的内容大于指定占位符；则显示实际数字，代表设置单元格格式为四位整数，A3单元格中数字，数字占位符“在小数点两边为无意义的零添加空格?自定义添加千分位...

Excel VBA解读（53）：高级筛选——AdvancedFilter方法

我们先使用Excel的录制宏工具录制一段进行高级筛选操作的代码，先在单元格G1中输入标题，选择单元格区域A1”则可以选择整个数据区域“就用不着每次都要选择不同的列表区域了”表明将数据复制到由参数Cop...

实战案例，Excel条件统计终于搞懂了！

N(文本)=0;='&那么可以使用简单的IF+COUNTIF,IF(B2<，=90;【拓展学习->自己使用可以怎么简单怎么来;可以直接使用上面的MMULT一个公式处理;这里我们可以使用SUBTOT...

VBA遍历所有文件夹的两种方法（filesearch和FileSystemObject）

另外一种是使用FileSystemObject(windows文件管理工具)和递归方法。

无需下载任何第三方软件，快速将多张图片合成PDF文件

对于普通用户来说不可能为了合成一个PDF文件专门去购买昂贵的专业软件，今天就教大家一个人人都能学会的将图片转换成PDF的方法。打开要制作成PDF的图片文件所在文件夹，确保图片显示顺序是正确的。按住Sh...

一直以为自己擅长Excel，直到遇见这些神技!

中选择输入「=$A2<”点击「格式」-「填充」;=OR(AND(ROW()>AND(COLUMN()>② 右键点击「Sheet1」-「查看代码」;Private Worksheet_Se...

对比Excel，轻松学习Python报表自动化实战，这篇教程有点肝!

轻松学习Python报表自动化》中关于报表自动化实战的内容。并教你用Python实现工作中的一个报表自动化实战，1.Excel的基本组成2.一份报表自动化的流程3.报表自动化实战 -当日各项指标同环...

如何下载微信公众号的视频和音频

但是右键并没有下载的选项，用浏览器打开微信文章。在视频或者音频右键点选审查元素，然后点击Network选项卡，然后点击Media。然后点击播放视频，点击copy，最后在浏览器的新标签，粘贴链接打开网页...

英语阅读与口语训练：英译英阅读 look a bit down

英译英阅读 look a bit down 对于长年长期身处非英语语言环境下却又希望能学学英语，非英语语言环境下的我们学习英语时首先需要解决的问题是：互联网+英语学习工具”而这个问题又恰恰是在非英...

Excel 2016数据透视表与条件格式

Excel2016数据透视表应用大全突出显示数据透视表中的特定数据。图5-40设置条件格式前的数据透视表步骤1选中; 在【背景色】颜色库中选择;图5-43新建格式规则图...

那些名气不高，而又超级好用的Excel公式汇集！（内含1784篇文章合集）

N就是提取多少位字符的意思,=LEFT(字符串，=RIGHT(字符串，=MID(字符串。在身份证提取相关信息的时候就会用到,假设现在有地区码这张对应表,=VLOOKUP(LEFT(A2。再用TEXT转...

职场必学的Excel打印技巧，这5个方法，1秒打印所有内容

看到这样打印的表格相信会抓狂滴。制作好的表格打印后，这样再打印表格就在一张纸上了，普通打印时除第1页纸有标题行（也就是表头部分）外，查看数据时还要翻到第1页纸看看标题：鼠标点击【页面布局】选项卡中的【...

Excel公式技巧01：使用INDEX函数返回整行或整列

INDEX函数是我们经常使用的函数之一，如果将其行参数或者列参数指定为0（或者忽略）。那么会返回对指定列或行的引用，这里返回的不是单个值。返回数据区域A1:=INDEX(A1：返回数据区域A1，即单元...

excel查找定位：INDEX函数——精确制导导弹

一、认识INDEX函数Index函数：返回特定行列交叉处单元格的值或引用。二、INDEX函数基础用法1.单行、单列中提取数值”只需一个坐标值如果给定的区域是单行或者单列。INDEX通过坐标返回数值”实...

续山东考古录免费下载【清叶圭绶撰光绪刊本】,pdf

公众号运营常用的12种活动形式（必读）

做活动是回复留言随机筛选。但明明公众号运营可以玩的活动形式有很多，让用户在活动时间内到图文的留言区进行回复，以最简单的方式测试有多少用户愿意参与互动。通过留言回复获取其他活动的参与资格，进而按照活动规...

《1253》配方/诸葛烤鱼、万州烤鱼的精准配方！《微信公众号：CYMS168》

万州烤鱼将腌、烤、炖三种烹饪方法有机结合，调制出麻辣、酱香、泡椒、椒香、葱香、尖椒味、蚝油味、香辣味、豉汁味、鲍汁味共十余种口味，姜粒15克：味精、精盐、鸡精各适量，1、把干花椒、八角、香叶、高良姜、...

知乎点击爆文，公众号标题写作攻略，7种干货标题技巧！

写作技巧总结，▌1、直言式，直接把事情，讲清楚，讲明白。文字游戏、隐喻、双关语等等，标题都是：信用体系需要；▌2、悬念式，在读者心中，留在文章中！讲清楚，上辈子：上非诚勿扰，▌3、消息式，新闻标题，标...

深度解析：PD-L1 MSI TMB EBV谁是最好的免疫治疗生物标志物？

癌症患者人人做梦都想接受IO治疗。PD-L1、MSI、TMB、EBV都仔仔细细全测了一遍。在同一个患者群中提供了各个标记物的价值对比，PD-L1是一种在肿瘤细胞表面表达的蛋白？神奇的免疫治疗其实就是通...

文章公众号数据接口 HTML

上一篇
Excel 中Alt键的高手用法 Excel必学技巧

下一篇
proe中意外拭除了所有版本的问题

一键下载公众号所有文章，导出文件支持PDF，HTML，Markdown，Excel，chm等格式

有话要说...取消回复

最新文章

治疗毛细血管瘤有妙方，溃疡病人的饮食，调味佳品花椒

世界专家谈《阴阳平衡》----肽

裴永清读《伤寒论》的学习方法

清代名中医的“经验方”

冬季推荐18个中医泡脚配方

陈士铎在治疗健忘与痴呆方面的贡献

145.地黄饮子详解研讨

郭生白本能论方剂：生化汤、化脂汤、排异汤、强生粥

热门文章