当前位置：首页 > 科技 > 正文

全网独家有效一键爬取微信公众号所有文章，原样保留格式成PDF

启示号
科技
1周前
64

还在手动截图或复制粘贴保存微信公众号的好文章？告诉你一个更高效的方法，可以让你自动化将你喜欢的微信公众号文章保存为PDF，而且格式不变！这不仅可以帮你轻松整理、归档文章，还能在作者删除或公众号被封时，依然保留那些珍贵的内容。今天，我将为大家带来一项颠覆性的技术——自动化爬取微信公众号文章并原样保留格式存储为PDF文件！从此告别繁琐，一键搞定！而且是全网独此真正有效代码

一、为何需要下载微信公众号文章为PDF？

微信公众号作为我们获取信息、学习知识的重要渠道，每天都有大量的优质文章涌现。然而，有时候我们会遇到一些不可预见的情况，比如文章被作者删除、微信公众号被封号等，导致我们无法再次找到这些好文章。或者，长按复制链接，打开网页版保存，但总是少了点什么——格式、图片、排版全都变了样。为了避免这些遗憾，将文章下载到本地并保存为PDF格式成为了一个很好的选择。PDF格式具有跨平台、不易修改等特点，能够确保文章内容的完整性和可读性。

二、如何实现微信公众号文章一键爬取并保存为PDF

前提准备

1.注册一个个人微信公众号用来获取想要爬取的公众号的长期地址

注册方法：《》

2.准备环境并安装相应的第三方库

# 这是爬虫必备库#用于转pdf的工具库，有一个exe应用程序，# 可以后台私信获取u#获取每一篇文章的api接口#依赖库默认是3.0.3版本，但是会报各种错误==0.11.15#安装正确版本

3.下载软件我会放到网盘里，后台私信''获取下载链接

批量获取微信公众号往期推送的URL、主题和时间

进入微信公众号——左侧草稿箱——新的创作—— 在图文编辑页中选择超链接——搜索你想要爬取的微信公众号名称——F12找到请求链接——复制curl bash——在网站中获取请求地址和请求参数——解析获取的结果，得到文章标题、文章时间和文章URL

import requestsimport jsonimport time

def crawl_all_article_url(page):

    cookies = {    'appmsglist_action_3948617697': 'card',    'ua_id': 'cPS3GpAA01IEkaRJAAAAAIvDxBMaEL0YwwkNCjBwcAQ=',    'wxuin': '00617100352084',    'mm_lang': 'zh_CN',    'pac_uid': '0_6f1a31a07c4ab',    'iip': '0',    '_qimei_uuid42': '17c1a0b23191007d54d4e4bc638bde211f0338f3bf',    '_qimei_q36': '',    '_qimei_h38': '8f95287254d4e4bc638bde2102000002517c1a',    'RK': 'jTHYN6T3Wp',    'ptcz': '7345f2bcdd021ede2b9e3b5ff3857a614e8f78a9ecdf01650aa9a3a225afd21e',    'pgv_pvid': '8536395802',    'ts_uid': '6019633394',    '__root_domain_v': '.weixin.qq.com',    '_qddaz': 'QD.243806759066417',    'qq_domain_video_guid_verify': '6e9c8245aad0e837',    '_qimei_fingerprint': '36d8e5c4ef2b920cd2da41f5f01ca167',    '_clck': '3902705164|1|fm1|0',    'uuid': '4f9478c2739d6acbb0878a2e7b6c7b35',    'rand_info': 'CAESINjnm2X0Xw6se5Kiw4ayZI9Ft4uFGZEaPM8tGhG8HhAl',    'slave_bizuin': '3902705164',    'data_bizuin': '3902705164',    'bizuin': '3902705164',    'data_ticket': 'DJqUc+FKg56UrvBm8mHaCSI28Je1eBjufcd/Bb1OMvhzcoXTTFoXRMrQIbNGjKtA',    'slave_sid': 'cG5yOWQzc0JrX3BNejZmMEhZWG5yN1JFZ1lzMzVWbW85aDZVRHpuSmw2UGVyaTczRFozdGFDMWpvd2ZQckhMbm5tX0pNc1FkcWNBX3VnbEFDZ29pZ3JLNW5hTEdqbm9ROXIyX01GMW5TeUYzQ2RhbUdoZmtldTJDS3N4eWlDYmR0MUd0ZUtqcmkxYjV0UGZj',    'slave_user': 'gh_19182aefb42a',    'xid': '081913df3456544c4dc84a51fd52778f',    '_clsk': '121cm1q|1716519674628|15|1|mp.weixin.qq.com/weheat-agent/payload/record',}
    headers = {        'accept': '*/*',        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',        # 'cookie': 'appmsglist_action_3948617697=card; ua_id=cPS3GpAA01IEkaRJAAAAAIvDxBMaEL0YwwkNCjBwcAQ=; wxuin=00617100352084; mm_lang=zh_CN; pac_uid=0_6f1a31a07c4ab; iip=0; _qimei_uuid42=17c1a0b23191007d54d4e4bc638bde211f0338f3bf; _qimei_q36=; _qimei_h38=8f95287254d4e4bc638bde2102000002517c1a; RK=jTHYN6T3Wp; ptcz=7345f2bcdd021ede2b9e3b5ff3857a614e8f78a9ecdf01650aa9a3a225afd21e; pgv_pvid=8536395802; ts_uid=6019633394; __root_domain_v=.weixin.qq.com; _qddaz=QD.243806759066417; qq_domain_video_guid_verify=6e9c8245aad0e837; _qimei_fingerprint=36d8e5c4ef2b920cd2da41f5f01ca167; _clck=3902705164|1|fm1|0; uuid=4f9478c2739d6acbb0878a2e7b6c7b35; rand_info=CAESINjnm2X0Xw6se5Kiw4ayZI9Ft4uFGZEaPM8tGhG8HhAl; slave_bizuin=3902705164; data_bizuin=3902705164; bizuin=3902705164; data_ticket=DJqUc+FKg56UrvBm8mHaCSI28Je1eBjufcd/Bb1OMvhzcoXTTFoXRMrQIbNGjKtA; slave_sid=cG5yOWQzc0JrX3BNejZmMEhZWG5yN1JFZ1lzMzVWbW85aDZVRHpuSmw2UGVyaTczRFozdGFDMWpvd2ZQckhMbm5tX0pNc1FkcWNBX3VnbEFDZ29pZ3JLNW5hTEdqbm9ROXIyX01GMW5TeUYzQ2RhbUdoZmtldTJDS3N4eWlDYmR0MUd0ZUtqcmkxYjV0UGZj; slave_user=gh_19182aefb42a; xid=081913df3456544c4dc84a51fd52778f; _clsk=121cm1q|1716519674628|15|1|mp.weixin.qq.com/weheat-agent/payload/record',        'referer': 'https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=77&createType=0&token=1635832127&lang=zh_CN×tamp=1716519674285',        'sec-ch-ua': ''Google Chrome';v='123', 'Not:A-Brand';v='8', 'Chromium';v='123'',        'sec-ch-ua-mobile': '?0',        'sec-ch-ua-platform': ''Windows'',        'sec-fetch-dest': 'empty',        'sec-fetch-mode': 'cors',        'sec-fetch-site': 'same-origin',        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36',        'x-requested-with': 'XMLHttpRequest',    }
    params = {        'sub': 'list',        'search_field': 'null',        'begin': f'{5*page}',        'count': '5',        'query': '',        'fakeid': 'MzkyMjY2MjMwOQ==',        'type': '101_1',        'free_publish_type': '1',        'sub_action': 'list_ex',        'token': '1635832127',        'lang': 'zh_CN',        'f': 'json',        'ajax': '1',    }    print(params)    response = requests.get('https://mp.weixin.qq.com/cgi-bin/appmsgpublish', params=params, cookies=cookies, headers=headers)
    resp = response.json()['publish_page']    # print(response.json())    resp = json.loads(resp)
    print(len(resp['publish_list']))    for i in resp['publish_list']:        article_links = []        art_info = json.loads(i['publish_info'])        art_title = art_info['appmsgex'][0]['title']        art_time = art_info['appmsgex'][0]['create_time']        art_date = date = time.strftime('%Y-%m-%d', time.localtime(art_time))        art_link = art_info['appmsgex'][0]['link']        a_info = {            'url': art_link,            'title': art_title,            'time': art_date        }        article_links.append(a_info)    return article_links
article_links= []foriinrange(7):#7是微信公众号文章页数
    page_link = crawl_all_article_url(i)    print(page_link)    article_links = article_links + page_link     time.sleep(5)

爬取所有文章并存储为PDF格式

得到文章所有的url之后下一步就是爬取文章的具体内容了，在这里要用到接口，直接pip 安装会存在依赖库版本问题，主要是库的版本不对，总是报错，我在这个地方卡了两天，直到试到版本==0.11.15 才成功，需要你做的是：

pip # 依赖库默认是3.0.3版本，但是会报各种错误pip3 ==0.11.15 # 安装正确版本

import pdfkitimport wechatsogou

def link_to_pdf(url, title, date):    ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)  # 调用接口    content_info = ws_api.get_article_content(url)  # 请求链接    content = content_info['content_html']  # 转换为html格式    # 将标题和文章内容放入如下html中处理一下    html = f'''                                                <span>{title}</span>                        {title}        {content}                '''
    # wkhtmltopdf可执行程序路径    path_wkthmltopdf = r'D:\software-dir\wkhtmltox\bin\wkhtmltopdf.exe'    config = pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)  # 配置pdfkit    pdfkit.from_string(html, f'{title} {date}.pdf',                       configuration=config)  # 转PDF，并按设定好的命名文件    print(f'{title}.pdf 已下载')forlinkinarticle_links:    url = link['url']    title = link['title']    date = link['time']    link_to_pdf(url, title, date)

你可能想看：

一键下载公众号所有文章，导出文件支持PDF，HTML，Markdown，Excel，chm等格式

原理就是通过抓包抓取微信客户端的接口，用Python请求微信接口获取公众号文章链接再下载。不过charles没安装证书前获取不到https接口数据。再次抓取可以看到公众号文章接口数据了?公众号文章的接...

《1253》配方/诸葛烤鱼、万州烤鱼的精准配方！《微信公众号：CYMS168》

万州烤鱼将腌、烤、炖三种烹饪方法有机结合，调制出麻辣、酱香、泡椒、椒香、葱香、尖椒味、蚝油味、香辣味、豉汁味、鲍汁味共十余种口味，姜粒15克：味精、精盐、鸡精各适量，1、把干花椒、八角、香叶、高良姜、...

如何下载微信公众号的视频和音频

但是右键并没有下载的选项，用浏览器打开微信文章。在视频或者音频右键点选审查元素，然后点击Network选项卡，然后点击Media。然后点击播放视频，点击copy，最后在浏览器的新标签，粘贴链接打开网页...

无需下载任何第三方软件，快速将多张图片合成PDF文件

对于普通用户来说不可能为了合成一个PDF文件专门去购买昂贵的专业软件，今天就教大家一个人人都能学会的将图片转换成PDF的方法。打开要制作成PDF的图片文件所在文件夹，确保图片显示顺序是正确的。按住Sh...

PDF转Excel不用动手打字！用这3个方法，一键自动生成！

这种格式的文档优势在于不管你在任何操作系统、任何设备、任何尺寸和分辨率屏幕上看到的显示效果都是一样的。PDF中大量的表格想要转换成可编辑的Excel表格时，让你轻松将PDF文档转换成可直接编辑的Exc...

公众号运营常用的12种活动形式（必读）

做活动是回复留言随机筛选。但明明公众号运营可以玩的活动形式有很多，让用户在活动时间内到图文的留言区进行回复，以最简单的方式测试有多少用户愿意参与互动。通过留言回复获取其他活动的参与资格，进而按照活动规...

知乎点击爆文，公众号标题写作攻略，7种干货标题技巧！

写作技巧总结，▌1、直言式，直接把事情，讲清楚，讲明白。文字游戏、隐喻、双关语等等，标题都是：信用体系需要；▌2、悬念式，在读者心中，留在文章中！讲清楚，上辈子：上非诚勿扰，▌3、消息式，新闻标题，标...

七种有效方法让你的文章更有文采

我们来给大家讲一下写出有文采文章的七种有效方法。读者并不能感受到她的情感“蕴蓄思念萦怀、感伤别离的孤独感、凄凉感的“然后把感情赋予具体的事物之上“看着车窗外如电影画面一般流逝而去的街景。好的文章总能把...

这3个PPT、PDF、Word互相转换的方法，99%的人都不知道！太实用了！

经常游走于PPT、Word和PDF之间还不够，PPT、Word互转！只需点击【文件】-【导出】-【创建讲义】-【只使用大纲】- 然后就转成Word了，之后保存Word文档即可，点击【开始】-【新建幻灯...

续山东考古录免费下载【清叶圭绶撰光绪刊本】,pdf

我的二本学生(pdf epub mobi azw3)电子书

《我的二本学生》是黄灯最新的一本非虚构作品。作者从自身的教学日常写起，尤其是在接受学生求助和咨询等琐碎的职业体验中，获得了学生群体成长的第一手资料，本书稿是对这些学生成长和困惑的体认，并结合作者自身的...

2020年12月英语四级真题第二套答案解析（电子版pdf）

英语主播皮卡丘，自行前往获取！今年的英语四级考试已经进入倒计时，很多小伙伴都问皮卡丘如何才能在段时间内通过四级考试。皮卡丘认为万变不离其宗，历年真题有很大的参考价值。所以把去年的最新真题研究透彻，一定...

再发一本好书《中医治愈奇病集成》，用了很长时间，pdf转过来的

用了很长时间才转换和校对成DOC格式，按我的排版，谁要是打印，为防止出错，请先打印目录部分，然后把目录删除，变成空白页（保证正文页码不变）再打印正文。因为后缀是z01上传不了，不得不将《中医治愈奇病集...

整整50页pdf！语文难点文言文实词，120个全部在这里，值得保存

文言文是初中语文的一大重点也是难点，更难理解的是意思。文言文的实词和虚词更是同学们容易犯错的点，使同学们更难区分，翻译语句就无从下手。今天给大家分享50页的文言文实词pdf文件，里面包含了120个实词...

还在手动把PDF转换成Word?聪明人都是这样“偷懒”的!

转个Word格式也得纯靠键盘输出，这是个主流文档转换工具，把你要转换的文档直接拖拽进来，直接筛去无需转换的页码。步骤二、确认转换模式，以文字为主的PDF文档默认「常规转换」。建议选择OCR转换！这样图...

肋痛，胆囊炎，胃疼，胰腺炎痛，肝癌痛都有效一张方子，必须是她！

柴胡15g、黄芩10g、半夏15g、生姜5g、党参10g、炙甘草6g、牡蛎30g、青皮10g、片姜黄12g。胁痛左属瘀留血。右属痰气重逐饮，本方橘红枳实化痰行气，姜黄跟郁金类似也有活血止痛功效，治右胁...

EXCEL | 使用特殊符号自定义单元格格式，要什么格式你做主

单元格格式中常使用特殊符号来定义特殊格式。如果单元格的内容大于指定占位符；则显示实际数字，代表设置单元格格式为四位整数，A3单元格中数字，数字占位符“在小数点两边为无意义的零添加空格?自定义添加千分位...

所有唐诗，熟读这5首，聊天也有文艺范，一看就是文化人！

《全唐诗》可以说是收录了唐朝有记载的所有的诗作，落月摇情满江树，崔颢的这首诗？且看严羽《沧浪诗话》里的评价“当时李白登上黄鹤楼后，有人请李白题诗，当李白看到崔颢的这首诗后，崔颢题诗在上头“章太炎推《凉...

VBA遍历所有文件夹的两种方法（filesearch和FileSystemObject）

另外一种是使用FileSystemObject(windows文件管理工具)和递归方法。

民法典：所有权保留买卖与让与担保

）中对于所有权保留买卖与让与担保进行了规定。所有权保留买卖中买卖双方是通过约定来排除标的物交付对于物权变动的影响，所有权保留买卖应仅适用于以交付作为所有权转移公示方式的动产，而且出卖人对标的物保留的所...

飞机票怎么买最便宜？看完这篇文章，买机票再也不求人

买机票时大家都会去抢便宜又合适的机票，今天小编总结了一些买便宜机票的小技巧，小编在寻找便宜的机票和形成搭配的时候，比如有些不能选座、容易遇到捆绑销售、退改签要收费等等，然后对比各家航空公司官网价格来选...

如何写出逻辑清晰的文章，构思框架很重要文...

如何写出逻辑清晰的文章，构思框架很重要，文章的结构有很多。我们先来说一下总分总的文章结构：这是一种三段式的文章结构，总—开头阐述主题；表明总论点，分—中间部分阐述论点或者讲述故事；来支撑自己的观点，总...

今年最舍不得发布的一篇文章，真的不要错过！

关注我比较久的朋友知道。只要你的回答文章质量不错。是我很喜欢的一位博主分享的创作和变现方法，大家都觉得写文可以轻松实现财务自由。因为写作这件事儿的复利效应远比你想得更大，下面具体的分享几个六个主流的写...

这篇文章，破除你对社交的困惑

我们似乎正活在一个低社交的时代，人类的大脑会不断地理解现实生活中的问题：我们的大脑天生就会对「人类的反馈」更加敏感，会在大脑中引起跟饥渴非常相似的反应，更需要依赖于外在的刺激和反馈 —— 亦即比如游戏...

这篇文章，讲透「复盘」

因为成长思维告诉我们，其实都会变得不值一提，这也是我判断一件事情有没有价值的标准之一，只要我能够从中获得成长 —— 不论是经验、能力，没有能够从经验中真正学到东西，反复多次强调「复盘」的原因所在，今天...

100篇时间管理精选文章，深度好文（建议收藏）

这篇文章整理了易效能【时间管理】公众号内所有文章目录，希望能帮助您快速获取最需要的知识（强烈建议收藏）。精选100篇时间管理深度好文章给您参考？时间管理专家叶武滨老师深耕时间管理领域多年，总结出一套非...

写作文和写文章，根本不是一回事

中国台湾作家张大春就目前语文教育存在的问题展开了话题。他谈了写作文和写文章的区别，我把写文章和写作文分得很清楚。有的人认为小时候作文写得好，如果从小写作文能够顺理成章，也能够在工作岗位上写出一些比较得...

网络协议数据传输网络通信

上一篇
柴胡加龙骨牡蛎汤去大黄合当归芍药散治顽固心悸案（李跃海）

下一篇
逆向思维：运用不一样的思维模式，你就能得到不一样的人生

全网独家有效一键爬取微信公众号所有文章，原样保留格式成PDF

{title}

最新文章

626969cm精准资料手机版

626969cm资料查询工具

626969手机资料网

最准626969资料查询

研读一本好书丨读《习近平讲党史故事》之“沂蒙六姐妹”故事有感

626969实时资料网

爱你，看不到你时胡思乱想；想你，想你时眼在流泪，心也跟着碎

626969cm精准资料网站

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子