当前位置：首页 > 科技 > 正文

Python爬虫实战：东方财富网股吧数据爬取（一）

启示号
科技
9小时前
1159

Python爬虫实战系列文章目录

前言

朋友托我写个爬虫，本身是个爬虫小白的我还是接受了此次重任，总共历时五天左右，过程中遇到过无数bug，好在一路披荆斩棘，还是大差不差的完成了此次委托！但感觉这次的经历还是有必要和大家分享一下，正好最近也没有写博文了，趁这次机会赶赶进度！

一、项目说明

项目需求：股吧中人们的言论行为和股市涨跌的延迟相关性
数据来源：、
数据字段：阅读、评论、标题、作者、更新时间
实现功能：读取每个公司股吧的全部页面的数据并写入excel表中

二、实施过程

以为例

1.明确获取网页中哪些数据

我们需要爬取的是东方财富吧中全部发帖信息的阅读、评论、标题、作者及最后更新时间这五个字段的数据，我一开始想也不是很难，解析一下网页匹配一下对应的标签值就可以了，但后面还是出现了各种各样的问题，需要大家注意一下。

2.查看网页源代码分析结构

① 网页源代码

首先打开网页的开发者工具（Ctrl+Shift+i），在源代码中查找对应字段的标签结构。

从图中可以看出，这五个字段分别位于行标签内，对应的属性分别是"l1 a1"、"l2 a2"、"l3 a3"、"l4 a4"、"l5 a5"。想必大家已经有思路了，我们可以通过先获取网页代码，再解析网页查询对应的五个字段，最后做一个提取就可以了。

② 网页链接

【东方财富吧：300059】
首页：
第二页：
可以看出个股吧链接主要由三部分组成：list、名称代码、页数

I.的数字代码

II. 翻页数据

如何得到不同股吧的所有翻页数据，着实让我找了好久，各种资源我都找了可惜还是没有发现，突然无意之中我找到了解决办法，我直接一个好家伙！

跟上述的五类字段一样，我们查看一下页数的代码字段，如下图所示：

我的第一个办法是直接解析网页后找到标签下的sumpage属性，其内容即为总页数，本来以为原来这么好获取，结果解析完才发现，pagernums里的内容是动态的，即span.on是会随页而变化的，故直接requests并不能获取到，但是还是被我发现了玄机！

大家可以看data-pager这里，里面的内容是list,300059_|452885|80|2，我对比了几个页面后发现其中数字分别代表的是：

300059：股吧数字代码452885：该股吧共发帖452885条
80：每个页面分别有80条贴子
2：当前所处页面为第2页

那么这时候，我们就可以直接用累积多年的算力（小学除法）算出东方财富吧共有452885/80=5661.0625，向上取整共5662页！如果你也脱口而出好家伙的话，请在屏幕下方打出来！

3.爬虫需要具备的功能

基本问题解决了，我们可以开始编写爬虫了。这部分不讲代码原理，只解释代码功能。自己也是小白，如果代码存在问题或不清楚的话，欢迎大家在下方留言，我一定及时回复。

① 获取网页源代码

defgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.textexcept:print("获取网页内容失败！")

② 解析网页并提取数据字段

defparsePage(html):list=[]#我用的二维数组存储read=[]comment=[]title=[]author=[]time=[]try:#print(html)soup=BeautifulSoup(html,"html.parser")foreachinsoup.find_all('span','l1a1'):if'万'ineach.string:each.string=each.string[:-2]read.append(each.string)read=read[1:]#read[0]=='阅读'list.append(read)foreachinsoup.find_all('span','l2a2'):comment.append(each.string)comment=comment[1:]#comment[0]=='评论'list.append(comment)foreachinsoup.find_all('span','l3a3'):first=each.select('a:nth-of-type(1)')foriinfirst:i.find_all("a")#print(i.title)title.append(i.title)list.append(title)foreachinsoup.find_all('span','l4a4'):first=each.select('font:nth-of-type(1)')foriinfirst:i.find_all("font")#print(i.title)author.append(i.title)list.append(author)foreachinsoup.find_all('span','l5a5'):time.append(each.string)time=time[1:]#time[0]=='最后更新'list.append(time)except:print("解析网页字段失败！")returnlist

③ 获取贴吧总页数

基于解析的网页直接find_all也是可以的

defget_total_pages_num(url):try:chrome_options=webdriver.ChromeOptions()chrome_options.add_argument('--headless')chrome_options.add_argument('lang=zh_CN.UTF-8')chrome_options.add_argument('User-Agent="Mozilla/5.0(Macintosh;IntelMacOSX10_12_6)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.162Safari/537.36"')chrome_options.add_argument('--disable-extensions')chrome_options.add_argument('--disable-gpu')chrome_options.add_argument('--no-sandbox')driver=webdriver.Chrome(options=chrome_options)driver.get(url)page_data=driver.find_element_by_xpath('//div[@id="mainbody"]/div[@id="articlelistnew"]/div[@class="pager"]/span[@class="pagernums"]').get_attribute('data-pager')#print(page_data)ifpage_data:#page_nums=re.findall('\|(\d+)',page_data[0])page_nums=page_data.split("|")#print(page_nums)total_pages=math.ceil(int(page_nums[1])/int(page_nums[2]))driver.quit()exceptExceptionase:total_pages=1returnint(total_pages)

4.爬取结果

上述代码基本的字段已经可以实现爬取了，结果如下：

可以看到，我这里的时间多了年份，这是由于朋友研究的需要，在基于一次爬取的结果上，进行二次爬取标题所带的链接网页获得的，有关二次爬取的内容，我们再下一节再和大家分享。

总结

在爬取过程中，我还遇到了很多问题诸如：
① 部分帖子结构不同或存在冗余该如何处理（问董秘等链接）
② 爬取过程中ip被屏蔽自动跳转页面该如何处理（代理IP池）
… …
这些内容在后续章节中再和大家分享，下期再见啦！

你可能想看：

整理python爬虫过程中会遇到的问题，以及如何解决这些问题的方法

在使用python爬虫的过程中，现在我们就来探讨下这些在python爬虫的过程中可能遇到的问题，一般网页的开发者为了不让自己的js代码轻易被别人拷贝，我们可以通过debug来找到js加密解密的代码，爬...

对比Excel，轻松学习Python报表自动化实战，这篇教程有点肝!

轻松学习Python报表自动化》中关于报表自动化实战的内容。并教你用Python实现工作中的一个报表自动化实战，1.Excel的基本组成2.一份报表自动化的流程3.报表自动化实战 -当日各项指标同环...

python的基本语法和脚本格式

我们在上一篇文章中已经学会了如何简单的运行python命令和脚本，当Python解释器读取源代码时，第二行注释是为了告诉Python解释器:Python在语义中存在着包、模块、类（当然还有函数）这几个...

python 知识点大全，建议收藏留用！

经常有读者问我 Java、C++、Python 这些语言怎么选择，这两门语言想要学好、学透都不容易，一些开发非常便捷、库非常丰富的语言也可以掌握一下，从后台开发 Flask、AI、数据分析、爬虫......

python中使用argparse.add_argument_group() 对命令行参数进行概念性分组

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

又找到几个东方财富好用的公式，好强大

OPEN)-MIN(CLOSE;REF(C;REF(V;REF(OPEN;=OPEN>:N)>:OUT;HIGH=MAX(OPEN;CLOSE))&,1)-REF(OPEN;1))/RE...

【东方学霸】行业研究方法实操手册<第一讲>带你实战行业研究

带你实战行业研究" title="【东方学霸】行业研究方法实操手册带你实战行业研究" />，和你一起实战行业分析。海量案例，339页PPT详实的案例，先把学霸所有的课件都学习学习。必备课程教材的精华都...

Photoshop 2022下载

并提供软件资源百度网盘下载，您可以轻松编辑、创建、整理和分享您的照片。您可以轻松编辑、创建、整理和共享照片，您还可以使用智能标签、面部识别等功能快速找到您的照片和视频，您的目录结构会自动备份以便于恢复...

Photoshop调出漂亮外景美女梦幻蓝色调

教程主要使用Photoshop调出漂亮外景美女梦幻蓝色调，其实处理照片时，我们首先需要的是对照片进行风格的设定，这些都是给自己确定自己想要处理成什么效果。接下来的就是对照片素材进行分析，查看照片素材是...

如何用photoshop制作水面倒影

学习如何用photoshop制作逼真的水面倒影，主要用到了置换滤镜和图层蒙版等。首先打开要制作倒影的素材-城堡。把2个图层的白色部分都删除，底部新建图层2，之后选择图层1，添加蒙版黑白直线渐变。选择图...

据称苹果iPhone 11和iPhone 11 Max模具表面照片泄露

并允许苹果提供一个后置人脸ID和更多的增强现实(AR)功能。iPhone XR的续集预计将搭载一个未知尺寸的LCD(液态视网膜)显示屏。我们应该会看到2019年的iphone与2018年的屏幕尺寸相同...

Photoshop软件安装，win系统一键安装介绍，主机配置推荐

有的色彩管理也删除系统色彩不准，adobe已经不支持win7连接服务器。推荐一款在win10+ps2022里面能胜任工作的配置，并不是推荐多么好得配置）一、要不要用最新版的Photoshop我觉得是没...

Photoshop抠图：只用一招，快速抠羽毛、玻璃、火焰等黑色背景图片

我们会看到很多黑色背景的图片，比如玻璃杯.羽毛和火焰等，这种素材的抠图方法很多。今天翼狐网小编要做的就是使用一种方法就能统统搞定了，我们用此法抠羽毛来举例。点击通道”键点击红色通道，如下图出现选区，填...

如何用photoshop批量处理图片大小

打开一张你要处理的图片，另存完后关掉图片。文件－自动－批处理在弹出的对话框中要选填的选项有，选择你要处理的图片所在的文件夹覆盖动作……包含子文件夹……禁止颜色配置警告这三个都勾选上目的，这个动作只能让...

阴宅断财富:A、长房财富具体定位1.正东...

A、长房财富具体定位，东北及南方。东北河流。北方有秀丽山岗，西方有河流，3.穴位东北有堰塘。南方有曲弯形的河流:A、二房财富具体定位，1.北方有秀山，南有河川，西有河流，东方高、南有河流。北有远来高岗...

一壶淡茶，仍品恬淡生香，经年一笑，我们需要做的：是取一份随意，前行

一壶淡茶，人品恬淡生香，解人生惊与喜，浅浅一醉，再寻一处风景：沉淀出一份淡定，茶香四溢，有缘的你取一份随意前行共品，还有念念难忘的桂花香。有缘的你淀一份淡泊从容之心，浅醉于人情冷暖风景外，又或寻一个心...

用爱心换取一片真诚

我会把孩子直接接到家里照顾，那就是他在无人照顾的情况曾经在一个夏天把短裤的带子长到了肉里。学校的杂费款我给拿上、、、、得知没穿过新衣服，就能够在学生的心里点燃起信心和勇气。刘老师坚信马利翁能用真情使石...

计算机犯罪研究系列（一）网络爬虫技术的刑事风险

爬虫的数据收集过程虽然与个人的上网行为类似但又有不同;利用爬虫技术获取数据的行为可能涉嫌非法获取计算机信息系统数据罪”利用爬虫技术获得的该部分数据行为则不存在违法犯罪的刑事风险。的数据时则存在涉嫌构成...

合同诈骗罪的非法占有目的不能产生于行为人取得对方财物之后

即行为人在签订虚假合同之前就已经具有非法占有对方钱财的故意，而不是行为人非法占有心理与收取财物事实之间的关系，合同诈骗罪之'非法占有目的'的产生时间只能存在于合同签订之前或合同签订之后的对方当事人交付...

“天庭”、“耳朵”这样“横行”的几类人，聚八方财，得三代富

横财运“的象征”其财运会越多，四方财旺，方正神舒。终须稳固，耳朵”聚八方财”天庭横行，天庭。指的是前额“前额饱满、开阔，无疤痕，容光焕发。学习能力强，做事持之以恒，极旺，终能成就一番大事，耳垂”的象征...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

“See the joke”的意思可不是“ 看笑话”！理解错就尴尬了

有些看似很简单的英语句子，可能会导致偏差甚至闹出笑话”几个不能直译的英语句子吧：的意思是”You should speak to him like that.You're going too far....

Three.js框架，菜鸟上路

1．three.js是编写的WebGL第三方库。简单学习视频;支持、webGl的浏览器：Three.js核心库：渲染器对象;场景渲染输出的目标;6. 有关贴图的例子:7.stats.js是一个Java...

英语冠词a,an,the用法大总结！

冠词（Article）是一种虚词，零冠词指的是不用冠词的情况。只能放在名词前帮助说明名词所指的人或事物，1、不定冠词（例如英语中的a/an）用来表示这个冠词后面的名词是指某一类特定事物中的一个，2、定...

Pain in the ass可不是“屁股痛”，理解错就尴尬了

是一个特别常用的表达，这个表达的真实含义跟屁股真的没有关系哦，我们就可以使用这个表达，我知道该更新驾照了，这个新型冠状病毒真是令人讨厌，在美剧《生活大爆炸》里面：Penny评价Sheldon时:就用到...

R语言ggplot2画图-Pathway富集分析气泡图

# 设置工作路径到数据存放的文件夹下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

python

上一篇
灵蛇网论坛

下一篇
水彩 | 宇宙超级无敌简单之仙人掌

Python爬虫实战：东方财富网股吧数据爬取（一）

Python爬虫实战系列文章目录

目录

前言

一、项目说明

二、实施过程

1.明确获取网页中哪些数据

2.查看网页源代码分析结构

① 网页源代码

② 网页链接

3.爬虫需要具备的功能

4.爬取结果

总结

最新文章

正版澳门传真免费下载

正版内部资料大全

地级市的存在合理吗？此事对中国县域经济的发展太重要了

中国分省系列地图：各省挂图（超高清）

言承旭参加《披荆斩棘的哥哥》，再次让我们与《流星雨》美好相遇

钦天四化（2）

10篇历届中考语文满分作文赏析大汇总

上海桃花源（浦东上海桃花源）网站丨上海桃花源欢迎您丨上海桃花源|楼盘详情

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子

5本甜肉的古言宠文推荐，男主个个都是宠妻狂魔～