当前位置：首页 > 科技 > 正文

python爬虫——站酷数据获取

启示号
科技
2年前
176

1.站酷数据获取

其中需要注意，本文使用了IP代理，以及不同的作品类型，他们详情页url拼接方式不同

import random
import time
import datetime
import requests
import threading
from lxml import etree
import pymysql
class ZhankunSpider(object):
def __init__(self):
self.url = 'https://www.zcool.com.cn/p1/discover/first?p={}&ps=20'
self.mysql = pymysql.connect(host='localhost', database='tenders', port=3306, user='root',
password='123456')
self.cur = self.mysql.cursor()
self.blog = 1
def proxy_get(self):
procy = requests.get(
r'放入IP代理链接').json()['data'][0]
proxy = str(procy["ip"]) + ':' + str(procy["port"])
http = 'http://' + proxy
https = 'https://' + proxy
self.proxys = {'http': http,
'https': https}
print(self.proxys)
# result = requests.get('https://www.baidu.com/',verify=False)
result = requests.get('https://www.baidu.com/')
print(result.status_code)
if result.status_code != 200:
self.proxy_get()
time.sleep(0.2)
return
# self.expire_datetime = datetime.datetime.now() + datetime.timedelta(seconds=60)
def _check_expire(self):
self.expire_datetime = datetime.datetime.now() + datetime.timedelta(seconds=60)
if datetime.datetime.now() >= self.expire_datetime:
self.proxy_get()
# 发送请求
def get_html(self, url):
if self.blog <= 3:
try:
datas = {
'p': 'i',
'column': 5
}
headers = {'Cookie': '登陆后cookie',
'User-Agent':'',}
json_ids = requests.get(url=url, headers=headers, data=datas).json()
return json_ids
except Exception as e:
print(e)
self.blog += 1
self.get_html(url)
# 解析提取数据
def parse_html(self, url):
json_ids = self.get_html(url)
self._check_expire()
if json_ids:
time.sleep(1)
for dic in json_ids['datas']:
titles = dic['content']['title']  #题目
types = dic['content']['typeStr']
viewCountStrs = dic['content']['viewCountStr']   #浏览量
subCateStrs = dic['content']['subCateStr']
cateStrs = dic['content']['cateStr']
url13 = 'https://www.zcool.com.cn/p1/product/'+dic['content']['idStr']
urll = dic['content']['pageUrl']
headers1 = {
'Cookie': '',
'User-Agent': '', }
# self._check_expire()
if 'work' in urll:
url2 = 'https://www.zcool.com.cn/p1/product/' + dic['content']['idStr']
try:
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
except:
self.proxy_get()
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
time.sleep(1)
for dici in json_idss['data']['productImages']:
datass = dici['url']
else:
url2 = 'https://www.zcool.com.cn/p1/article/' + dic['content']['idStr']
try:
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
except:
self.proxy_get()
json_idss = requests.get(url=url2, headers=headers1, proxies=self.proxys, timeout=3).json()
time.sleep(1)
# datass = json_idss['data']['id']
for dici in json_idss['data']['creatorObj']['contentCards']:
datass = dici['cover1x']
timeStamp = dic['content']['timeTitleStr']
# timeArray = time.localtime(timeStamp)  # 转化成对应的时间
# otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)  # 字符串
# date = otherStyleTime
photo = dic['content']['cover1x']
data = {
'title': titles,
'urls': url13,
'address': timeStamp,
'configuration': types,
'grade': viewCountStrs,
'collections': subCateStrs,
'price': cateStrs,
'unit': photo,
'photoadress': datass
}
print(data)
self.save_mysql(data)
def save_mysql(self, data):
# str_sql = "insert into ftx values(0, '{}', '{}');".format(data['first_category'],data['second_category'])
str_sql = "insert into meituan values(0, '{}', '{}', '{}', '{}', '{}', '{}', '{}', '{}', '{}');".format(
data['title'],  data['urls'],data['address'], data['configuration'], data['grade'], data['collections'],
data['price'], data['unit'], data['photoadress'])
self.cur.execute(str_sql)
self.mysql.commit()
def __del__(self):
self.cur.close()
self.mysql.close()
# 入口函数
def run(self):
try:
for i in range(1,5):
url = self.url.format(i)
print(i)
# self.get_html(url)
                self.parse_html(url)
time.sleep(random.randint(2, 4))
# 每次抓取一页要初始化一次self.blog
self.blog = 1
except Exception as e:
print('发生错误', e)
if __name__ == '__main__':
spider = ZhankunSpider()
spider.run()

2.结果展示

你可能想看：

整理python爬虫过程中会遇到的问题，以及如何解决这些问题的方法

在使用python爬虫的过程中，现在我们就来探讨下这些在python爬虫的过程中可能遇到的问题，一般网页的开发者为了不让自己的js代码轻易被别人拷贝，我们可以通过debug来找到js加密解密的代码，爬...

python的基本语法和脚本格式

我们在上一篇文章中已经学会了如何简单的运行python命令和脚本，当Python解释器读取源代码时，第二行注释是为了告诉Python解释器:Python在语义中存在着包、模块、类（当然还有函数）这几个...

对比Excel，轻松学习Python报表自动化实战，这篇教程有点肝!

轻松学习Python报表自动化》中关于报表自动化实战的内容。并教你用Python实现工作中的一个报表自动化实战，1.Excel的基本组成2.一份报表自动化的流程3.报表自动化实战 -当日各项指标同环...

python 知识点大全，建议收藏留用！

经常有读者问我 Java、C++、Python 这些语言怎么选择，这两门语言想要学好、学透都不容易，一些开发非常便捷、库非常丰富的语言也可以掌握一下，从后台开发 Flask、AI、数据分析、爬虫......

python中使用argparse.add_argument_group() 对命令行参数进行概念性分组

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

circbase数据库环状RNA序列获取方法 | 环状RNA社区

小编邀请技术部的刘建宁老师继续为大家实例讲解circRNA的引物设计。我们以环状RNA数据库circbase（http:为小伙伴详细介绍从circRNA序列获取到引物设计的全过程。在Search上方的...

Photoshop 2022下载

并提供软件资源百度网盘下载，您可以轻松编辑、创建、整理和分享您的照片。您可以轻松编辑、创建、整理和共享照片，您还可以使用智能标签、面部识别等功能快速找到您的照片和视频，您的目录结构会自动备份以便于恢复...

Photoshop调出漂亮外景美女梦幻蓝色调

教程主要使用Photoshop调出漂亮外景美女梦幻蓝色调，其实处理照片时，我们首先需要的是对照片进行风格的设定，这些都是给自己确定自己想要处理成什么效果。接下来的就是对照片素材进行分析，查看照片素材是...

如何用photoshop制作水面倒影

学习如何用photoshop制作逼真的水面倒影，主要用到了置换滤镜和图层蒙版等。首先打开要制作倒影的素材-城堡。把2个图层的白色部分都删除，底部新建图层2，之后选择图层1，添加蒙版黑白直线渐变。选择图...

据称苹果iPhone 11和iPhone 11 Max模具表面照片泄露

并允许苹果提供一个后置人脸ID和更多的增强现实(AR)功能。iPhone XR的续集预计将搭载一个未知尺寸的LCD(液态视网膜)显示屏。我们应该会看到2019年的iphone与2018年的屏幕尺寸相同...

Photoshop软件安装，win系统一键安装介绍，主机配置推荐

有的色彩管理也删除系统色彩不准，adobe已经不支持win7连接服务器。推荐一款在win10+ps2022里面能胜任工作的配置，并不是推荐多么好得配置）一、要不要用最新版的Photoshop我觉得是没...

Photoshop抠图：只用一招，快速抠羽毛、玻璃、火焰等黑色背景图片

我们会看到很多黑色背景的图片，比如玻璃杯.羽毛和火焰等，这种素材的抠图方法很多。今天翼狐网小编要做的就是使用一种方法就能统统搞定了，我们用此法抠羽毛来举例。点击通道”键点击红色通道，如下图出现选区，填...

如何用photoshop批量处理图片大小

打开一张你要处理的图片，另存完后关掉图片。文件－自动－批处理在弹出的对话框中要选填的选项有，选择你要处理的图片所在的文件夹覆盖动作……包含子文件夹……禁止颜色配置警告这三个都勾选上目的，这个动作只能让...

计算机犯罪研究系列（一）网络爬虫技术的刑事风险

爬虫的数据收集过程虽然与个人的上网行为类似但又有不同;利用爬虫技术获取数据的行为可能涉嫌非法获取计算机信息系统数据罪”利用爬虫技术获得的该部分数据行为则不存在违法犯罪的刑事风险。的数据时则存在涉嫌构成...

曹渊：还有谁想轻松打造会员系统获取源源不断的客户……

当然我们很多人还没有达到卖项目卖资格卖股权的这个层面。所以说你仅仅研究如何卖会员就足够你去赚的盆满钵满，当你自己想不出来自己这个行业用什么卖会员的方法的时候，就会自我设限的认为卖会员的方法在我这个行业...

如何获取互联网上最好赚钱的产品的6个黄金法则

互联网赚钱就是找到一款有人愿意掏钱购买的产品，通过网络赚钱只需要三步，为什么很多人都没有在互联网上获得高的收入。今天我们就谈下互联网选取产品的黄金法则？你要去卖那些能够治愈客户创伤或者是痛苦的产品：这...

如何识别并阻击多方炮获取利润？

多方炮是指连续的三根K线中，出现多方炮形态，表明第一天多方主导盘面向上开炮，第三天多方再次主导盘面向上开炮，则后期往往会有一波较大的涨幅，中长期趋势向上出现多方炮：一定要深入分析多方炮形成的内在原因及...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

“See the joke”的意思可不是“ 看笑话”！理解错就尴尬了

有些看似很简单的英语句子，可能会导致偏差甚至闹出笑话”几个不能直译的英语句子吧：的意思是”You should speak to him like that.You're going too far....

Three.js框架，菜鸟上路

1．three.js是编写的WebGL第三方库。简单学习视频;支持、webGl的浏览器：Three.js核心库：渲染器对象;场景渲染输出的目标;6. 有关贴图的例子:7.stats.js是一个Java...

英语冠词a,an,the用法大总结！

冠词（Article）是一种虚词，零冠词指的是不用冠词的情况。只能放在名词前帮助说明名词所指的人或事物，1、不定冠词（例如英语中的a/an）用来表示这个冠词后面的名词是指某一类特定事物中的一个，2、定...

Pain in the ass可不是“屁股痛”，理解错就尴尬了

是一个特别常用的表达，这个表达的真实含义跟屁股真的没有关系哦，我们就可以使用这个表达，我知道该更新驾照了，这个新型冠状病毒真是令人讨厌，在美剧《生活大爆炸》里面：Penny评价Sheldon时:就用到...

R语言ggplot2画图-Pathway富集分析气泡图

# 设置工作路径到数据存放的文件夹下,header=T,pbubble = pp + geom_point(aes(size=R0vsR3，high="red") + labs(color=expre...

25个让你相见恨晚的 iPhone 使用技巧！

但手机中隐藏着许多实用的操作技巧，从图片管理、工具调用、文档编辑、界面设置等四个方面整理出了25个最实用的使用技巧。iPhone如何使用专业模式拍照，iPhone的「小组件」功能可以快速启动Ligh...

苹果被中国大学生组团告上法庭：买iPhone不送充电器？赔钱！

方同学及小组成员就向苹果电子产品商贸（北京）有限公司所在的北京市东城区人民法院提出立案申请，苹果公司代理人拿出了一份工信部关于引导消费者、销售企业、生产企业观念改变。促使手机与电源适配器分离销售的提案...

酒店OTA运营之美团篇：美团HOS解析

HOS是有美团酒店推出的一个商家综合运营能力评估体系，通俗的讲相当于您酒店经营的健康指数，HOS包括四大系统（HOS指数、积分金币、HOS权益、违规违约），HOS指数+积分金币+HOS权益+违规违约：...

上一篇
大卖攻略在这！2023跨境卖家热门节点营销怎么做？赶紧收藏！

下一篇
充电风扇怎么样？收费风扇价格

python爬虫——站酷数据获取

有话要说...取消回复

最新文章

王长绅紫微斗数之廉贞天相在子午守财帛宫，命宫为武曲星

磁共振扫描操作磁共振冠脉成像（一）

“病急乱投医”

择日——吊用“太阳、太阴”吉神到宫的方法

古诗词中的十大人生境界，古今一付笑谈中

史上最全K线图大全：70种+42个K线组合图解

明朝最大遗憾：崇祯若答应李自成条件，明朝不会灭亡，还灭了满清

孔子语录100句（附释文）国学经典

热门文章

业医必修——孙思邈《大医精诚》

怎样从门口看房屋吉凶

低估了广东的“甘蔗马蹄茅根水”，喝完半个小时就舒服了！

痰湿体质如何调理最全痰湿体质调理方法(8)

自制家庭小咸菜

七彩神龙指标源码（八戒神龙主图无未来函数）

《奇门遁甲预测术》奇门：格局庚

10种朝鲜咸菜的腌制方法