我们以爬取最新电影为例:
image.png
思路:先获取电影的URL,然后在根据URL来分析网页,最后提取我们需要的信息。
image.png
我们检查网页源码可以发现,我们所要提取的每一部电影的详细URL在
下面的每一个下面的href属性,只要找到每一部电影的URL,我们离爬取电影详情就更加靠近了。
获取每一部电影的详细URL
import requests
from lxml import etree
header = {"User-Agent" :
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Referer" : "https://www.dytt8.net/"}
BASE_DOMAIN = 'https://www.dytt8.net/html/gndy/dyzz/list_23_1.html'
response = requests.get(BASE_DOMAIN, headers=header)
text = response.text
html = etree.HTML(text)
all_a = html.xpath("//div[@class='co_content8']//a")
for a in all_a:
b = "https://www.dytt8.net"
href = a.xpath("@href")[0]
if href.startswith('/'):
a_href = b + href
# print(a_href)
url = a_href
print(url)
接下来就是最重要的了,对我们获取到的电影详细页面进行解析,提取我们需要的信息。
首先获取电影的发布时间和海报的链接:
response = requests.get(url, headers=header)
text = response.content.decode('gbk')
html = etree.HTML(text)
movie = {}
time = html.xpath("//div[@class='co_content8']/ul//text()")[0].strip() # strip用来清除空格
movie['time'] = time
image = html.xpath("//div[@id='Zoom']//img/@src")[0]
movie['image'] = image
接下来就是获取电影的名字,产地,导演等信息:
Zooms = html.xpath("//text()")
for index, info in enumerate(Zooms):
if info.startswith("◎年 代"):
info = info.replace("◎年 代", "").strip()
movie['info'] = info
elif info.startswith("◎主 演"):
actors = []
for x in range(index + 1, len(Zooms)):
actor = Zooms[x].strip()
# print(actor)
if actor.startswith("◎"):
break
actors.append(actor)
movie['actor'] = actors
print(movie)
最后就是我们的运行结果了(示例):
image.png
之后我们可以按照需求,将我们最终爬取到的详细信息保存到或者是Mysql当中,这里就不在演示怎么保存了!好了,到这里我们这个爬虫小项目就算是完成了。
感兴趣的朋友可以自己即尝试一下,我们下期再见!
有话要说...