当前位置：首页 > 社会 > 正文

Scrapy爬虫框架入门教程（1）——爬取廖雪峰老师的博客

启示号
社会
3小时前
303

最近一直在学习，但是网上关于的教程实在是太少，能找到的教程大多都是基于py2.7/.2以下，甚至很多教程都是互相抄袭，连代码都抄漏了好多，更别提各种缩进错误、变量名错误、导入错误了等等。趁着最近正在撸的官方教程，想着做几个小爬虫促进一下学习、加深印象，就写下了这篇不算教程的“教程”。我也深知，知乎上大牛太多了，所以恳请各位能多多指教！

在你看这个教程的时候，默认你已经基本掌握了的语法，不求会写，但是至少你能看懂。为了蹭个热度教程，特意选了圈里非常著名的廖雪峰老师的博客作为爬虫对象。廖老师，你博客每天的访问量那么高，也不差让我们这些萌新练练爬虫了吧。

运行环境：

x64系统

安装好以上环境、包之后，打开cmd教程，输入，出现以下提示后，就说明你已经成功创建一个的新项目：

在该项目的根目录下，文件夹形式如下：

liaoxuefeng/
    scrapy.cfg
    liaoxuefeng/
        __init__.py
        items.py
        pipelines.py

        settings.py
        spiders/
            __init__.py
            ...

开始编写爬虫的第一个代码！打开//，创建一个新文件.py，写入如下代码：

import scrapy
class LiaoxuefengSpider(scrapy.Spider):

    # 这里是将爬虫定义为scrapy.Spider这个类下的一个实例。
    # Spider这个类定义了爬虫的很多基本功能，我们直接实例化就好，
    # 省却了很多重写方法的麻烦。
    name = 'lxf'
    #这是爬虫的名字，这个非常重要。
    start_urls = ['http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000']
    #这是爬虫开始干活的地址，必须是一个可迭代对象。
    def parse(self, response):

    #爬虫收到上面的地址后，就会发送requests请求，在收到服务器返回的内容后，就将内容传递给parse函数。在这里我们重写函数，达到我们想要的功能。
        titles = response.xpath("//ul[@class='uk-nav uk-nav-side']//a/text()").extract()
        #这是廖雪峰老师python教程的标题列表。我们利用xpath解析器对收到的response进行分析，从而提取出我们需要的数据。//XXX表示任何任何目录下的XXX区块，/XXX表示子目录下的XXX区块，XXX[@class=abc]表示带有class=abc属性值的XXX区块，/text()表示获取该区块的文本。最后加上.extract()表示将内容提取出来。
        for title in titles:
            print (title)
        #这个没什么说的了，直接遍历，然后打印标题。

然后进入cmd，在项目的根目录下运行 crawl lxf（这个lxf就是刚才.py文件中的name字段，千万不要弄错了），运行成功，将打印当页所有的目录名称：

最简单的爬虫就写到这里。也许你有地方没看懂，也许我讲的不够详细，欢迎留言提问、建议，更欢迎高手指教！

我的全部文章：

爬虫框架入门教程（1）——爬取廖雪峰老师的博客用写爬虫，爬取清纯妹子网站（/lxml）入门——针对零基础学习者的资料推荐

欢迎加QQ群：，纯技术交流，杜绝广告、刷屏、机器人

点个赞再收藏呀，亲！现在点赞1000+，收藏突破2000+，真有点无语哎！

欢迎关注微信订阅号：程序员之路

介绍最新的功能、模块，详解实用代码。主要针对的初级和中级爱好者。更新频率不会太高，绝不推送广告。有我在，成长的路上不会孤单！

想转载的话请联系作者，谢谢！

你可能想看：

整理python爬虫过程中会遇到的问题，以及如何解决这些问题的方法

在使用python爬虫的过程中，现在我们就来探讨下这些在python爬虫的过程中可能遇到的问题，一般网页的开发者为了不让自己的js代码轻易被别人拷贝，我们可以通过debug来找到js加密解密的代码，爬...

SCI数据库(Web of Science)

全球最权威的自然科学引文数据库，有效地整合了学术期刊、技术专利、会议录、学术分析与评价工具等重要的学术信息资源;HCI是ISI Web of Knowledge平台中自然科学、社会科学、艺术与人文领域...

谁能解释下头条vlog最全面的入门教程？

将视频文件直接拖曳到爱剪辑：二、自由剪辑视频片段”添加视频时，快速拾取当前画面的时间点，该方法可用于重新修改截取片段的时间点，即可快速为要剪辑的视频配上背景音乐或相得益彰的音效“爱剪辑还支持提取视频的...

零基础国画入门教程（树篇），不同树的画法，简单易学，快收藏！

然后用重墨在树干的阴面加重刻画，1.点皴法画树干，然后用淡墨对树干加以皴笔，对树干的阴面进行点皴，可以用稍浓的墨色进行复皴；2.横皴法画树干，树干的阴面用墨可稍重一些，3.竖皴法画树干，注意树干与树枝...

两小时搭建一个自己的博客网站

购买域名、购买空间、域名解析与空间绑定、网站程序上传安装。登陆成功后在搜索框输入自己想要注册的域名。百度搜主机庙网站进去后需要注册账号，注册完成点击选购主机。购买时会提示为您选购的产品配置一个域名。这...

小李的博客--阳萎早泄秘方转 (2010-

阳萎早泄一向是难治之症，补肾之仙，必先胃气调和“必用白术、山药、石斛、山楂以调胃气，胃气平则运化有权，火叶补真阳。真阳复相火自平3、冲脉下连于肾上通于胃，本应些些上达，冲脉不足和以上应；冲脉不足肾气自...

周振兴：为什么你要有一个传播价值的博客

靠的是分享有趣、有料、有价值的内容，是不是你站出来随便分享什么内容，你想通过内容来创业。创建自己的价值博客，你有必要创建一个有主动性的博客，然后找个博客程序自己搭建一个。和网络门户上的免费博客，二、为...

中国数字PCR领域最大融资出炉，新羿生物数字PCR产品已获国家医疗器械上市许可

融资金额将用于新羿生物数字 PCR 平台的进一步发展，相关产品的临床应用及商业化布局，同时推动分子诊断试剂盒等的研发。数字 PCR（dPCR）也是对核酸进行定量的一种技术，是对起始样品的一种绝对定量。...

平衡针灸38个图解穴位（11月21至24日由吕晓峰老师做最新解读）

血管分布有帽状腱膜和左右颞浅动脉静脉，以局部强化性针感出现麻胀紧沉为主。胃下垂等中气下陷性疾病为主。临床还用于治疗阳痿，临床主要用于治疗内脏下垂，还可作为一切慢性病的辅助穴位。其刺以滑车上神经或左右刺...

周易零基础入门教学⑦：阴阳爻、上下内外卦、大成卦、六十四卦

卦以其阳爻（—）代表阳性动力。经卦，古人将八个卦分别重叠起来八次，这样就得了六十四个重叠的卦。称为别卦。每个别卦由两个经卦组成，上面的一个经卦叫作上卦，下面的一个经卦叫作下卦，每个卦的读法先读上经卦的...

云梦轩金口诀入门教材讲义五

入式歌言其大象，五动爻观其大意，第一步要用到入式歌来了解大范围的框架和意象。运用金口诀四位生克所形成的五动爻来了解事物的侧重点。地支三合六合等一系列干支关系判定应期在什么时间，我们学习金口诀最少要知道...

对比Excel，轻松学习Python报表自动化实战，这篇教程有点肝!

轻松学习Python报表自动化》中关于报表自动化实战的内容。并教你用Python实现工作中的一个报表自动化实战，1.Excel的基本组成2.一份报表自动化的流程3.报表自动化实战 -当日各项指标同环...

10位国医大师的10个家藏方和10位非国医大师的10个珍藏方

一个来之不易的治疗肾结石的奇效方，一位农民大叔把一张他使用了多年治愈了无数肾结石患者的秘方。到处治疗吃了很多药也没治好，后来听说某医院用中药治疗肾结石效果非常好。也不让病人把药拿走，感到这个方子理法、...

计算机犯罪研究系列（一）网络爬虫技术的刑事风险

爬虫的数据收集过程虽然与个人的上网行为类似但又有不同;利用爬虫技术获取数据的行为可能涉嫌非法获取计算机信息系统数据罪”利用爬虫技术获得的该部分数据行为则不存在违法犯罪的刑事风险。的数据时则存在涉嫌构成...

骨科SCI杂志最新影响因子

排名;杂志全称;影响因子;American Journal of Sports Medicine;Journal of the American Acad

比SCI-HUB好用10倍！高效科研神器，看完我就服了

免费下载文献基本是绝大多数科研狗不变的追求“这里列举一些常用的免费下载文献的方式”这些网站全部收录在我们的CNS学术导航，SCI-hub可供免费下载的文献总数接近8800万篇：号称是帮助全人类知识无版...

4scc资料大全

：4scc资料大全在当今信息爆炸的时代，获取准确、全面的学习资料对于个人成长和职业发展至关重要，4scc资料大全应运而生，成为了广大求知者不可或缺的知识宝库，它汇聚了各个领域的精华内容，无论是学术研究...

新手入门之玄空风水入门理论知识汇总

辰、戌、丑、未、巳、午月得化。辰、戌、丑、未、申、酉月得化。申、酉、亥、子、丑、辰月得化。亥、子、寅、卯、辰、未月得化。寅、卯、巳、午、未、戌月得化。子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥。　...

python的基本语法和脚本格式

我们在上一篇文章中已经学会了如何简单的运行python命令和脚本，当Python解释器读取源代码时，第二行注释是为了告诉Python解释器:Python在语义中存在着包、模块、类（当然还有函数）这几个...

python 知识点大全，建议收藏留用！

经常有读者问我 Java、C++、Python 这些语言怎么选择，这两门语言想要学好、学透都不容易，一些开发非常便捷、库非常丰富的语言也可以掌握一下，从后台开发 Flask、AI、数据分析、爬虫......

中国人的博古情怀，都在这些画里了

《宋人博古图》，是摹写古代器物形状的绘画，后人在博古画上增加花卉、果品作为点缀的叫。最初是描绘有关人物鉴赏古玩的内容”宋嘉定四年（1211）刘松年所绘《博古图轴》就是描绘文人大夫聚在一起”宋张训礼《...

python中使用argparse.add_argument_group() 对命令行参数进行概念性分组

parser.add_argument('name':parser.add_argument('--bar_that')，parser.add_argument('--foo_that')。parse...

汉语的博大精深：一字之差竟是天壤之别！

胸口摸不到的尺寸叫胸襟；眉毛皱得出的形状叫情绪，眉毛皱不出的形状叫情感；耳朵听得到的动静是声音，耳朵听不到的动静是声誉；鼻子闻得到的味道叫气味，鼻子闻不到的味道叫气息；脸上看得出的表情叫气色，脸上看不...

【原】十年中考特色题：天津填压，格点作图，数学老师的噩梦

其实基础题一般是大同小异没什么区别，因此本系列就总结一下各地十年之中的某个固定特色的题目。这可不是那种及其简单的格点作图，而是那种老师都做不出来的极难题。今天就总结十年天津填空压轴题——格点作图！格点...

我原来不懂爱情，直到听了中文老师的恋爱课

授课教师喻丰带着同学们一道探究爱情，它不应该是基于廉价感动进行冲动选择后的认知失调，恋爱课火爆现象兴许反映年轻人对恋爱和情感的需求程度。一些人期盼通过课程树立相对健康的爱情观，或识得对恋爱中实际问题的...

赵思老师的讲座是指路明灯！

赵思老师的讲座是指路明灯！给我们做了关于如何带好班级和做好班主任工作的讲座，对我以后的班主任工作给予了很大的启示和帮助，讲座语言能隐现出赵老满腹的才华、多年的教学经验和广博的见识。我想这是我作为一名年...

老师的八件永远的痛

许多教师总是感到痛，让老师本来纯洁健康的心态染上了污垢，我向来把教师的工资当作教师生命的血脉，花钱请枪手参加没用的考试，职称评定应该是促进教师工作的一种举措，应该让教师心中高兴，但现在却成了教师的痛，...

上一篇
外感病的内伤基础

下一篇
手机麻将必赢神器大全

Scrapy爬虫框架入门教程（1）——爬取廖雪峰老师的博客

最新文章

17图库资料下载龙门客栈

CFA考试很难吗？

CFA报考条件丨2022年CFA考试对学历哪些要求

CFA考试考哪些内容

17图库软件下载安装

最新盘点中国CFA、CPA、ACCA、FRM会员发展现状 !

你的社保卡升级了嘛？

靠接管吃接管李国荣利用处置包商银行之机大肆敛财

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子