腾讯课堂
Python网络爬虫与文本分析~~
来源:Python爬虫数据分析挖掘作者:李运辰
1
前言
作为爬虫一员,掌握一门爬虫框架是必备技能,因此作为一名小白的你,我想向你推荐『Scrapy』。
具体『Scrapy』是什么,作用这些就不啰嗦(都是废话,百度有Scrapy简介),时间宝贵,就直接上干货(实战案例带你体验scrapy的使用)。
下面会以『B站』为目标进行实战!
2
Scrapy入门实战
1.环境准备安装scrapy
pipinstallscrapy
通过上面这个命令即可直接安装好scrapy库
2.建立scrapy项目
scrapystartprojectBili
通过上面这个命令可以建立一个项目名称:Bili的爬虫项目。
这里就可以在桌面建立了一个名字为:Bili的爬虫项目
项目结构
Bili├──Bili│├──__init__.py│├──items.py│├──middlewares.py│├──pipelines.py│├──__pycache__│├──settings.py│└──spiders│├──__init__.py│└──__pycache__└──scrapy.cfg
各个文件作用
scrapy.cfg:项目的总配置文件,通常无须修改。
Bili:项目的Python模块,程序将从此处导入Python代码。
Bili/items.py:用于定义项目用到的Item类。Item类就是一个DTO(数据传输对象),通常就是定义N个属性,该类需要由开发者来定义。
Bili/pipelines.py:项目的管道文件,它负责处理爬取到的信息。该文件需要由开发者编写。
Bili/settings.py:项目的配置文件,在该文件中进行项目相关配置。
Bili/spiders:在该目录下存放项目所需的蜘蛛,蜘蛛负责抓取项目感兴趣的信息。
3.明确爬取内容