三白草

注册

 

发新话题 回复该主题

以B站为实战案例手把手教你掌握爬虫 [复制链接]

1#

腾讯课堂

Python网络爬虫与文本分析~~

来源:Python爬虫数据分析挖掘作者:李运辰

1

前言

作为爬虫一员,掌握一门爬虫框架是必备技能,因此作为一名小白的你,我想向你推荐『Scrapy』。

具体『Scrapy』是什么,作用这些就不啰嗦(都是废话,百度有Scrapy简介),时间宝贵,就直接上干货(实战案例带你体验scrapy的使用)。

下面会以『B站』为目标进行实战!

2

Scrapy入门实战

1.环境准备安装scrapy

pipinstallscrapy

通过上面这个命令即可直接安装好scrapy库

2.建立scrapy项目

scrapystartprojectBili

通过上面这个命令可以建立一个项目名称:Bili的爬虫项目。

这里就可以在桌面建立了一个名字为:Bili的爬虫项目

项目结构

Bili├──Bili│├──__init__.py│├──items.py│├──middlewares.py│├──pipelines.py│├──__pycache__│├──settings.py│└──spiders│├──__init__.py│└──__pycache__└──scrapy.cfg

各个文件作用

scrapy.cfg:项目的总配置文件,通常无须修改。

Bili:项目的Python模块,程序将从此处导入Python代码。

Bili/items.py:用于定义项目用到的Item类。Item类就是一个DTO(数据传输对象),通常就是定义N个属性,该类需要由开发者来定义。

Bili/pipelines.py:项目的管道文件,它负责处理爬取到的信息。该文件需要由开发者编写。

Bili/settings.py:项目的配置文件,在该文件中进行项目相关配置。

Bili/spiders:在该目录下存放项目所需的蜘蛛,蜘蛛负责抓取项目感兴趣的信息。

3.明确爬取内容

分享 转发
TOP
发新话题 回复该主题