三白草

首页 » 常识 » 预防 » 建立一个简单的爬虫项目,对爬虫有个感性认
TUhjnbcbe - 2021/3/8 18:51:00

掌握Scrapy框架安装,建立一个百度新闻爬虫项目,初步了解爬虫技术。

一、Scrapy框架及安装

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

使用Scrapy开发一个基于Python的爬虫非常简单,开发者只需要定制开发几个模块就可以轻松地实现一个爬虫,用来抓取网页数据。当然,要开发一个商业化的爬虫,还需要大量的开发工作,这些工作包括爬虫优化、爬取数据的存储及清洗。

要使用Scrapy,需要先安装Scrapy开发环境。因为Scrapy开发环境依赖一些外部库,在安装Scrapy之前,需要先安装依赖库。这里给出Windows操作系统下Scrapy及依赖库的安装。

依赖库lxml的安装

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。爬取的网页内容需要使用lxml来解析。

在Windows命令行窗口输入命令:

pip3installlxml

pip3会自动下载lxml并安装。

依赖库pyOpenSSL的安装

pyOpenSSL是Python一个支持数据安全的库,当爬虫爬取基于

1
查看完整版本: 建立一个简单的爬虫项目,对爬虫有个感性认