起航学习网

- 让每个人都能学到最前沿新知识、新技能!
起航学习网
当前位置: 起航学习网 > 短期培训 > 编程语言 > 零基础学编程如何写爬虫

零基础学编程如何写爬虫

时间:2019-01-29 18:02:13来源:编程网 作者:IT培训网 已有: 名学员访问该课程

前言:我们需要准备一款名为BeautifulSoup(网页解析)的开源库,用于对下载的网页进行解析,我们是用的是PyCharm编译环境所以可以直接下载该开源库。

​什么是网络爬虫?如何从零开始编写一个爬虫?

网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容。

优先申明:我们使用的python编译环境为PyCharm

一、首先一个网络爬虫的组成结构:

爬虫调度程序(程序的入口,用于启动整个程序)

url管理器(用于管理未爬取得url及已经爬取过的url)

网页下载器(用于下载网页内容用于分析)

网页解析器(用于解析下载的网页,获取新的url和所需内容)

网页输出器(用于把获取到的内容以文件的形式输出)

二、编写网络爬虫

(1)准备所需库

我们需要准备一款名为BeautifulSoup(网页解析)的开源库,用于对下载的网页进行解析,我们是用的是PyCharm编译环境所以可以直接下载该开源库。

步骤如下:

选择File->Settings

零基础学编程如何写爬虫_www.epx365.cn

打开Project:PythonProject下的Project interpreter

零基础学编程如何写爬虫_www.epx365.cn

点击加号添加新的库

零基础学编程如何写爬虫_www.epx365.cn

输入bs4选择bs4点击Install Packge进行下载

零基础学编程如何写爬虫_www.epx365.cn

(2)编写爬虫调度程序

这里的bike_spider是项目名称引入的四个类分别对应下面的四段代码url管理器,url下载器,url解析器,url输出器。

零基础学编程如何写爬虫_www.epx365.cn

零基础学编程如何写爬虫_www.epx365.cn

(3)编写url管理器

我们把已经爬取过的url和未爬取的url分开存放以便我们不会重复爬取某些已经爬取过的网页。

零基础学编程如何写爬虫_www.epx365.cn

(4)编写网页下载器

通过网络请求来下载页面

零基础学编程如何写爬虫_www.epx365.cn

(5)编写网页解析器

对网页进行解析时我们需要知道我们要查询的内容都有哪些特征,我们可以打开一个网页点击右键审查元素来了解我们所查内容的共同之处。

零基础学编程如何写爬虫_www.epx365.cn

零基础学编程如何写爬虫_www.epx365.cn

(6)编写网页输出器

输出的格式有很多种,我们选择以html的形式输出,这样我们可以的到一个html页面。

零基础学编程如何写爬虫_www.epx365.cn

零基础学编程如何写爬虫_www.epx365.cn

写在末尾

注意:网页经常发生变化,我们需要根据网页的变化动态修改我们的代码来获得我们所需要的内容。

这只是一个简单的网络爬虫,如果需要完善其功能我们需要考虑更多问题。

文章出自:http://qh.itpxw.cn/peixun/software/201946687.html

文章标题:零基础学编程如何写爬虫



免责声明:本站文章均由入驻起航学习网的会员所发或者网络转载,所述观点仅代表作者本人,不代表起航学习网立场。如有侵权或者其他问题,请联系举报,必删。侵权投诉

(责任编辑:IT培训网)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
培训学校
IT培训网 访问该机构站点 报名留言 加为好友 用户等级:注册会员 用户级别:10 机构名称:IT培训网 联 系 人:罗老师 联系电话:13783581536 联系手机:13783581536 在线客服:起航学习网客服 在 线 QQ:起航学习网客服 电子邮件: 网站域名:http://www.itpxw.cn 注册时间:2016-07-18 11:07 最后登录:2024-02-20 13:02
推荐内容