什么是网络爬虫

所谓的网络爬虫，本质上就是个应用程序，此程序可以下载互联网页面相关的信息。换句话说，可以将其理解为一个可以定位并下载互联网资源的程序。

网络爬虫的爬取对象一般是网页的内容，程序主要是通过url来完成资源的定位，然后通过解析相应资源信息，并最终获取到我们想要的图片、文字等信息。

通过超文本传输协议（HTTP）的统一资源定位符，可以将从因特网获取信息的五个基本元素包括在一个简单的地址中：

传送协议。(例如：http、https、ftp等)
服务器。（通常为域名，有时为IP地址）
端口号。（以数字方式表示，若为HTTP的预设值“:80”可省略）
路径。（以“/”字元区别路径中的每一个目录名称）
查询。（GET模式的表单参数，以“?”字元为起点，每个参数以“&”隔开，再以“=”分开参数名称与资料，通常以UTF8的URL编码，避开字元冲突的问题）

接下来就是爬虫中的主体也是最基本的内容，即定位资源并爬取内容。

在python中，最常用的是urllib模块，通常只需用到两个方法便可完成数据的爬取：

urlopen(url,data,timeout)：打开目标资源，第一个参数url即为目标资源的url地址，第二个参数data是访问目标url所需的数据，最后一个参数timeout是设置超时时间。第二、第三个参数通常可以省略。执行urlopen方法之后，返回一个response对象，此对象内包含了所有的返回信息。

read(size)：参数size设置从返回的response对象中读取内容的字节数。

具体示例如下：

import urllib.request #模块加载

respone=urllib.request.urlopen('http://www.baidu.com') #定位资源

data=respone.read(1000) #读取前1000个字节

此时data中就保存了百度首页html源文件中的前1000个字节，在实际应用中，需要在爬取整个页面后，对页面进行分析，定位html标签，并读取出我们所需的内容。

(文章来源：格物课堂)

大数据

什么是网络爬虫

技术博客

新闻发布

企业服务

博客文章

格物课堂