大数据

什么是网络爬虫

所谓的网络爬虫,本质上就是个应用程序,此程序可以下载互联网页面相关的信息。换句话说,可以将其理解为一个可以定位并下载互联网资源的程序。

网络爬虫的爬取对象一般是网页的内容,程序主要是通过url来完成资源的定位,然后通过解析相应资源信息,并最终获取到我们想要的图片、文字等信息。

通过超文本传输协议(HTTP)的统一资源定位符,可以将从因特网获取信息的五个基本元素包括在一个简单的地址中:

  1. 传送协议。(例如:http、https、ftp等)
  2. 服务器。(通常为域名,有时为IP地址
  3. 端口号。(以数字方式表示,若为HTTP的预设值“:80”可省略)
  4. 路径。(以“/”字元区别路径中的每一个目录名称)
  5. 查询。(GET模式的表单参数,以“?”字元为起点,每个参数以“&”隔开,再以“=”分开参数名称与资料,通常以UTF8的URL编码,避开字元冲突的问题)

接下来就是爬虫中的主体也是最基本的内容,即定位资源并爬取内容。

在python中,最常用的是urllib模块,通常只需用到两个方法便可完成数据的爬取:

urlopen(url,data,timeout):打开目标资源,第一个参数url即为目标资源的url地址,第二个参数data是访问目标url所需的数据,最后一个参数timeout是设置超时时间。第二、第三个参数通常可以省略。执行urlopen方法之后,返回一个response对象,此对象内包含了所有的返回信息。

read(size):参数size设置从返回的response对象中读取内容的字节数。

具体示例如下:

import  urllib.request #模块加载

respone=urllib.request.urlopen('http://www.baidu.com')  #定位资源

data=respone.read(1000)  #读取前1000个字节

此时data中就保存了百度首页html源文件中的前1000个字节,在实际应用中,需要在爬取整个页面后,对页面进行分析,定位html标签,并读取出我们所需的内容。

(文章来源:格物课堂)

2022-2023 Copyright © 深圳市意行科技开发有限公司 - All Rights Reserved.
深圳市南山区学苑大道1227号 
粤ICP备17013574号