网络爬虫 标签

网络爬虫详解与python实现

  |   0 评论   |   451 浏览

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。

网络爬虫的基本结构及工作流程

一个通用的网络爬虫的框架如图所示:

image

网络爬虫的基本工作流程如下:

  1. 首先选取一部分精心挑选的种子 URL;
  2. 将这些 URL 放入待抓取 URL 队列;
  3. 从待抓取 URL 队列中取出待抓取在 URL,解析 DNS,并且得到主机的 ip,并将 URL 对应的网页下载下来,存储进已下载网页库中。此外,将这些 URL 放进已抓取 URL 队列。
  4. 分析已抓取 URL 队列中的 URL,分析其中的其他 URL,并且将 URL 放入待抓取 URL 队列,从而进入下一个循环。

从爬虫的角度对互联网进行划分

对应的,可以将互联网的所有页面分为五个部分:

![image](https://taohuawu.club/upload/2018