炸杯百科

手机版

当前位置：首页 > 常识 >

爬虫是什么意思（爬虫简介）

100次浏览发布时间：2024-09-10 11:02:20

作为一名经管专业的学生，写论文，市场调研等等环节，都需要一些数据，那么这些数据从哪来呢？大致上有这几个渠道：

互联网上存在许多现有的，有一定价值的数据，可能我们希望批量的获取然后进行分析，对于大量的获取数据而言，爬虫就派上了用场。

爬虫是什么？

爬虫是一种按照一定规则，自动抓取万维网信息的程序或脚本，本质上是模仿用户的访问。我们平时访问互联网，主要的步骤就是

爬虫做的事情也是类似的，只不过是利用程序编写，完成自动化的重复上面的步骤，带来了极大的效率提升。

爬虫的分类

通常，我们可以把爬虫分为以下几类：

类型	特点
通用网络爬虫	爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式，爬取互联网上的所有数据（门户站点搜索引擎、大型Web服务提供商采集数据）
聚焦网络爬虫	又称主题网络爬虫，只爬行特定的数据，极大节省了硬件和网络资源
增量式网络爬虫	只抓取刚刚更新的数据，数据下载量少，及时更新已爬行的网页，减少时间和空间上的耗费、爬取到的都是最新页面
深层网络爬虫	大部分内容不能通过静态链接获取，隐藏在搜索表单后，用户提交一些关键词才能获得

爬虫的工作流程

一个爬虫的大致流程如下：

发送请求：

模拟用户的访问行为对url发起请求，get和post为最常见的请求方式之一。

url:L是Uniform Resource Locator的缩写，即统一资源定位符，俗称网址。每一个信息资源在网上都有唯一的一个地址。
get:发送请求获取服务器上的资源
post:向服务器提交资源让服务器处理

获取响应内容：

发送请求之后，只要请求正确，就可以接收到服务器返回的内容，有些时候可以通过状态码判断请求的状态。

解析内容：

在响应的内容中，提取出来我们需要的内容，有可能是从html标签中提取需要的内容，有可能是从json中提取，也有可能获取混乱的数据，需要进行解密才能读取。

存储：

将提取出来的内容进行持久化存储，以便后续的使用。

上述四个内容对应的实现代码可能是：

爬虫的矛盾，技术的两面性

反爬机制：网站通过制定相应的策略或技术手段，防止爬虫程序进行数据的爬取
反反爬机制：破解反爬机制
Robots.txt协议：君子协议

有些网站并不希望我们批量的获取他们的数据，而且大量的爬虫对于网站是一种负担，尤其是大量的分布式爬虫。有了反爬机制，就会有反反爬的机制，即尝试去破解反爬，进而爬取数据的这样一个过程。技术本身而言是中立的，就看我们怎么去使用了。

回到我自己本身，有时候确实需要去获取一些数据用于分析，我在编写爬虫的时候，会限制一下爬虫的频率，尽量“温和”的获取数据，尽管效率没那么高，但是也比手工获取效率高得多。

本文分类：常识
本文标签：无
浏览次数：100 次浏览
发布日期：2024-09-10 11:02:20
本文链接：https://www.zhabei.net/changshi/qx9bv5oOJ4.html

上一篇 > 黄山烧饼制作方法（酥皮和馅料的秘诀）
下一篇 > 指南针红色是什么方向（地图相关知识）

相关文章

绿萝为什么会黄叶呢（冬天的绿萝容易黄叶这样挽救）

绿萝是生活中最常见的绿色观叶植物，即便是不怎么喜欢养花的人，家里或者单位多多少少也会养上几盆。不仅可以绿化室内空间，还能净化空气，有利于人体健康。绿萝本身也是很好养的植物，但是它天性很怕冷，冬季降温之后，绿萝的养护难度也逐渐升高，很多花友反馈冬季的绿萝，很容易出现黄叶、落叶的表现。当冬天的绿萝出现黄

2025-04-02 01:05:53

集成灶为什么没人用（集成灶为何“卖不动”？3大问题不解决）

这已经成了集成灶的真实写照：用过的人都说好，但真正去买的人却寥寥无几。反观国外尤其是欧洲厨房，情况却恰恰相反：可以没有橱柜，但必须要有集成灶。为什么国外爆火的集成灶，到了国内就没人买了呢？用过才知道，3个缺陷太突出。#01.功能冗余用过现在的集成灶，只想说“还不够本土化”。因为中餐使用集成灶，往往会

2025-04-01 08:53:54

动迁房为什么便宜（动迁安置房购买风险知道吗？）

动迁安置房是政府组织实施、提供优惠政策、明确建设标准、限定供应价格、用于重大工程和旧区改建等项目居民安置的保障性安居用房。听说动迁安置房比较便宜，是真的吗？购买这类房屋的优缺点又是什么呢？优点：1、现房，由政府筹建，质量有保证；2、户型多为中小户型，符合一般家庭的刚需；3、是市政工程，小区周边配套规

2025-04-01 06:13:34

为什么喜欢睡床尾（孩子睡觉床头到床尾，其实是在传递这几种信号）

你们家孩子睡觉会老实吗？谈到这个话题，妈妈们想笑又想哭，孩子晚上睡觉满床滚确实挺好笑的，明明在床头睡着的，一会就已经到床尾了，想不通这样的技能是怎么练成的。但也正如此，妈妈们被折腾得晚上都睡不好，一会起来看看孩子又滚哪里了，有没有滚到床底下，一会又起来帮孩子盖好被子。回想起女儿3岁多那会，我正准备让

2025-04-01 04:15:50

为什么水开了会冒泡（开水冒泡的原理和意义）

你有没有想过，为什么当我们把水放在火上烧，水就会咕嘟咕嘟地冒出小泡泡呢？这些小泡泡是从哪里来的，又去哪里去了呢？今天，我就要带你一起探索水的神奇变化，揭秘开水冒泡的奥秘。水是如何变成气体的？我们都知道，水是一种液体，它由无数个水分子组成。水分子是由两个氢原子和一个氧原子连接在一起的，它们之间有一种特

2025-04-01 01:16:50

热门文章

伯仁却因我而死是什么意思（著名谚语“我不杀伯仁，伯仁却因我而死”）蔡侯纸是什么焦作净影寺游玩攻略（徒步焦作修武千年古刹净影寺）拉杆箱密码锁忘记密码该怎么开锁？醉蟹怎么吃最好吃（如何做家庭版醉蟹更好吃呢？）怎样练习唱歌声音更好听（如何一个月让自己歌声好听百倍）左拐车道直行违章吗怎么罚的（在左转车道直行会面临多少分的处罚？）做鱼的家常做法（鱼怎么炖好吃) 一步一步教你画红嘴相思小鸟鲜香炖鱼的家常做法（只加两样食材，鱼微辣又鲜香）

最新文章

绿萝为什么会黄叶呢（冬天的绿萝容易黄叶这样挽救）集成灶为什么没人用（集成灶为何“卖不动”？3大问题不解决）动迁房为什么便宜（动迁安置房购买风险知道吗？）为什么喜欢睡床尾（孩子睡觉床头到床尾，其实是在传递这几种信号）为什么水开了会冒泡（开水冒泡的原理和意义）笔记本电脑为什么连不上网了（笔记本电脑出现网络故障是什么原因？）警示灯是哪个灯（汽车最重要的5个故障灯）为什么打印机打不出字（针式打印机打印有空白怎么办？）为什么开胶（生态板开胶的原因？）马桶为什么老堵什么原因（马桶堵塞的罪魁祸首终找到！）