简单易上手的爬虫工具(轻量级爬虫工具详细使用教程)

热心投稿 • 2022-11-16 18:58:58 • 文章 • 阅读 39

经常会遇到一些简单的需求，需要爬取某网站上的一些数据，但这些页面的结构非常的简单，并且数据量比较小，自己写代码固然可以实现，但杀鸡焉用牛刀？

目前市面上已经有一些比较成熟的零代码爬虫工具，比如说八爪鱼，有现成的模板可以使用，同时也可以自己定义一些抓取规则。但我今天要介绍的是另外一个神器 — Web Scraper，它是 Chrome 浏览器的一个扩展插件，安装后你可以直接在F12调试工具里使用它。

1. 安装 Web Scraper

有条件的同学，可以直接在商店里搜索 Web Scraper 安装它

没有条件的同学，可以来这个网站（https://crxdl.com/）下载 crx 文件，再离线安装，具体方法可借助搜索引擎解决

安装好后，需要重启一次 Chrome，然后 F12 就可以看到该工具

2. 基本概念与操作

在使用 Web Scraper 之前，需要讲解一下它的一些基本概念：

sitemap

直译起来是网站地图，有了该地图爬虫就可以顺着它获取到我们所需的数据。

因此 sitemap 其实就可以理解为一个网站的爬虫程序，要爬取多个网站数据，就要定义多个 sitemap。

sitemap 是支持导出和导入的，这意味着，你写的 sitemap 可以分享给其他人使用的。

从下图可以看到 sitemap 代码就是一串 JSON 配置

只要拿到这个配置你就可以导入别人的 sitemap

Selector

直译起来是选择器，从一个布满数据的 HTML 页面中去取出数据，就需要选择器去定位我们的数据的具体位置。

每一个 Selector 可以获取一个数据，要取多个数据就需要定位多个 Selector。

Web Scraper 提供的 Selector 有很多，但本篇文章只介绍几种使用频率最高，覆盖范围最广的 Selector，了解了一两种之后，其他的原理大同小异，私下再了解一下很快就能上手。

Web Scraper 使用的是 CSS 选择器来定位元素，如果你不知道它，也无大碍，在大部分场景上，你可以直接用鼠标点选的方式选中元素， Web Scraper 会自动解析出对应的 CSS 路径。

Selector 是可以嵌套的，子 Selector 的 CSS 选择器作用域就是父 Selector。

正是有了这种无穷无尽的嵌套关系，才让我们可以递归爬取整个网站的数据。

如下就是后面我们会经常放的选择器拓扑，利用它可以直观的展示 Web Scraper 的爬取逻辑

数据爬取与导出

在定义好你的 sitemap 规则后，点击 Scrape 就可以开始爬取数据。

爬取完数据后，不会立马显示在页面上，需要你再手动点击一下 refresh 按钮，才能看到数据。

最后数据同样是可以导出为 csv 或者 xlsx 文件。

3. 分页器的爬取

爬取数据最经典的模型就是列表、分页、详情，接下来我也将围绕这个方向，以爬取 CSDN 博客文章去介绍几个 Selector 的用法。

分页器可以分为两种：

一种是，点 下一页 就会重新加载一个页面
一种是：点 下一页 只是当前页面的部分内容重新渲染

在早期的 web-scraper 版本中，这两种的爬取方法有所不同。

对于需要重新加载页面的，需要 Link 选择器
对于不需要重新加载页面的，可以使用 Element Click 选择器

对于某些网站的确是够用了，但却有很大的局限性。

经过我的试验，第一种使用 Link 选择器的原理就是取出下一页的 a 标签的超链接，然后去访问，但并不是所有网站的下一页都是通过 a 标签实现。

像下面这样用 js 监听事件然后跳转的，就无法使用 Link 选择器。

而在新版的 web scraper ，对导航分页器提供了特别的支持，加了一个 Pagination 的选择器，可以完全适用两种场景，下面我会分别演示。

不重载页面的分页器爬取

点入具体一篇 CSDN 博文，拉到底部，就能看到评论区。

如果你的文章比较火，评论的同学很多的时候，CSDN 会对其进行分页展示，但不论在哪一页的评论，他们都隶属于同一篇文章，当你浏览任意一页的评论区时，博文没有必要刷新，因为这种分页并不会重载页面。

对于这种不需要重载页面的点击，完全可以使用 Element Click 来解决。

其中最后一点千万注意，要选择 root 和 next_page，只有这样，才能递归爬取

最后爬取的效果如下

使用 Element Click 的 sitemap 配置如下，你可以直接导入我的配置进行研究

{"_id":"blog_comment","startUrl":["https://blog.csdn.net/weixin_36338224/article/details/111936614"],"selectors":[{"clickElementSelector":"li.js-page-next","clickElementUniquenessType":"uniqueText","clickType":"clickMore","delay":2000,"discardInitialElements":"do-not-discard","id":"next_page","multiple":true,"parentSelectors":["_root","next_page"],"selector":"div.comment-list-container","type":"SelectorElementClick"},{"delay":0,"id":"comment","multiple":true,"parentSelectors":["_root","next_page"],"selector":"ul:nth-of-type(n+2) > li.comment-line-box span.new-comment","type":"SelectorElement"},{"delay":0,"id":"content","multiple":false,"parentSelectors":["comment"],"regex":"","selector":"_parent_","type":"SelectorText"}]}

JSON

Copy

当然啦，对于分页这种事情，web scraper 提供了更专业的 Pagination 选择器，它的配置更为精简，效果也最好

对应的 sitemap 的配置如下，你可以直接导入使用

{"_id":"blog_comment","startUrl":["https://blog.csdn.net/weixin_36338224/article/details/111936614"],"selectors":[{"id":"next_page","parentSelectors":["_root","next_page"],"paginationType":"auto","selector":"li.js-page-next","type":"SelectorPagination"},{"id":"comment","parentSelectors":["_root","next_page"],"type":"SelectorElement","selector":"ul:nth-of-type(n+2) > li.comment-line-box span.new-comment","multiple":true,"delay":0},{"id":"content","parentSelectors":["comment"],"type":"SelectorText","selector":"_parent_","multiple":false,"delay":0,"regex":""}]}

JSON

Copy

要重载页面的分页器爬取

CSDN 的博客文章列表，拉到底部，点击具体的页面按钮，或者最右边的下一页就会重载当前的页面。

而对于这种分页器，Element Click 就无能为力了，读者可自行验证一下，最多只能爬取一页就会关闭了。

而作为为分页而生的 Pagination 选择器自然是适用的

爬取的拓扑与上面都是一样的，这里不再赘述。

对应的 sitemap 的配置如下，你可以直接导入去学习

{"_id":"mycsdn","startUrl":["https://blog.csdn.net/weixin_36338224/article/list/1"],"selectors":[{"id":"next_page","parentSelectors":["_root","next_page"],"paginationType":"auto","selector":"li.js-page-next","type":"SelectorPagination"},{"id":"article","parentSelectors":["_root","next_page"],"type":"SelectorElement","selector":"div.article-item-box","multiple":true,"delay":0},{"id":"title","parentSelectors":["article"],"type":"SelectorText","selector":"h4 a","multiple":false,"delay":0,"regex":""},{"id":"views","parentSelectors":["article"],"type":"SelectorText","selector":"span:nth-of-type(2)","multiple":false,"delay":0,"regex":"[0-9]+"},{"id":"comments","parentSelectors":["article"],"type":"SelectorText","selector":"span:nth-of-type(3)","multiple":false,"delay":0,"regex":""},{"id":"publish_time","parentSelectors":["article"],"type":"SelectorText","selector":"span.date","multiple":false,"delay":0,"regex":""}]}

JSON

Copy

4. 二级页面的爬取

CSDN 的博客列表列表页，展示的信息比较粗糙，只有标题、发表时间、阅读量、评论数，是否原创。

想要获取更多的信息，诸如博文的正文、点赞数、收藏数、评论区内容，就得点进去具体的博文链接进行查看

web scraper 的操作逻辑与人是相通的，想要抓取更多博文的详细信息，就得打开一个新的页面去获取，而 web scraper 的 Link 选择器恰好就是做这个事情的。

爬取路径拓扑如下

爬取的效果如下

sitemap 的配置如下，你可以直接导入使用

{"_id":"csdn_detail","startUrl":["https://blog.csdn.net/weixin_36338224/article/list/1"],"selectors":[{"id":"container","parentSelectors":["_root"],"type":"SelectorElement","selector":"[data-articleid='111936614']","multiple":false,"delay":0},{"id":"article_detail_link","parentSelectors":["container"],"type":"SelectorLink","selector":"h4 a","multiple":false,"delay":0},{"id":"detail","parentSelectors":["article_detail_link"],"type":"SelectorText","selector":"article","multiple":false,"delay":0,"regex":""},{"id":"title","parentSelectors":["container"],"type":"SelectorText","selector":"h4 a","multiple":false,"delay":0,"regex":""},{"id":"time","parentSelectors":["container"],"type":"SelectorText","selector":"span.date","multiple":false,"delay":0,"regex":""},{"id":"views","parentSelectors":["container"],"type":"SelectorText","selector":"span:nth-of-type(2)","multiple":false,"delay":0,"regex":""},{"id":"comments","parentSelectors":["container"],"type":"SelectorText","selector":"span:nth-of-type(3)","multiple":false,"delay":0,"regex":""}]}

JSON

Copy

5. 写在最后

上面梳理了分页与二级页面的爬取方案，主要是：分页器抓取和二级页面抓取。

只要学会了这两个，你就已经可以应对绝大多数的结构性网页数据了。

例如你可以爬取自己发表在 CSDN 上的所有博文信息，包括：标题、链接、文章内容、阅读数，评论数、点赞数，收藏数。

当然想要用好 web scraper 这个零代码爬取工具，你可能需要有一些基础，比如：

CSS 选择器的知识：如何抓取元素的属性，如何抓取第 n 个元素，如何抓取指定数量的元素？
正则表达式的知识：如何对抓取的内容进行初步加工？

受限于篇幅，我尽量讲 web scraper 最核心的操作，其他的基础内容只能由大家自行充电学习了。

文章标题：简单易上手的爬虫工具(轻量级爬虫工具详细使用教程)，本文链接：https://www.siwihs.com/10619.html。本文来自投稿，不代表阳阳建站立场，未经允许，禁止转载。

热心投稿

0 0

贸易方式有哪些(4种常见的贸易方式)

上一篇 2022-11-16 18:55:58

亚马逊妥投模式(新方式无人快递发展)

下一篇 2022-11-16 19:00:53

文章

dhl偏远地区查询「dhl偏远地区费用」

DHL是什么？DHL国际快递服务与时效怎么样？ DHL-德国敦豪快递服务公司，是服务全世界的物流企业，是全球快递行业的市场领导者。DHL各事业部提供完整的物流服务系列，包括国内和国…

热心投稿
2022-12-06
0240
亚马逊a+是什么意思「手把手教你设置a+页面」

在跨境电商平台上做外贸行业，就一定会使用亚马逊电子商务平台。因为亚马逊平台是目前全球非常知名的跨境电子商务平台。而我们的外贸人们要是使用亚马逊电子商务平台，就一定会了解到亚马逊a+…

热心投稿
文章 2022-12-03
0160
文章

roi公式要怎么计算（详细的计算公式及例子）

一、什么是投入产出比？公式：投入产出比=成交额/花费，用于判断推广计划的点击花费在14天转化周期内带来支付交易额的比例。投入产出比（ROI）的高与低能直接反应推广计划是亏损还是盈…

热心投稿
2022-11-17
0590
文章

cyber monday是哪一天什么意思（美国版双十一）

感恩节过去后美国人民马上就要投身买买买啦！ Black Friday相当于美国版的双十一，今天Jenny和Spencer要来和大家聊聊黑五的由来。节目音乐: Price Tag…

热心投稿
2022-11-17
0930
商标注册需要多少钱「2023年300元注册商标教程」

商标的注册一般要在特定的地点完成，但商标可能会被侵权。商标侵权一般是指未经商标使用人同意，擅自使用商标。这是违反相关规定的，一般会受到一定程度的处罚。以下是财企猫整理的相应资料，希…

热心投稿
文章 2022-12-01
0320
文章

epa认证是什么「3分钟看懂美国epa认证」

一、什么是EPA认证？《简称：环境保护局认证》EPA是美国环境保护局( u.senvironmental protectionagency )的英文简称。其主要任务是保护本国人民…

热心投稿
2022-12-02
0250
建站工具有哪些(6款免费低价的建站工具)

一般免费或低价的建站工具都是由消费者自己利用模板建网站。同时对网站功能要求不高，可能仅用于个人或小公司、活动等项展示，今天为大家推荐6款市面上较为突出的免费或低价的建站工具，考虑到…

热心投稿
文章 2022-11-16
0550
大为专利检索「7个专业的专利检索网站收藏」

1.SooPat http://www.soopat.com/ SooPat普通会员可以进行中国专利的检索下载，也有更为强大的专利分析功能，提供各种类型的专利分析，例如可以对专利申…

热心投稿
文章 2022-12-05
0160
俄罗斯引擎网址是什么(进不去怎么办)

俄罗斯搜索引擎有哪些俄罗斯的常见的搜索引擎：Yandex、rambler、Akavita、All、meta 其中，Yandex作为俄罗斯最大的网络广告平台，大约占据着64%的市场…

热心投稿
文章 2022-11-16
01.7K0
文章

tiktok shop跨境电商官网「手把手教你打造爆款」

TikTok商家们苦等的美国小店（TikTok Shop）终于要来了。有消息人士向亿邦动力透露，TikTok美国小店将于11月的第二周上线，首批率先对美国本地商家进行小流量测…

热心投稿
2022-12-02
0660
怎么上谷歌_手机如何使用google搜索引擎

1、打开手机菜单进入设置界面； 2、找到连接器或者虚拟专用网络选项； 3、然后添加配置； 4、输入名称，类型选择PPTP5，服务器地址按地图获取； 5、填好之后点保存； 6、然后点…

热心投稿
文章 2022-11-12
0620
文章

美国网站有哪些「美国10大顶级网站排行榜」

近日，英国知名品牌评估机构《品牌金融》，发布了2022年全球十大网络&媒体品牌的排名，前十名被中美两国包办，预示着两个东西方强国开始了正面的网络和媒体大战。#谷歌##tik…

热心投稿
2022-11-25
0340
文章

mdw2仓库在哪里「93个亚马逊fba仓库地址及代码」

应该是（mdw2）60433吧是美国亚马逊包裹仓库 250EmeraldDr,Joliet,IL60433 美国伊利诺伊州乔利埃特的仓库无论您是海外仓还是跨境卖家，…

热心投稿
2022-12-04
0420
免运费是什么意思（关于免运费的详细解答）

订单上写着免运费啥意思？当前订单写着免运费，就是指当前商品在进行运输过程中，如果说产生了快递费用的情况下，是有商家进行承担，不需要你单独的进行支付淘宝退货首重免运费是什么意思？…

热心投稿
文章 2022-11-21
0820
文章

eid mubarak什么意思（看懂老外是说eid mubarak的含义）

科威特民事服务委员会（CSC）周四宣布开斋节假期将于5月1日星期日开始，5月5日星期四结束。 The Civil Service Commission (CSC) announce…

热心投稿
2022-11-21
02640
文章

亚马逊站外deal网站怎么做(网站汇总)

亚马逊卖家常见的站外推广方式 1、Deal促销网站推广：通过不同的折扣站点发布产品信息，并通过设置折扣截止日期获取更多的销售。如Slickdeals, Dealnews, Woo…

热心投稿
2022-11-16
0420
塞舌尔注册公司费用程序利弊（详细讲解相关内容）

注册塞舌尔公司的要求 1、注册资本要求对塞舌尔国际商业公司来说，最低的资本要求是一个单位的任何国际货币，但是价值不得小于一美元。 2、董事股东要求塞舌尔的国际商业公司可以有一名…

热心投稿
文章 2022-11-19
0170
文章

skyee官网是做什么的(官网使用账号的方法)

常用Skype的大家都了解， Skype为微软旗下的产品之一， Skype账号即为微软账号，那么Skype账号的使用方法，你真的都清楚吗？如果你清楚，请温故而知新往下看。如…

热心投稿
2022-11-16
0250
文章

卫国战争胜利纪念日是什么时候「卫国战争意义」

5月9日是俄罗斯纪念苏联卫国战争胜利日即是战胜法西斯德国的纪念日。这个日子是全世界反法西斯的胜利日，属于俄罗斯，属于乌克兰，属于美国，属于法国，属于英国，更属于以色列和德国。苏联…

热心投稿
2022-12-03
0170
gopay钱包是什么「gopay钱包在中国合法吗」

go钱包是什么？ gopay钱包是一款可以帮助用户进行直接支付消费的软件，为用户提供全球的交互平台，同时利用DAG技术，实现了用户交易的过程中无需支付手续费，完美的实现了去中心化的…

热心投稿
文章 2022-11-30
01270