当前位置：首页 > 科技 > 软件

写了个简单爬虫，收集 Boss直聘自动驾驶岗位

来源：责编：时间：2024-03-18 09:35:13 306观看

导读朋友想知道 Boss 直聘上关于自动驾驶的岗位有哪些，于是，笔者写了一个简单的爬虫 crawler-boss ，将全国大城市相关岗位的信息收集起来。这篇文章，笔者想分享爬虫 crawler-boss 的设计思路。图片一、基本原理 Selenium + c

朋友想知道 Boss 直聘上关于自动驾驶的岗位有哪些，于是，笔者写了一个简单的爬虫 crawler-boss ，将全国大城市相关岗位的信息收集起来。

这篇文章，笔者想分享爬虫 crawler-boss 的设计思路。

图片

一、基本原理 Selenium + chromedriver

对于很多动态渲染的网页而言，想要抓取它的数据，就需要对网页的 JS 代码以及 Ajax 接口等进行分析。

而当 JS 代码混乱，难以分析，Ajax 的接口又含有很多加密参数的时候，就非常难以直接找出规律，那么上述过程会花费大量的时间和精力。

图片

上图中， Boss 直聘接口参数比较多，笔者并不想花太多时间研究这些参数，于是笔者选择了另一种方案：Selenium + chromedriver。

Selenium是 web 浏览器自动化测试的工具，它可以模拟用户与所有主流浏览器之间的交互，比如点击，输入，抓取，拖拽等等。

由于网页大多采用是 JavaScript 动态渲染，使得爬虫返回的结果可能与用户实际看到的网页并不一致。我们看到的网页可能是经过 Ajax 加载，或者是JavaScript以及其他算法计算后生成的。

因此，我们可以使用 Selenium直接模拟浏览器运行，我们肉眼看到的是什么样，能够抓取的数据就是什么样。

二、安装 chromedriver

WebDriver 是 Selenium 的核心组件，负责控制浏览器进行各种操作。WebDriver 可以通过不同的驱动程序与不同的浏览器进行通信，比如 ChromeDriver、FirefoxDriver 等。

1、查看当前Google浏览器版本

打开Google浏览器，网址栏输入：chrome://settings/help

图片

2、下载对应版本的chromedriver

对照你的版本下载，当你使用的是 Chrome 版本 115 或更高版本，就点最上面的链接：

https://chromedriver.chromium.org/downloads/

图片

找到你对应的版本，我这里是122.0.6261.129

图片

下载完成之后，将文件解压后，拷贝到 /usr/local/bin/ 目录。

图片

安装完 chromedriver 后，Java 应用中添加如下依赖：

<dependency>    <groupId>org.seleniumhq.selenium</groupId>    <artifactId>selenium-server</artifactId>    <version>3.141.59</version></dependency>

然后通过如下代码，测试环境是否 OK 。

public static void main(String[] args) {      WebDriver webDriver = new ChromeDriver();      webDriver.get("https://juejin.cn");}

点击运行，如果打开了掘金网页说明环境配置成功。

三、流程分析

1、进入搜索页面 , 搜索框中输入‘自动驾驶’

图片

2、搜索结果若出现登录浮窗，则关闭，将页面中职位列表通过 class 截取出来，保存到数据库

图片

3、点击下一页

图片

四、爬虫演示

执行完成之后，职位记录表新增了接近 2000 条记录。

图片

五、写到最后

当我们将 Selenium 作为爬虫工具时，尽管它有很多优点，但也存在明显的缺点。

Selenium 模拟浏览器动作，除了加载需要的数据外，还会加载图片、JS、CSS等不必要的内容，导致网络资源和计算资源消耗增加，爬取速度变慢，爬取规模受限。

因此，长期大规模使用 Selenium 作为生产工具不是一个明智的选择。

然而，如果只是想在个人电脑上快速抓取少量数据，Selenium 确实是一个非常方便的工具。

最后， crawler-boss 的源码实现非常简单，假如同学们感兴趣，可以关注公众号，回复「爬虫」即可获取。

参考文档：

https://zhuanlan.zhihu.com/p/137710454
https://juejin.cn/post/7284318118993068051

本文链接：http://www.28at.com/showinfo-26-76483-0.html写了个简单爬虫，收集 Boss直聘自动驾驶岗位

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： SpringCloud微服务中如何实现多端认证？

下一篇：工作中最常见的六种OOM问题

标签：

热门焦点

7月安卓手机好评榜：三星S23Ultra好评率第一

性能榜和性价比榜之后，我们来看最后的安卓手机好评榜，数据来源安兔兔评测，收集时间2023年7月1日至7月31日，仅限国内市场。第一名：三星Galaxy S23 Ultra好评率：95.71%在即将迎来新
6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

2023年上半年已经正式过去了，我们也迎来了安兔兔V10版本，在新的骁龙8Gen3和天玑9300发布之前，性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主，至于那颗3.36GHz的骁龙8Gen2领先
跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王

8月5日消息，Redmi K60至尊版将于8月发布，在此前举行的战略发布会上，官方该机将搭载搭载天玑9200+处理器，安兔兔V10跑分超177万分，是目前安卓阵营最高的分数
Java NIO内存映射文件：提高文件读写效率的优秀实践！

Java的NIO库提供了内存映射文件的支持，它可以将文件映射到内存中，从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
破圈是B站头上的紧箍咒

来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集，2021年有优酷的《山河令》，2022年有爱奇艺的《苍兰诀》，今年却轮到小破站抓住了追
2天涨粉255万，又一赛道在抖音爆火

来源：运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期，旅游赛道彻底火了：有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿；有的「博主」火了&m
本地生活这块肥肉，拼多多也想吃一口

出品/壹览商业作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期，拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现，该界面目前主要
认真聊聊东方甄选：如何告别低垂的果实

来源：山核桃作者：财经无忌爆火一年后，俞敏洪和他的东方甄选依旧是颇受外界关心的“网红”。7月5日至9日，为期5天的东方甄选“甘肃行”首次在自有App内直播，
郭明錤称华为和江淮汽车合作开发问界MPV，定价100万左右、计划明年量产

8 月 1 日消息，郭明錤今天在 Medium 平台发布博文，称华为正在和江淮汽车合作，开发售价在 100 万元的问界 MPV，预计在 2024 年第 2 季度量产，销量目标为

写了个简单爬虫，收集 Boss直聘自动驾驶岗位

一、基本原理 Selenium + chromedriver

二、安装 chromedriver

1、查看当前Google浏览器版本

2、下载对应版本的chromedriver

三、流程分析

四、爬虫演示

五、写到最后

参考文档：

7月安卓手机好评榜：三星S23Ultra好评率第一

6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

跑分安卓第一！Redmi K60至尊版8月发布！卢伟冰：目标年度性能之王

Java NIO内存映射文件：提高文件读写效率的优秀实践！

破圈是B站头上的紧箍咒

2天涨粉255万，又一赛道在抖音爆火

本地生活这块肥肉，拼多多也想吃一口

认真聊聊东方甄选：如何告别低垂的果实

郭明錤称华为和江淮汽车合作开发问界MPV，定价100万左右、计划明年量产

最新推荐

猜你喜欢

热门推荐

相关资讯