Haauleon Blog

我干了什么 究竟拿了时间换了什么

爬虫 | selenium指定google chrome版本和chromedriver版本运行

以Ubuntu/Debian为例,指定google chrome版本为107.0.5304.121,且使用本地的chromedriver版本为107.0.5304.62的驱动运行程序

一、下载安装旧版的chrome浏览器 详见:下载安装旧版的chrome浏览器 二、指定本地的驱动版本运行 (1)下载版本为107.0.5304.62的驱动至本地 下载地址:https://chromedriver.storage.googleapis.com/107.0.5304.62/chromedriver_linux64.zip 若无法下载,可使用以下离线资源...

爬虫 | selenium报错ValueError

ValueError: Timeout value connect was <...>, but it must be an int, float or None.

异常分析 在新机器上安装: 1 pip install selenium==3.141.0 安装完以后显示: 1 Successfully installed selenium-3.141.0 urllib3-2.0.2(坑出现了) 运行以下代码后报错: 1 2 3 4 5 from selenium import webdriver driver = webdriver.Chr...

Python3 | 使用reduce()函数累加列表中所有元素数值

reduce(lambda x, y: x + y, numbers)

reduce()函数 1 2 3 4 5 6 7 from functools import reduce numbers = [1, 2, 3, 4, 5] # 累积操作使用 lambda 函数来实现,lambda 函数接受两个参数 x 和 y,返回它们的和 sum = reduce(lambda x, y: x + y, numbers) print(sum) 输出结果为 15,...

Python3 | 判断变量是否是列表

使用bool(isinstance(variable, list))

isinstance()函数 1 2 3 4 5 6 >>> isinstance("123", list) False >>> isinstance([1,2,3], list) True >>> isinstance("123", str) True 相关链接: python判断变量是否是列表

Python3 | 如何实现保留两位小数

使用内置的 round() 函数

round()函数 1 2 3 num = 3.14159 rounded_num = round(num, 2) print(rounded_num) 输出结果: 1 3.14

影刀RPA | 自动清除影刀浏览器缓存

解决在影刀RPA软件启动运行的条件下无法删除cache文件夹的问题

问题描述   官方的方法是使用命令删除缓存文件夹,但是很多用户都反馈无法删除,因为文件正在使用。我测试了,关闭影刀浏览器也依旧显示无法删除。只要影刀主程序开启了的,就无法无法删除 cache 这个文件夹。手动清除浏览器缓存的方法:程序运行之前需要干掉影刀进程,然后在运行命令框内输入 `%localappdata%\ShadowBot\cef` 找到 cache 文件夹并删除。 分析解...

爬虫 | ChromeDriverManager().install()异常处理

使用ChromeDriverManager().install()安装ChromeDriverManager失败

异常分析   最近的爬虫项目使用到了 selenium 模块来驱动浏览器进行爬虫,但是今天在公司的服务器上去执行的时候,因为网络的原因,使用 ChromeDriverManager().install() 检查并安装最新版本驱动的时候抛出了以下异常: 1 2 3 4 5 http: error: ConnectionError: HTTPSConnectionPool( host='chro...

爬虫 | 使用html.xpath、driver.xpath两种方式实现查找相似节点的元素

Selenium Webdriver 使用 xpath 查找所有 class 节点具有相似名称的元素

html.xpath   使用这种 xpath 查询方式的前提是要先通过 webdriver 拿到页面的字符串类型的 html 源代码,然后使用 lxml.tree() 方法将源代码转成可通过 DOM 树的形式进行层级遍历。代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 from lxml import etree text = driver.page_source h...

Linux | selenium 的 chrome 缓存文件清理

定时删除服务器 /tmp 下的所有 chrome 浏览器缓存文件

背景   部署 selenium 的服务器预警磁盘空间不足,某一文件系统磁盘容量使用率 99%,sudo du -h --max-depth=0 /tmp 命令发现 /tmp 文件夹大小有差不多40个G,ll -a 查看文件夹内全是 .com.google.Chrome.xJUHXb 之类的 chrome 缓存文件,太久不清理都爆了,手动删除即可。 1 > cd /tmp/ &...

Python3 | webdriver清除浏览器缓存

python + selenium + chrome 如何清理浏览器缓存和 /tmp 目录下的临时文件

webdriver清除浏览器缓存 Python/Selenium -清除我的chrome webdriver中该高速缓存和cookie? python selenium chrome 清缓存 python + selenium + chrome 如何清理浏览器缓存 python网络爬虫 占用内存和CPU越来越大 越跑越慢 ...