Haauleon Blog

我干了什么 究竟拿了时间换了什么

Python3 | 微博热搜钉钉推送

实现爬取微博热搜并进行钉钉消息推送

实现效果 代码实现 1.安装第三方包 1 $ pip install DingtalkChatbot==1.5.3 2.完整代码实现 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 4...

爬虫 | 多线程爬虫:先给各个线程分配好资源后再进入线程

Python requests+selenium 多线程爬取王者荣耀全部1080P壁纸(共450M,用时57S)并按英雄进行分类

背景   玩王者荣耀有4年了,一直很喜欢这个游戏。记不得是哪天了,当时刚刚接触python,看见网上有人用python爬取王者荣耀全皮肤图片,虽然看不懂,但满是羡慕,也想着有一天能够自己写一个程序爬我喜欢的东西。   看了大神的文章后开始自学爬虫,期间也进行过一些尝试,但结果总是不尽人意。于是利用暑假的时间,买了一本关于爬虫的书籍,开始系统的学习。在经过大量的示例分析和实践后,我又进...

Python3 | 抖音指定用户最新作品钉钉推送

实现爬取抖音指定用户最新作品并进行钉钉消息推送

实现效果 代码实现 1.安装第三方包 1 $ pip install DingtalkChatbot==1.5.3 2.完整代码实现 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 4...

Python3 | 抖音热搜钉钉推送

实现爬取抖音热搜并进行钉钉消息推送

实现效果 代码实现 1.安装第三方包 1 $ pip install DingtalkChatbot==1.5.3 2.完整代码实现 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 4...

Python3 | 懂车帝价格监控钉钉推送

实现爬取懂车帝珠海地区指定车型价格监控并进行钉钉消息推送

实现效果 代码实现 1.安装第三方包 1 $ pip install DingtalkChatbot==1.5.3 2.完整代码实现 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 4...

Linux | taskkill 和 pidof 的用法

纯代码方式杀死指定进程名的进程(Linux&Windows)如 chromedriver.exe

一、命令行方式 1、Linux 1 > pidof chromedriver | xargs kill -9 2、Windows 1 > taskkill /f /t /im chromedriver.exe 3、合入代码中,linux 可以使用 system,windows 可以使用 system、winexec 等方式执行 1 2 3 4 5 6 7 8 #ifdef...

Linux | tail 命令详解

监视文件内容有无变化,新增内容会继续输出

一、tail 命令介绍 tail 命令可以将文件指定位置到文件结束的内容写到标准输出。如果你不知道tail命令怎样使用,可以在命令行执行命令 tail --help 就能看到 tail 命令介绍和详细的参数使用介绍,内容如下(我帮大家翻译了一下)。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27...

爬虫 | xpath 定位方法详解

python + selenium + xpath 定位方法详解

前言   selenium 中的 xpath 有八大定位策略,分别是 id、name、class name、tag name、link text、partial link text、xpath、css 。那么我们今天呢主要来讲讲八大定位策略中的 xpath 的定位方法。 一、xpath基本定位用法 1.1 使用id定位 1 driver.find_element_by_xpath('...

爬虫 | driver.get() 方法加载页面缓慢

如何解决 Python selenium driver.get(url) 页面很慢时的问题

driver.get() driver.get("url") 方法需等到页面全部加载渲染完成后才会执行后续的脚本。在执行脚本时,如果当前的url页面内容较多加载特别慢,很费时间,但是我们需要操作的元素已经加载出来,可以将页面加载停掉,不影响后面的脚本执行。 解决办法: 设置页面加载 timeout,get 操作: 1 2 3 4 try: driver.get(url)...

爬虫 | 指定selenium配置取消加载图片

指定selenium配置以增加取消加载图片和使用代理可以解决页面加载过慢的问题

一、selenium基本配置 1、取消自动测试 1 2 3 4 5 6 7 8 from selenium.webdriver import Chrome, ChromeOptions options = ChromeOptions() options.add_experimental_option('excludeSwitches', ['enable-automation']) dr...