From e7f68dd7e190eb75db584a9e2c64b49c69b792ca Mon Sep 17 00:00:00 2001 From: Relakkes Date: Fri, 1 Dec 2023 23:58:35 +0800 Subject: [PATCH] =?UTF-8?q?doc:=20=E6=8F=90=E4=BE=9B=E4=BB=93=E5=BA=93?= =?UTF-8?q?=E5=8A=9F=E8=83=BD=E5=88=97=E8=A1=A8=E8=A1=A8=E6=A0=BC?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 46 ++++++++++++++++++++-------------------------- 1 file changed, 20 insertions(+), 26 deletions(-) diff --git a/README.md b/README.md index d2f7f82..78a31f3 100644 --- a/README.md +++ b/README.md @@ -14,46 +14,40 @@ 欢迎大家贡献代码提交PR +目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang) 新用户注册认证最高送12000IP,0元试用
[![极速HTTP代理-官网图](https://s2.loli.net/2023/11/30/RapQtL8A2w6TGfj.png)](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang) -
目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang), 新用户注册认证最高送12000IP,0元试用 -## 已实现 -- [x] 小红书登录(二维码、手机号、cookies) -- [x] 小红书Sign请求签名 -- [x] 小红书指定关键词爬去 -- [x] 小红书指定帖子爬去 -- [x] 抖音Sign请求签名 -- [x] 抖音登录(二维码、手机号、cookies) -- [x] 抖音滑块(模拟滑动实现,准确率不太OK) -- [x] 抖音指定关键爬取 -- [x] 抖音指定帖子爬取 -- [x] 快手指定关键词爬取 -- [x] 支持登录成功后的上下文浏览器环境保留 -- [x] 代理池实现(手机号+IP) -- [x] 并发执行爬虫请求 -- [x] 数据保存到CSV中(默认) -- [x] 数据保持到数据库中(可选) +## 功能列表 +| 平台 | Cookie 登录 | 二维码登录 | 手机号登录 | 关键词搜索 | 指定视频/帖子 ID 爬取 | 登录状态缓存 | 数据保存 | IP 代理池 | 滑块验证码 | +|:---:|:---------:|:-----:|:-----:|:-----:|:-------------:|:------:|:----:|:------:|:-----:| +| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ | +| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | +| 快手 | ✅ | ✕ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ | +| B 站 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | +| 微博 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | -## 待实现 - -- [ ] 快手登录(二维码、手机号) ## 使用方法 -1. 安装依赖库 +1. 创建 python 虚拟环境 + ```shell + python3 -m venv venv + ``` + +2. 安装依赖库 ```shell pip install -r requirements.txt ``` -2. 安装playwright浏览器驱动 +3. 安装playwright浏览器驱动 ```shell playwright install ``` -3. 是否保存数据到DB中 +4. 是否保存数据到DB中 如果选择开启,则需要配置数据库连接信息,`config/db_config.py` 中的 `IS_SAVED_DATABASED`和`RELATION_DB_URL` 变量。然后执行以下命令初始化数据库信息,生成相关的数据库表结构: @@ -61,7 +55,7 @@ python db.py ``` -4. 运行爬虫程序 +5. 运行爬虫程序 ```shell # 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论 @@ -75,9 +69,9 @@ ``` -5. 打开对应APP扫二维码登录 +6. 打开对应APP扫二维码登录 -6. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下 +7. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下 ## 常见程序运行出错问题 ```shell