doc: 提供仓库功能列表表格

This commit is contained in:
Relakkes 2023-12-01 23:58:35 +08:00
parent 5affc8a600
commit e7f68dd7e1
1 changed files with 20 additions and 26 deletions

View File

@ -14,46 +14,40 @@
欢迎大家贡献代码提交PR
目前爬虫正在用的IP代理[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang) 新用户注册认证最高送12000IP0元试用<br>
[![极速HTTP代理-官网图](https://s2.loli.net/2023/11/30/RapQtL8A2w6TGfj.png)](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang)
<br>目前爬虫正在用的IP代理[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang), 新用户注册认证最高送12000IP0元试用
## 已实现
- [x] 小红书登录二维码、手机号、cookies
- [x] 小红书Sign请求签名
- [x] 小红书指定关键词爬去
- [x] 小红书指定帖子爬去
- [x] 抖音Sign请求签名
- [x] 抖音登录二维码、手机号、cookies
- [x] 抖音滑块模拟滑动实现准确率不太OK
- [x] 抖音指定关键爬取
- [x] 抖音指定帖子爬取
- [x] 快手指定关键词爬取
- [x] 支持登录成功后的上下文浏览器环境保留
- [x] 代理池实现(手机号+IP
- [x] 并发执行爬虫请求
- [x] 数据保存到CSV中默认
- [x] 数据保持到数据库中(可选)
## 功能列表
| 平台 | Cookie 登录 | 二维码登录 | 手机号登录 | 关键词搜索 | 指定视频/帖子 ID 爬取 | 登录状态缓存 | 数据保存 | IP 代理池 | 滑块验证码 |
|:---:|:---------:|:-----:|:-----:|:-----:|:-------------:|:------:|:----:|:------:|:-----:|
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 快手 | ✅ | ✕ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
| B 站 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ |
| 微博 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ |
## 待实现
- [ ] 快手登录(二维码、手机号)
## 使用方法
1. 安装依赖库
1. 创建 python 虚拟环境
```shell
python3 -m venv venv
```
2. 安装依赖库
```shell
pip install -r requirements.txt
```
2. 安装playwright浏览器驱动
3. 安装playwright浏览器驱动
```shell
playwright install
```
3. 是否保存数据到DB中
4. 是否保存数据到DB中
如果选择开启,则需要配置数据库连接信息,`config/db_config.py` 中的 `IS_SAVED_DATABASED`和`RELATION_DB_URL` 变量。然后执行以下命令初始化数据库信息,生成相关的数据库表结构:
@ -61,7 +55,7 @@
python db.py
```
4. 运行爬虫程序
5. 运行爬虫程序
```shell
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
@ -75,9 +69,9 @@
```
5. 打开对应APP扫二维码登录
6. 打开对应APP扫二维码登录
6. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
7. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
## 常见程序运行出错问题
```shell