doc: 提供仓库功能列表表格
This commit is contained in:
parent
5affc8a600
commit
e7f68dd7e1
46
README.md
46
README.md
|
@ -14,46 +14,40 @@
|
|||
|
||||
欢迎大家贡献代码提交PR
|
||||
|
||||
目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang) 新用户注册认证最高送12000IP,0元试用<br>
|
||||
[![极速HTTP代理-官网图](https://s2.loli.net/2023/11/30/RapQtL8A2w6TGfj.png)](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang)
|
||||
<br>目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang), 新用户注册认证最高送12000IP,0元试用
|
||||
|
||||
## 已实现
|
||||
|
||||
- [x] 小红书登录(二维码、手机号、cookies)
|
||||
- [x] 小红书Sign请求签名
|
||||
- [x] 小红书指定关键词爬去
|
||||
- [x] 小红书指定帖子爬去
|
||||
- [x] 抖音Sign请求签名
|
||||
- [x] 抖音登录(二维码、手机号、cookies)
|
||||
- [x] 抖音滑块(模拟滑动实现,准确率不太OK)
|
||||
- [x] 抖音指定关键爬取
|
||||
- [x] 抖音指定帖子爬取
|
||||
- [x] 快手指定关键词爬取
|
||||
- [x] 支持登录成功后的上下文浏览器环境保留
|
||||
- [x] 代理池实现(手机号+IP)
|
||||
- [x] 并发执行爬虫请求
|
||||
- [x] 数据保存到CSV中(默认)
|
||||
- [x] 数据保持到数据库中(可选)
|
||||
## 功能列表
|
||||
| 平台 | Cookie 登录 | 二维码登录 | 手机号登录 | 关键词搜索 | 指定视频/帖子 ID 爬取 | 登录状态缓存 | 数据保存 | IP 代理池 | 滑块验证码 |
|
||||
|:---:|:---------:|:-----:|:-----:|:-----:|:-------------:|:------:|:----:|:------:|:-----:|
|
||||
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
|
||||
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||||
| 快手 | ✅ | ✕ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
|
||||
| B 站 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ |
|
||||
| 微博 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ |
|
||||
|
||||
## 待实现
|
||||
|
||||
- [ ] 快手登录(二维码、手机号)
|
||||
|
||||
## 使用方法
|
||||
|
||||
1. 安装依赖库
|
||||
1. 创建 python 虚拟环境
|
||||
```shell
|
||||
python3 -m venv venv
|
||||
```
|
||||
|
||||
2. 安装依赖库
|
||||
|
||||
```shell
|
||||
pip install -r requirements.txt
|
||||
```
|
||||
|
||||
2. 安装playwright浏览器驱动
|
||||
3. 安装playwright浏览器驱动
|
||||
|
||||
```shell
|
||||
playwright install
|
||||
```
|
||||
|
||||
3. 是否保存数据到DB中
|
||||
4. 是否保存数据到DB中
|
||||
|
||||
如果选择开启,则需要配置数据库连接信息,`config/db_config.py` 中的 `IS_SAVED_DATABASED`和`RELATION_DB_URL` 变量。然后执行以下命令初始化数据库信息,生成相关的数据库表结构:
|
||||
|
||||
|
@ -61,7 +55,7 @@
|
|||
python db.py
|
||||
```
|
||||
|
||||
4. 运行爬虫程序
|
||||
5. 运行爬虫程序
|
||||
|
||||
```shell
|
||||
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
|
||||
|
@ -75,9 +69,9 @@
|
|||
|
||||
```
|
||||
|
||||
5. 打开对应APP扫二维码登录
|
||||
6. 打开对应APP扫二维码登录
|
||||
|
||||
6. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
|
||||
7. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
|
||||
|
||||
## 常见程序运行出错问题
|
||||
```shell
|
||||
|
|
Loading…
Reference in New Issue