doc: 提供仓库功能列表表格
This commit is contained in:
parent
5affc8a600
commit
e7f68dd7e1
46
README.md
46
README.md
|
@ -14,46 +14,40 @@
|
||||||
|
|
||||||
欢迎大家贡献代码提交PR
|
欢迎大家贡献代码提交PR
|
||||||
|
|
||||||
|
目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang) 新用户注册认证最高送12000IP,0元试用<br>
|
||||||
[![极速HTTP代理-官网图](https://s2.loli.net/2023/11/30/RapQtL8A2w6TGfj.png)](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang)
|
[![极速HTTP代理-官网图](https://s2.loli.net/2023/11/30/RapQtL8A2w6TGfj.png)](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang)
|
||||||
<br>目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang), 新用户注册认证最高送12000IP,0元试用
|
|
||||||
|
|
||||||
## 已实现
|
|
||||||
|
|
||||||
- [x] 小红书登录(二维码、手机号、cookies)
|
## 功能列表
|
||||||
- [x] 小红书Sign请求签名
|
| 平台 | Cookie 登录 | 二维码登录 | 手机号登录 | 关键词搜索 | 指定视频/帖子 ID 爬取 | 登录状态缓存 | 数据保存 | IP 代理池 | 滑块验证码 |
|
||||||
- [x] 小红书指定关键词爬去
|
|:---:|:---------:|:-----:|:-----:|:-----:|:-------------:|:------:|:----:|:------:|:-----:|
|
||||||
- [x] 小红书指定帖子爬去
|
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
|
||||||
- [x] 抖音Sign请求签名
|
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||||||
- [x] 抖音登录(二维码、手机号、cookies)
|
| 快手 | ✅ | ✕ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
|
||||||
- [x] 抖音滑块(模拟滑动实现,准确率不太OK)
|
| B 站 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ |
|
||||||
- [x] 抖音指定关键爬取
|
| 微博 | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ | ✕ |
|
||||||
- [x] 抖音指定帖子爬取
|
|
||||||
- [x] 快手指定关键词爬取
|
|
||||||
- [x] 支持登录成功后的上下文浏览器环境保留
|
|
||||||
- [x] 代理池实现(手机号+IP)
|
|
||||||
- [x] 并发执行爬虫请求
|
|
||||||
- [x] 数据保存到CSV中(默认)
|
|
||||||
- [x] 数据保持到数据库中(可选)
|
|
||||||
|
|
||||||
## 待实现
|
|
||||||
|
|
||||||
- [ ] 快手登录(二维码、手机号)
|
|
||||||
|
|
||||||
## 使用方法
|
## 使用方法
|
||||||
|
|
||||||
1. 安装依赖库
|
1. 创建 python 虚拟环境
|
||||||
|
```shell
|
||||||
|
python3 -m venv venv
|
||||||
|
```
|
||||||
|
|
||||||
|
2. 安装依赖库
|
||||||
|
|
||||||
```shell
|
```shell
|
||||||
pip install -r requirements.txt
|
pip install -r requirements.txt
|
||||||
```
|
```
|
||||||
|
|
||||||
2. 安装playwright浏览器驱动
|
3. 安装playwright浏览器驱动
|
||||||
|
|
||||||
```shell
|
```shell
|
||||||
playwright install
|
playwright install
|
||||||
```
|
```
|
||||||
|
|
||||||
3. 是否保存数据到DB中
|
4. 是否保存数据到DB中
|
||||||
|
|
||||||
如果选择开启,则需要配置数据库连接信息,`config/db_config.py` 中的 `IS_SAVED_DATABASED`和`RELATION_DB_URL` 变量。然后执行以下命令初始化数据库信息,生成相关的数据库表结构:
|
如果选择开启,则需要配置数据库连接信息,`config/db_config.py` 中的 `IS_SAVED_DATABASED`和`RELATION_DB_URL` 变量。然后执行以下命令初始化数据库信息,生成相关的数据库表结构:
|
||||||
|
|
||||||
|
@ -61,7 +55,7 @@
|
||||||
python db.py
|
python db.py
|
||||||
```
|
```
|
||||||
|
|
||||||
4. 运行爬虫程序
|
5. 运行爬虫程序
|
||||||
|
|
||||||
```shell
|
```shell
|
||||||
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
|
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
|
||||||
|
@ -75,9 +69,9 @@
|
||||||
|
|
||||||
```
|
```
|
||||||
|
|
||||||
5. 打开对应APP扫二维码登录
|
6. 打开对应APP扫二维码登录
|
||||||
|
|
||||||
6. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
|
7. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
|
||||||
|
|
||||||
## 常见程序运行出错问题
|
## 常见程序运行出错问题
|
||||||
```shell
|
```shell
|
||||||
|
|
Loading…
Reference in New Issue