commit
b54f168c6b
|
@ -77,7 +77,7 @@ MediaCrawler视频教程课程已录制完结,包含入门教程使用、源
|
|||
### 运行爬虫程序
|
||||
|
||||
```shell
|
||||
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
|
||||
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
|
||||
python main.py --platform xhs --lt qrcode --type search
|
||||
|
||||
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
|
||||
|
@ -85,7 +85,7 @@ MediaCrawler视频教程课程已录制完结,包含入门教程使用、源
|
|||
|
||||
# 打开对应APP扫二维码登录
|
||||
|
||||
# 其他平台爬虫使用示例, 执行下面的命令查看
|
||||
# 其他平台爬虫使用示例,执行下面的命令查看
|
||||
python main.py --help
|
||||
```
|
||||
|
||||
|
|
|
@ -1,6 +1,6 @@
|
|||
## 代理 IP 使用说明
|
||||
> 还是得跟大家再次强调下,不要对一些自媒体平台进行大规模爬虫或其他非法行为,要踩缝纫机的哦🤣
|
||||
> 另外如果要是用代理功能,请安装Redis并设置一个密码, 从下面的流程图讲解了redis在这个缓存功能中起到的作用
|
||||
> 另外如果要是用代理功能,请安装Redis并设置一个密码,从下面的流程图讲解了redis在这个缓存功能中起到的作用
|
||||
### 简易的流程图
|
||||
|
||||
![代理 IP 使用流程图](../static/images/代理IP%20流程图.drawio.png)
|
||||
|
|
|
@ -4,10 +4,10 @@ Q: 爬取抖音报错: `execjs._exceptions.ProgramError: SyntaxError: 缺少 ';'
|
|||
A: 该错误为缺少 nodejs 环境这个错误安装 nodejs 环境即可,版本为:`v16.8.0` <br>
|
||||
|
||||
Q: 可以指定关键词爬取吗?<br>
|
||||
A: 在config/base_config.py 中 KEYWORDS 参数用于控制需要爬去的关键词 <br>
|
||||
A: 在config/base_config.py 中 KEYWORDS 参数用于控制需爬取的关键词 <br>
|
||||
|
||||
Q: 可以指定帖子爬去吗?<br>
|
||||
A:在config/base_config.py 中 XHS_SPECIFIED_ID_LIST 参数用于控制需要指定爬去的帖子ID列表 <br>
|
||||
Q: 可以指定帖子爬取吗?<br>
|
||||
A:在config/base_config.py 中 XHS_SPECIFIED_ID_LIST 参数用于控制需要指定爬取的帖子ID列表 <br>
|
||||
|
||||
Q: 刚开始能爬取数据,过一段时间就是失效了?<br>
|
||||
A:出现这种情况多半是由于你的账号触发了平台风控机制了,❗️❗️请勿大规模对平台进行爬虫,影响平台。<br>
|
||||
|
|
|
@ -1,6 +1,6 @@
|
|||
## 关于手机号+验证码登录的说明
|
||||
|
||||
当在浏览器模拟人为发起手机号登录请求时,使用短信转发软件将验证码发送至爬虫端回填,完成自动登录
|
||||
当在浏览器模拟人为发起手机号登录请求时,使用短信转发软件将验证码发送至爬虫端回填,完成自动登录
|
||||
|
||||
准备工作:
|
||||
|
||||
|
|
Loading…
Reference in New Issue