5.2 KiB
5.2 KiB
免责声明:
本仓库的所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任,本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。
仓库描述
小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫...。
目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。
原理:利用playwright搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低
爬虫技术交流群:949715256,同时欢迎大家贡献代码提交PR
目前爬虫正在用的IP代理:极速HTTP代理 新用户注册认证最高送12000IP,0元试用
功能列表
平台 | Cookie 登录 | 二维码登录 | 手机号登录 | 关键词搜索 | 指定视频/帖子 ID 爬取 | 登录状态缓存 | 数据保存 | IP 代理池 | 滑块验证码 |
---|---|---|---|---|---|---|---|---|---|
小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
快手 | ✅ | ✅ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
B 站 | ✅ | ✅ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
微博 | ✅ | ✅ | ✕ | ✅ | ✅ | ✅ | ✅ | ✅ | ✕ |
使用方法
创建并激活 python 虚拟环境
# 进入项目根目录
cd MediaCrawler
# 创建虚拟环境
python3 -m venv venv
# macos & linux 激活虚拟环境
source venv/bin/activate
# windows 激活虚拟环境
venv\Scripts\activate
安装依赖库
pip3 install -r requirements.txt
安装 playwright浏览器驱动
playwright install
运行爬虫程序
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python3 main.py --platform xhs --lt qrcode --type search
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python3 main.py --platform xhs --lt qrcode --type detail
# 打开对应APP扫二维码登录
# 其他平台爬虫使用示例, 执行下面的命令查看
python3 main.py --help
数据保存
- 支持保存到关系型数据库(Mysql、PgSQL等)
- 支持保存到csv中(data/目录下)
如何使用 IP 代理
➡️➡️➡️ IP代理使用方法
运行报错常见问题Q&A
➡️➡️➡️ 常见问题
项目代码结构
➡️➡️➡️ 项目代码结构说明
手机号登录说明
➡️➡️➡️ 手机号登录说明
打赏
如果觉得项目不错的话可以打赏哦。您的支持就是我最大的动力!
打赏时您可以备注名称,我会将您添加至打赏列表中。
捐赠信息
PS:如果打赏时请备注捐赠者,如有遗漏请联系我添加(有时候消息多可能会漏掉,十分抱歉)
捐赠者 | 捐赠金额 | 捐赠日期 |
---|---|---|
allen | 20 元 | 2024-01-10 |
llllll | 20 元 | 2024-01-07 |
邝*元 | 20 元 | 2023-12-29 |
50chen | 50 元 | 2023-12-22 |
xiongot | 20 元 | 2023-12-17 |
atom.hu | 20 元 | 2023-12-16 |
一呆 | 20 元 | 2023-12-01 |
坠落 | 50 元 | 2023-11-08 |
star 趋势图
- 如果该项目对你有帮助,star一下 ❤️❤️❤️
参考
- xhs客户端 ReaJason的xhs仓库
- 短信转发 参考仓库
- 内网穿透工具 ngrok