MediaCrawler/config/base_config.py

# 基础配置
PLATFORM = "xhs"
KEYWORDS = "python,golang"
LOGIN_TYPE = "qrcode"  # qrcode or phone or cookie
COOKIES = ""
CRAWLER_TYPE = "search"

# 是否开启 IP 代理
ENABLE_IP_PROXY = False

# 重试时间
RETRY_INTERVAL = 60 * 30  # 30 minutes

# playwright headless
HEADLESS = True

# 是否保存登录状态
SAVE_LOGIN_STATE = True

# 用户浏览器缓存的浏览器文件配置
USER_DATA_DIR = "%s_user_data_dir"  # %s will be replaced by platform name

# 爬取视频/帖子的数量控制
CRAWLER_MAX_NOTES_COUNT = 20

# 并发爬虫数量控制
MAX_CONCURRENCY_NUM = 10

# 抖音每个视频抓取评论最大条数 (为0则不限制)
DY_MAX_COMMENTS_PER_POST = 10

# 抖音评论关键词筛选(只会留下包含关键词的评论,为空不限制)
DY_COMMENT_KEYWORDS = [
    "我"
    # ........................
]

# 指定小红书需要爬虫的笔记ID列表
XHS_SPECIFIED_ID_LIST = [
"6422c2750000000027000d88",
"64ca1b73000000000b028dd2",
"630d5b85000000001203ab41",
# ........................
]


# 指定抖音需要爬取的ID列表
DY_SPECIFIED_ID_LIST = [
"7280854932641664319",
"7202432992642387233"
# ........................
]
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 基础配置`
refactor:优化部分代码 feat: 增加IP代理账号池 2023-06-27 15:38:30 +00:00			`PLATFORM = "xhs"`
feat: 支持数据保存到CSV中 2023-08-16 11:49:41 +00:00			`KEYWORDS = "python,golang"`
fix: 修复部分变量命名语义不明确 2023-07-30 13:30:26 +00:00			`LOGIN_TYPE = "qrcode" # qrcode or phone or cookie`
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`COOKIES = ""`
feat: 小红书增加指定帖子爬取功能 fix: 修复程序一些异常 bug refactor: 优化部分代码逻辑 2023-11-18 05:38:11 +00:00			`CRAWLER_TYPE = "search"`
refactor:优化部分代码 feat: 增加IP代理账号池 2023-06-27 15:38:30 +00:00
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 是否开启 IP 代理`
refactor:优化部分代码 feat: 增加IP代理账号池 2023-06-27 15:38:30 +00:00			`ENABLE_IP_PROXY = False`

feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 重试时间`
refactor:优化部分代码 feat: 增加IP代理账号池 2023-06-27 15:38:30 +00:00			`RETRY_INTERVAL = 60 * 30 # 30 minutes`

			`# playwright headless`
			`HEADLESS = True`
feat: issue #14 refactor: 优化小红书crawler流程代码 2023-07-15 09:11:53 +00:00
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 是否保存登录状态`
feat: 增加配置项支持自由选择数据是否保存到关系型数据库中 2023-07-24 12:59:43 +00:00			`SAVE_LOGIN_STATE = True`
feat: issue #14 refactor: 优化小红书crawler流程代码 2023-07-15 09:11:53 +00:00
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 用户浏览器缓存的浏览器文件配置`
feat: issue #14 refactor: 优化小红书crawler流程代码 2023-07-15 09:11:53 +00:00			`USER_DATA_DIR = "%s_user_data_dir" # %s will be replaced by platform name`

feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 爬取视频/帖子的数量控制`
refactor: 优化代码 2023-07-29 07:35:40 +00:00			`CRAWLER_MAX_NOTES_COUNT = 20`
feat: xhs增加并发控制参数 2023-07-15 14:25:56 +00:00
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 并发爬虫数量控制`
feat: xhs增加并发控制参数 2023-07-15 14:25:56 +00:00			`MAX_CONCURRENCY_NUM = 10`
feat: 小红书增加指定帖子爬取功能 fix: 修复程序一些异常 bug refactor: 优化部分代码逻辑 2023-11-18 05:38:11 +00:00
添加功能:抖音每个视频抓取评论最大条数限制,抖音评论关键词筛选 2023-12-05 03:21:47 +00:00			`# 抖音每个视频抓取评论最大条数 (为0则不限制)`
			`DY_MAX_COMMENTS_PER_POST = 10`

			`# 抖音评论关键词筛选(只会留下包含关键词的评论,为空不限制)`
			`DY_COMMENT_KEYWORDS = [`
			`"我"`
			`# ........................`
			`]`
feat: 小红书增加指定帖子爬取功能 fix: 修复程序一些异常 bug refactor: 优化部分代码逻辑 2023-11-18 05:38:11 +00:00
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 指定小红书需要爬虫的笔记ID列表`
refactor: 优化代码-变量名 2023-11-18 07:53:10 +00:00			`XHS_SPECIFIED_ID_LIST = [`
feat: 小红书增加指定帖子爬取功能 fix: 修复程序一些异常 bug refactor: 优化部分代码逻辑 2023-11-18 05:38:11 +00:00			`"6422c2750000000027000d88",`
			`"64ca1b73000000000b028dd2",`
			`"630d5b85000000001203ab41",`
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# ........................`
feat: 小红书增加指定帖子爬取功能 fix: 修复程序一些异常 bug refactor: 优化部分代码逻辑 2023-11-18 05:38:11 +00:00			`]`
feat: 抖音支持指定视频列表爬去 2023-11-18 14:07:30 +00:00

feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# 指定抖音需要爬取的ID列表`
feat: 抖音支持指定视频列表爬去 2023-11-18 14:07:30 +00:00			`DY_SPECIFIED_ID_LIST = [`
			`"7280854932641664319",`
			`"7202432992642387233"`
feat: 快手视频评论爬取done；数据保存到DB、CSV done 2023-11-26 13:43:39 +00:00			`# ........................`
feat: 抖音支持指定视频列表爬去 2023-11-18 14:07:30 +00:00			`]`