MediaCrawler/常见问题.md at 21e0d8f393119225adbe61cd26d2434ab2dc51e5

1.9 KiB

Raw Blame History

常见程序运行出错问题

Q: 爬取知乎报错: execjs._exceptions.ProgramError: SyntaxError: 缺少 ';'
A: 该错误为缺少 nodejs 环境，这个错误可以通过安装 nodejs 环境来解决，版本大于等：v16

Q: 使用Cookie爬取抖音报错: execjs._exceptions.ProgramError: TypeError: Cannot read property 'JS_MD5_NO_COMMON_JS' of null A: windows电脑去网站下载https://nodejs.org/en/blog/release/v16.8.0 Windows 64-bit Installer 版本，一直下一步即可。

Q: 可以指定关键词爬取吗？
A: 在config/base_config.py 中 KEYWORDS 参数用于控制需要爬取的关键词

Q: 可以指定帖子爬取吗？
A：在config/base_config.py 中 XHS_SPECIFIED_ID_LIST 参数用于控制需要指定爬取的帖子ID列表

Q: 刚开始能爬取数据，过一段时间就是失效了？
A：出现这种情况多半是由于你的账号触发了平台风控机制了，❗️❗️请勿大规模对平台进行爬虫，影响平台。

Q: 如何更换登录账号？
A：删除项目根目录下的 brower_data/ 文件夹即可

Q: 报错 playwright._impl._api_types.TimeoutError: Timeout 30000ms exceeded.
A: 出现这种情况检查下开梯子没有

Q: 小红书扫码登录成功后如何手动验证? A: 打开 config/base_config.py 文件, 找到 HEADLESS 配置项, 将其设置为 False, 此时重启项目, 在浏览器中手动通过验证码

Q: 如何配置词云图的生成? A: 打开 config/base_config.py 文件, 找到ENABLE_GET_WORDCLOUD 以及ENABLE_GET_COMMENTS 两个配置项，将其都设为True即可使用该功能。

Q: 如何给词云图添加禁用词和自定义词组？ A: 打开 docs/hit_stopwords.txt 输入禁用词(注意一个词语一行)。打开 config/base_config.py 文件找到 CUSTOM_WORDS 按格式添加自定义词组即可。

1.9 KiB Raw Blame History Unescape Escape

常见程序运行出错问题

1.9 KiB

Raw Blame History