MediaCrawler/main.py

# 声明：本代码仅供学习和研究目的使用。使用者应遵守以下原则：  
# 1. 不得用于任何商业用途。  
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。  
# 3. 不得进行大规模爬取或对平台造成运营干扰。  
# 4. 应合理控制请求频率，避免给目标平台带来不必要的负担。   
# 5. 不得用于任何非法或不当的用途。
#   
# 详细许可条款请参阅项目根目录下的LICENSE文件。  
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。  


import asyncio
import sys

import cmd_arg
import config
import db
from base.base_crawler import AbstractCrawler
from media_platform.bilibili import BilibiliCrawler
from media_platform.douyin import DouYinCrawler
from media_platform.kuaishou import KuaishouCrawler
from media_platform.tieba import TieBaCrawler
from media_platform.weibo import WeiboCrawler
from media_platform.xhs import XiaoHongShuCrawler
from media_platform.zhihu import ZhihuCrawler


class CrawlerFactory:
    CRAWLERS = {
        "xhs": XiaoHongShuCrawler,
        "dy": DouYinCrawler,
        "ks": KuaishouCrawler,
        "bili": BilibiliCrawler,
        "wb": WeiboCrawler,
        "tieba": TieBaCrawler,
        "zhihu": ZhihuCrawler
    }

    @staticmethod
    def create_crawler(platform: str) -> AbstractCrawler:
        crawler_class = CrawlerFactory.CRAWLERS.get(platform)
        if not crawler_class:
            raise ValueError("Invalid Media Platform Currently only supported xhs or dy or ks or bili ...")
        return crawler_class()


async def main():
    # parse cmd
    await cmd_arg.parse_cmd()

    # init db
    if config.SAVE_DATA_OPTION == "db":
        await db.init_db()

    crawler = CrawlerFactory.create_crawler(platform=config.PLATFORM)
    await crawler.start()

    if config.SAVE_DATA_OPTION == "db":
        await db.close()

    
if __name__ == '__main__':
    try:
        # asyncio.run(main())
        asyncio.get_event_loop().run_until_complete(main())
    except KeyboardInterrupt:
        sys.exit()
chore: 增加代码学习声明，严格禁止非法、禁止商业、不当用途 2024-10-19 16:43:25 +00:00			`# 声明：本代码仅供学习和研究目的使用。使用者应遵守以下原则：`
			`# 1. 不得用于任何商业用途。`
			`# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。`
			`# 3. 不得进行大规模爬取或对平台造成运营干扰。`
			`# 4. 应合理控制请求频率，避免给目标平台带来不必要的负担。`
			`# 5. 不得用于任何非法或不当的用途。`
			`#`
			`# 详细许可条款请参阅项目根目录下的LICENSE文件。`
			`# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。`


refactor: 优化代码 2023-07-29 07:35:40 +00:00			`import asyncio`
			`import sys`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00
improve base config reading command line arg logic 2024-06-09 01:35:52 +00:00			`import cmd_arg`
feat: 小红书增加手机号自动登录模式 2023-06-16 11:35:43 +00:00			`import config`
refactor: 优化代码 2023-07-29 07:35:40 +00:00			`import db`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`from base.base_crawler import AbstractCrawler`
			`from media_platform.bilibili import BilibiliCrawler`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`from media_platform.douyin import DouYinCrawler`
feat: 1、命令行支持快手 2、快手playwright 代码 done 2023-11-23 16:04:33 +00:00			`from media_platform.kuaishou import KuaishouCrawler`
feat: 百度贴吧架子 & 登录done 2024-08-05 10:51:51 +00:00			`from media_platform.tieba import TieBaCrawler`
feat: 微博爬虫帖子搜索完成 2023-12-24 09:57:48 +00:00			`from media_platform.weibo import WeiboCrawler`
feat: 微博支持评论 & 指定帖子 2023-12-24 16:02:11 +00:00			`from media_platform.xhs import XiaoHongShuCrawler`
feat: 知乎支持（关键词、评论） 2024-09-07 16:00:04 +00:00			`from media_platform.zhihu import ZhihuCrawler`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00

			`class CrawlerFactory:`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`CRAWLERS = {`
			`"xhs": XiaoHongShuCrawler,`
			`"dy": DouYinCrawler,`
			`"ks": KuaishouCrawler,`
feat: 微博爬虫帖子搜索完成 2023-12-24 09:57:48 +00:00			`"bili": BilibiliCrawler,`
feat: 百度贴吧架子 & 登录done 2024-08-05 10:51:51 +00:00			`"wb": WeiboCrawler,`
feat: 知乎支持（关键词、评论） 2024-09-07 16:00:04 +00:00			`"tieba": TieBaCrawler,`
			`"zhihu": ZhihuCrawler`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`}`

feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`@staticmethod`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`def create_crawler(platform: str) -> AbstractCrawler:`
			`crawler_class = CrawlerFactory.CRAWLERS.get(platform)`
			`if not crawler_class:`
			`raise ValueError("Invalid Media Platform Currently only supported xhs or dy or ks or bili ...")`
			`return crawler_class()`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00
feat: 百度贴吧架子 & 登录done 2024-08-05 10:51:51 +00:00
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`async def main():`
improve base config reading command line arg logic 2024-06-09 01:35:52 +00:00			`# parse cmd`
			`await cmd_arg.parse_cmd()`

feat: 增加配置项支持自由选择数据是否保存到关系型数据库中 2023-07-24 12:59:43 +00:00			`# init db`
refactor: 数据存储重构，分离不同类型的存储实现 2024-01-14 14:06:31 +00:00			`if config.SAVE_DATA_OPTION == "db":`
feat: 增加配置项支持自由选择数据是否保存到关系型数据库中 2023-07-24 12:59:43 +00:00			`await db.init_db()`

improve base config reading command line arg logic 2024-06-09 01:35:52 +00:00			`crawler = CrawlerFactory.create_crawler(platform=config.PLATFORM)`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`await crawler.start()`
feat: 百度贴吧架子 & 登录done 2024-08-05 10:51:51 +00:00
fix: 增加db.close()，解决抓取命令执行完不退出的问题 2024-02-21 16:11:41 +00:00			`if config.SAVE_DATA_OPTION == "db":`
			`await db.close()`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00
fix: xhs note detail error 2024-09-02 13:45:12 +00:00
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00
			`if __name__ == '__main__':`
			`try:`
refactor: 优化代码 2023-07-29 07:35:40 +00:00			`# asyncio.run(main())`
			`asyncio.get_event_loop().run_until_complete(main())`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`except KeyboardInterrupt:`
			`sys.exit()`