MediaCrawler/main.py

import asyncio
import sys

import cmd_arg
import config
import db
from base.base_crawler import AbstractCrawler
from media_platform.bilibili import BilibiliCrawler
from media_platform.douyin import DouYinCrawler
from media_platform.kuaishou import KuaishouCrawler
from media_platform.weibo import WeiboCrawler
from media_platform.xhs import XiaoHongShuCrawler


class CrawlerFactory:
    CRAWLERS = {
        "xhs": XiaoHongShuCrawler,
        "dy": DouYinCrawler,
        "ks": KuaishouCrawler,
        "bili": BilibiliCrawler,
        "wb": WeiboCrawler
    }

    @staticmethod
    def create_crawler(platform: str) -> AbstractCrawler:
        crawler_class = CrawlerFactory.CRAWLERS.get(platform)
        if not crawler_class:
            raise ValueError("Invalid Media Platform Currently only supported xhs or dy or ks or bili ...")
        return crawler_class()

async def main():
    # parse cmd
    await cmd_arg.parse_cmd()

    # init db
    if config.SAVE_DATA_OPTION == "db":
        await db.init_db()

    crawler = CrawlerFactory.create_crawler(platform=config.PLATFORM)
    await crawler.start()
    
    if config.SAVE_DATA_OPTION == "db":
        await db.close()


if __name__ == '__main__':
    try:
        # asyncio.run(main())
        asyncio.get_event_loop().run_until_complete(main())
    except KeyboardInterrupt:
        sys.exit()
refactor: 优化代码 2023-07-29 07:35:40 +00:00			`import asyncio`
			`import sys`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00
improve base config reading command line arg logic 2024-06-09 01:35:52 +00:00			`import cmd_arg`
feat: 小红书增加手机号自动登录模式 2023-06-16 11:35:43 +00:00			`import config`
refactor: 优化代码 2023-07-29 07:35:40 +00:00			`import db`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`from base.base_crawler import AbstractCrawler`
			`from media_platform.bilibili import BilibiliCrawler`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`from media_platform.douyin import DouYinCrawler`
feat: 1、命令行支持快手 2、快手playwright 代码 done 2023-11-23 16:04:33 +00:00			`from media_platform.kuaishou import KuaishouCrawler`
feat: 微博爬虫帖子搜索完成 2023-12-24 09:57:48 +00:00			`from media_platform.weibo import WeiboCrawler`
feat: 微博支持评论 & 指定帖子 2023-12-24 16:02:11 +00:00			`from media_platform.xhs import XiaoHongShuCrawler`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00

			`class CrawlerFactory:`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`CRAWLERS = {`
			`"xhs": XiaoHongShuCrawler,`
			`"dy": DouYinCrawler,`
			`"ks": KuaishouCrawler,`
feat: 微博爬虫帖子搜索完成 2023-12-24 09:57:48 +00:00			`"bili": BilibiliCrawler,`
			`"wb": WeiboCrawler`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`}`

feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`@staticmethod`
feat: B站爬虫签名实现 2023-12-02 16:30:10 +00:00			`def create_crawler(platform: str) -> AbstractCrawler:`
			`crawler_class = CrawlerFactory.CRAWLERS.get(platform)`
			`if not crawler_class:`
			`raise ValueError("Invalid Media Platform Currently only supported xhs or dy or ks or bili ...")`
			`return crawler_class()`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00
			`async def main():`
improve base config reading command line arg logic 2024-06-09 01:35:52 +00:00			`# parse cmd`
			`await cmd_arg.parse_cmd()`

feat: 增加配置项支持自由选择数据是否保存到关系型数据库中 2023-07-24 12:59:43 +00:00			`# init db`
refactor: 数据存储重构，分离不同类型的存储实现 2024-01-14 14:06:31 +00:00			`if config.SAVE_DATA_OPTION == "db":`
feat: 增加配置项支持自由选择数据是否保存到关系型数据库中 2023-07-24 12:59:43 +00:00			`await db.init_db()`

improve base config reading command line arg logic 2024-06-09 01:35:52 +00:00			`crawler = CrawlerFactory.create_crawler(platform=config.PLATFORM)`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`await crawler.start()`
fix: 增加db.close()，解决抓取命令执行完不退出的问题 2024-02-21 16:11:41 +00:00
			`if config.SAVE_DATA_OPTION == "db":`
			`await db.close()`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00

			`if __name__ == '__main__':`
			`try:`
refactor: 优化代码 2023-07-29 07:35:40 +00:00			`# asyncio.run(main())`
			`asyncio.get_event_loop().run_until_complete(main())`
feat: 小红书笔记搜索，评论获取done docs: update docs Create .gitattributes Update README.md 2023-06-09 12:41:53 +00:00			`except KeyboardInterrupt:`
			`sys.exit()`