From 3c98808409324cc5114dc3bad9da33d7a60c06de Mon Sep 17 00:00:00 2001 From: Relakkes Date: Wed, 7 Aug 2024 01:01:21 +0800 Subject: [PATCH] =?UTF-8?q?feat:=20=E8=B4=B4=E5=90=A7=E6=90=9C=E7=B4=A2?= =?UTF-8?q?=E9=87=8D=E6=9E=84?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- constant/__init__.py | 1 + constant/baidu_tieba.py | 3 + db.py | 2 +- media_platform/tieba/client.py | 10 +- media_platform/tieba/core.py | 131 +- media_platform/tieba/help.py | 118 +- .../tieba/test_data/note_detail.html | 839 ++ .../test_data/note_detail_and_comments.html | 7558 ----------------- model/__init__.py | 1 + model/m_baidu_tieba.py | 19 + model/m_douyin.py | 1 + model/m_kuaishou.py | 1 + model/m_weibo.py | 1 + model/m_xiaohongshu.py | 1 + requirements.txt | 2 +- schema/tables.sql | 43 +- store/tieba/__init__.py | 33 +- 17 files changed, 1057 insertions(+), 7707 deletions(-) create mode 100644 constant/__init__.py create mode 100644 constant/baidu_tieba.py create mode 100644 media_platform/tieba/test_data/note_detail.html delete mode 100644 media_platform/tieba/test_data/note_detail_and_comments.html create mode 100644 model/__init__.py create mode 100644 model/m_baidu_tieba.py create mode 100644 model/m_douyin.py create mode 100644 model/m_kuaishou.py create mode 100644 model/m_weibo.py create mode 100644 model/m_xiaohongshu.py diff --git a/constant/__init__.py b/constant/__init__.py new file mode 100644 index 0000000..40a96af --- /dev/null +++ b/constant/__init__.py @@ -0,0 +1 @@ +# -*- coding: utf-8 -*- diff --git a/constant/baidu_tieba.py b/constant/baidu_tieba.py new file mode 100644 index 0000000..cfd15e1 --- /dev/null +++ b/constant/baidu_tieba.py @@ -0,0 +1,3 @@ +# -*- coding: utf-8 -*- + +TIEBA_URL = 'https://tieba.baidu.com' \ No newline at end of file diff --git a/db.py b/db.py index 335d8ae..13777a6 100644 --- a/db.py +++ b/db.py @@ -85,7 +85,7 @@ async def init_table_schema(): utils.logger.info("[init_table_schema] begin init mysql table schema ...") await init_mediacrawler_db() async_db_obj: AsyncMysqlDB = media_crawler_db_var.get() - async with aiofiles.open("schema/tables.sql", mode="r") as f: + async with aiofiles.open("schema/tables.sql", mode="r", encoding="utf-8") as f: schema_sql = await f.read() await async_db_obj.execute(schema_sql) utils.logger.info("[init_table_schema] mediacrawler table schema init successful") diff --git a/media_platform/tieba/client.py b/media_platform/tieba/client.py index f9e0375..edbbf19 100644 --- a/media_platform/tieba/client.py +++ b/media_platform/tieba/client.py @@ -10,6 +10,7 @@ from tenacity import (RetryError, retry, stop_after_attempt, wait_fixed) from base.base_crawler import AbstractApiClient +from model.m_baidu_tieba import TiebaNote from proxy.proxy_ip_pool import ProxyIpPool from tools import utils @@ -98,6 +99,7 @@ class BaiduTieBaClient(AbstractApiClient): return res utils.logger.error(f"[BaiduTieBaClient.get] 达到了最大重试次数,请尝试更换新的IP代理: {e}") + raise e async def post(self, uri: str, data: dict, **kwargs) -> Dict: """ @@ -152,7 +154,7 @@ class BaiduTieBaClient(AbstractApiClient): sort: SearchSortType = SearchSortType.TIME_DESC, note_type: SearchNoteType = SearchNoteType.FIXED_THREAD, random_sleep: bool = True - ) -> List[Dict]: + ) -> List[TiebaNote]: """ 根据关键词搜索贴吧帖子 Args: @@ -180,7 +182,7 @@ class BaiduTieBaClient(AbstractApiClient): random.randint(1, 5) return self._page_extractor.extract_search_note_list(page_content) - async def get_note_by_id(self, note_id: str) -> Dict: + async def get_note_by_id(self, note_id: str) -> TiebaNote: """ 根据帖子ID获取帖子详情 Args: @@ -192,8 +194,6 @@ class BaiduTieBaClient(AbstractApiClient): uri = f"/p/{note_id}" page_content = await self.get(uri, return_ori_content=True) return self._page_extractor.extract_note_detail(page_content) - # todo impl it - return {} async def get_note_all_comments(self, note_id: str, crawl_interval: float = 1.0, callback: Optional[Callable] = None) -> List[Dict]: @@ -229,7 +229,7 @@ class BaiduTieBaClient(AbstractApiClient): return result async def get_comments_all_sub_comments(self, comments: List[Dict], crawl_interval: float = 1.0, - callback: Optional[Callable] = None) -> List[Dict]: + callback: Optional[Callable] = None) -> List[Dict]: """ 获取指定评论下的所有子评论 Args: diff --git a/media_platform/tieba/core.py b/media_platform/tieba/core.py index 91795a4..a03f0ad 100644 --- a/media_platform/tieba/core.py +++ b/media_platform/tieba/core.py @@ -9,7 +9,8 @@ from playwright.async_api import (BrowserContext, BrowserType, Page, import config from base.base_crawler import AbstractCrawler -from proxy.proxy_ip_pool import IpInfoModel, create_ip_pool, ProxyIpPool +from model.m_baidu_tieba import TiebaNote +from proxy.proxy_ip_pool import IpInfoModel, create_ip_pool from store import tieba as tieba_store from tools import utils from tools.crawler_util import format_proxy_info @@ -66,8 +67,7 @@ class TieBaCrawler(AbstractCrawler): Returns: """ - - utils.logger.info("[BaiduTieBaCrawler.search] Begin search baidutieba keywords") + utils.logger.info("[BaiduTieBaCrawler.search] Begin search baidu tieba keywords") tieba_limit_count = 10 # tieba limit page fixed value if config.CRAWLER_MAX_NOTES_COUNT < tieba_limit_count: config.CRAWLER_MAX_NOTES_COUNT = tieba_limit_count @@ -82,52 +82,36 @@ class TieBaCrawler(AbstractCrawler): continue try: utils.logger.info(f"[BaiduTieBaCrawler.search] search tieba keyword: {keyword}, page: {page}") - note_id_list: List[str] = [] - notes_list_res = await self.tieba_client.get_notes_by_keyword( + notes_list: List[TiebaNote] = await self.tieba_client.get_notes_by_keyword( keyword=keyword, page=page, page_size=tieba_limit_count, sort=SearchSortType.TIME_DESC, note_type=SearchNoteType.FIXED_THREAD ) - utils.logger.info(f"[BaiduTieBaCrawler.search] Search notes res:{notes_list_res}") - if not notes_list_res: + if not notes_list: + utils.logger.info(f"[BaiduTieBaCrawler.search] Search note list is empty") break - - for note_detail in notes_list_res: - if note_detail: - await tieba_store.update_tieba_note(note_detail) - note_id_list.append(note_detail.get("note_id")) + utils.logger.info(f"[BaiduTieBaCrawler.search] Note List: {notes_list}") + await self.get_specified_notes(note_id_list=[note_detail.note_id for note_detail in notes_list]) page += 1 - utils.logger.info(f"[BaiduTieBaCrawler.search] Note details: {notes_list_res}") - await self.batch_get_note_comments(note_id_list) except Exception as ex: - utils.logger.error(f"[BaiduTieBaCrawler.search] Search note list error, err: {ex}") + utils.logger.error( + f"[BaiduTieBaCrawler.search] Search keywords error, current page: {page}, current keyword: {keyword}, err: {ex}") break - async def fetch_creator_notes_detail(self, note_list: List[Dict]): + async def get_specified_notes(self, note_id_list: List[str] = config.TIEBA_SPECIFIED_ID_LIST): """ - Concurrently obtain the specified post list and save the data + Get the information and comments of the specified post + Args: + note_id_list: + + Returns: + """ semaphore = asyncio.Semaphore(config.MAX_CONCURRENCY_NUM) task_list = [ - self.get_note_detail( - note_id=post_item.get("note_id"), - semaphore=semaphore - ) - for post_item in note_list - ] - - note_details = await asyncio.gather(*task_list) - for note_detail in note_details: - if note_detail: - await tieba_store.update_tieba_note(note_detail) - - async def get_specified_notes(self): - """Get the information and comments of the specified post""" - semaphore = asyncio.Semaphore(config.MAX_CONCURRENCY_NUM) - task_list = [ - self.get_note_detail(note_id=note_id, semaphore=semaphore) for note_id in config.TIEBA_SPECIFIED_ID_LIST + self.get_note_detail_async_task(note_id=note_id, semaphore=semaphore) for note_id in note_id_list ] note_details = await asyncio.gather(*task_list) for note_detail in note_details: @@ -135,11 +119,20 @@ class TieBaCrawler(AbstractCrawler): await tieba_store.update_tieba_note(note_detail) await self.batch_get_note_comments(config.TIEBA_SPECIFIED_ID_LIST) - async def get_note_detail(self, note_id: str, semaphore: asyncio.Semaphore) -> Optional[Dict]: - """Get note detail""" + async def get_note_detail_async_task(self, note_id: str, semaphore: asyncio.Semaphore) -> Optional[TiebaNote]: + """ + Get note detail + Args: + note_id: baidu tieba note id + semaphore: asyncio semaphore + + Returns: + + """ async with semaphore: try: - note_detail: Dict = await self.tieba_client.get_note_by_id(note_id) + utils.logger.info(f"[BaiduTieBaCrawler.get_note_detail] Begin get note detail, note_id: {note_id}") + note_detail: TiebaNote = await self.tieba_client.get_note_by_id(note_id) if not note_detail: utils.logger.error( f"[BaiduTieBaCrawler.get_note_detail] Get note detail error, note_id: {note_id}") @@ -153,23 +146,38 @@ class TieBaCrawler(AbstractCrawler): f"[BaiduTieBaCrawler.get_note_detail] have not fund note detail note_id:{note_id}, err: {ex}") return None - async def batch_get_note_comments(self, note_list: List[str]): - """Batch get note comments""" + async def batch_get_note_comments(self, note_id_list: List[str]): + """ + Batch get note comments + Args: + note_id_list: + + Returns: + + """ if not config.ENABLE_GET_COMMENTS: utils.logger.info(f"[BaiduTieBaCrawler.batch_get_note_comments] Crawling comment mode is not enabled") return utils.logger.info( - f"[BaiduTieBaCrawler.batch_get_note_comments] Begin batch get note comments, note list: {note_list}") + f"[BaiduTieBaCrawler.batch_get_note_comments] Begin batch get note comments, note list: {note_id_list}") semaphore = asyncio.Semaphore(config.MAX_CONCURRENCY_NUM) task_list: List[Task] = [] - for note_id in note_list: - task = asyncio.create_task(self.get_comments(note_id, semaphore), name=note_id) + for note_id in note_id_list: + task = asyncio.create_task(self.get_comments_async_task(note_id, semaphore), name=note_id) task_list.append(task) await asyncio.gather(*task_list) - async def get_comments(self, note_id: str, semaphore: asyncio.Semaphore): - """Get note comments with keyword filtering and quantity limitation""" + async def get_comments_async_task(self, note_id: str, semaphore: asyncio.Semaphore): + """ + Get comments async task + Args: + note_id: + semaphore: + + Returns: + + """ async with semaphore: utils.logger.info(f"[BaiduTieBaCrawler.get_comments] Begin get note id comments {note_id}") await self.tieba_client.get_note_all_comments( @@ -178,23 +186,6 @@ class TieBaCrawler(AbstractCrawler): callback=tieba_store.batch_update_tieba_note_comments ) - async def create_tieba_client(self, ip_pool: ProxyIpPool) -> BaiduTieBaClient: - """ - Create tieba client - Args: - ip_pool: - - Returns: - - """ - """Create tieba client""" - utils.logger.info("[BaiduTieBaCrawler.create_tieba_client] Begin create baidutieba API client ...") - cookie_str, cookie_dict = utils.convert_cookies(await self.browser_context.cookies()) - tieba_client_obj = BaiduTieBaClient( - ip_pool=ip_pool, - ) - return tieba_client_obj - async def launch_browser( self, chromium: BrowserType, @@ -202,7 +193,17 @@ class TieBaCrawler(AbstractCrawler): user_agent: Optional[str], headless: bool = True ) -> BrowserContext: - """Launch browser and create browser context""" + """ + Launch browser and create browser + Args: + chromium: + playwright_proxy: + user_agent: + headless: + + Returns: + + """ utils.logger.info("[BaiduTieBaCrawler.launch_browser] Begin create browser context ...") if config.SAVE_LOGIN_STATE: # feat issue #14 @@ -227,6 +228,10 @@ class TieBaCrawler(AbstractCrawler): return browser_context async def close(self): - """Close browser context""" + """ + Close browser context + Returns: + + """ await self.browser_context.close() utils.logger.info("[BaiduTieBaCrawler.close] Browser context closed ...") diff --git a/media_platform/tieba/help.py b/media_platform/tieba/help.py index 2c1144d..efba258 100644 --- a/media_platform/tieba/help.py +++ b/media_platform/tieba/help.py @@ -1,18 +1,21 @@ # -*- coding: utf-8 -*- - -from typing import List, Dict +import re +from typing import List, Dict, Tuple from parsel import Selector +from model.m_baidu_tieba import TiebaNote +from constant import baidu_tieba as const + class TieBaExtractor: def __init__(self): pass @staticmethod - def extract_search_note_list(page_content: str) -> List[Dict]: + def extract_search_note_list(page_content: str) -> List[TiebaNote]: """ - 提取贴吧帖子列表 + 提取贴吧帖子列表,这里提取的关键词搜索结果页的数据,还缺少帖子的回复数和回复页等数据 Args: page_content: 页面内容的HTML字符串 @@ -21,33 +24,24 @@ class TieBaExtractor: """ xpath_selector = "//div[@class='s_post']" post_list = Selector(text=page_content).xpath(xpath_selector) - result = [] + result: List[TiebaNote] = [] for post in post_list: - post_id = post.xpath(".//span[@class='p_title']/a/@data-tid").get(default='').strip() - title = post.xpath(".//span[@class='p_title']/a/text()").get(default='').strip() - link = post.xpath(".//span[@class='p_title']/a/@href").get(default='') - description = post.xpath(".//div[@class='p_content']/text()").get(default='').strip() - forum = post.xpath(".//a[@class='p_forum']/font/text()").get(default='').strip() - forum_link = post.xpath(".//a[@class='p_forum']/@href").get(default='') - author = post.xpath(".//a[starts-with(@href, '/home/main')]/font/text()").get(default='').strip() - author_link = post.xpath(".//a[starts-with(@href, '/home/main')]/@href").get(default='') - date = post.xpath(".//font[@class='p_green p_date']/text()").get(default='').strip() - result.append({ - "note_id": post_id, - "title": title, - "desc": description, - "note_url": link, - "time": date, - "tieba_name": forum, - "tieba_link": forum_link, - "nickname": author, - "nickname_link": author_link, - }) - + tieba_note = TiebaNote( + note_id=post.xpath(".//span[@class='p_title']/a/@data-tid").get(default='').strip(), + title=post.xpath(".//span[@class='p_title']/a/text()").get(default='').strip(), + desc=post.xpath(".//div[@class='p_content']/text()").get(default='').strip(), + note_url=const.TIEBA_URL + post.xpath(".//span[@class='p_title']/a/@href").get(default=''), + user_nickname=post.xpath(".//a[starts-with(@href, '/home/main')]/font/text()").get(default='').strip(), + user_link=const.TIEBA_URL + post.xpath(".//a[starts-with(@href, '/home/main')]/@href").get(default=''), + tieba_name=post.xpath(".//a[@class='p_forum']/font/text()").get(default='').strip(), + tieba_link=const.TIEBA_URL + post.xpath(".//a[@class='p_forum']/@href").get(default=''), + publish_time=post.xpath(".//font[@class='p_green p_date']/text()").get(default='').strip(), + ) + result.append(tieba_note) return result - @staticmethod - def extract_note_detail(page_content: str) -> Dict: + + def extract_note_detail(self, page_content: str) -> TiebaNote: """ 提取贴吧帖子详情 Args: @@ -57,13 +51,33 @@ class TieBaExtractor: """ content_selector = Selector(text=page_content) - # 查看楼主的链接: only_view_author_link: / p / 9117905169?see_lz = 1 - only_view_author_link = content_selector.xpath("//*[@id='lzonly_cntn']/@href").get(default='').strip() # + first_floor_selector = content_selector.xpath("//div[@class='p_postlist'][1]") + only_view_author_link = content_selector.xpath("//*[@id='lzonly_cntn']/@href").get(default='').strip() note_id = only_view_author_link.split("?")[0].split("/")[-1] - title = content_selector.xpath("//*[@id='j_core_title_wrap']/h3").get(default='').strip() - desc = content_selector.xpath("//meta[@name='description']").get(default='').strip() - note_url = f"/p/{note_id}" - pass + # 帖子回复数、回复页数 + thread_num_infos = content_selector.xpath( + "//div[@id='thread_theme_5']//li[@class='l_reply_num']//span[@class='red']" + ) + # IP地理位置、发表时间 + other_info_content = content_selector.xpath(".//div[@class='post-tail-wrap']").get(default="").strip() + ip_location, publish_time = self.extract_ip_and_pub_time(other_info_content) + note = TiebaNote( + note_id=note_id, + title=content_selector.xpath("//title/text()").get(default='').strip(), + desc=content_selector.xpath("//meta[@name='description']/@content").get(default='').strip(), + note_url=const.TIEBA_URL + f"/p/{note_id}", + user_link=const.TIEBA_URL + first_floor_selector.xpath(".//a[@class='p_author_face ']/@href").get(default='').strip(), + user_nickname=first_floor_selector.xpath(".//a[@class='p_author_name j_user_card']/text()").get(default='').strip(), + user_avatar=first_floor_selector.xpath(".//a[@class='p_author_face ']/img/@src").get(default='').strip(), + tieba_name=content_selector.xpath("//a[@class='card_title_fname']/text()").get(default='').strip(), + tieba_link=const.TIEBA_URL + content_selector.xpath("//a[@class='card_title_fname']/@href").get(default=''), + ip_location=ip_location, + publish_time=publish_time, + total_replay_num=thread_num_infos[0].xpath("./text()").get(default='').strip(), + total_replay_page=thread_num_infos[1].xpath("./text()").get(default='').strip(), + ) + note.title = note.title.replace(f"【{note.tieba_name}】_百度贴吧", "") + return note @staticmethod def extract_tieba_note_comments(page_content: str) -> List[Dict]: @@ -93,12 +107,40 @@ class TieBaExtractor: "time": date, }) + @staticmethod + def extract_ip_and_pub_time(html_content: str) -> Tuple[str, str]: + """ + 提取IP位置和发布时间 + Args: + html_content: + Returns: -if __name__ == '__main__': + """ + pattern_ip = re.compile(r'IP属地:(\S+)') + pattern_pub_time = re.compile(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2})') + ip_match = pattern_ip.search(html_content) + time_match = pattern_pub_time.search(html_content) + ip = ip_match.group(1) if ip_match else "" + pub_time = time_match.group(1) if time_match else "" + return ip, pub_time + +def test_extract_search_note_list(): with open("test_data/search_keyword_notes.html", "r", encoding="utf-8") as f: content = f.read() extractor = TieBaExtractor() - _result = extractor.extract_search_note_list(content) - print(_result) - print(f"Total: {len(_result)}") + result = extractor.extract_search_note_list(content) + print(result) + + +def test_extract_note_detail(): + with open("test_data/note_detail.html", "r", encoding="utf-8") as f: + content = f.read() + extractor = TieBaExtractor() + result = extractor.extract_note_detail(content) + print(result.model_dump()) + + +if __name__ == '__main__': + test_extract_search_note_list() + test_extract_note_detail() diff --git a/media_platform/tieba/test_data/note_detail.html b/media_platform/tieba/test_data/note_detail.html new file mode 100644 index 0000000..e4ecae6 --- /dev/null +++ b/media_platform/tieba/test_data/note_detail.html @@ -0,0 +1,839 @@ +对于一个父亲来说,这个女儿14岁就死了【以太比特吧】_百度贴吧 + + + + + + + + +
以太比特吧 关注:309,573贴子:5,368,434
+
+ + +
+ 贴子管理 +
    + +
+
+
+
+

对于一个父亲来说,这个女儿14岁就死了

只看楼主收藏回复

+
+ +
+
+
+
+
点击展开,查看完整图片


IP属地:广东来自Android客户端1楼2024-08-05 16:56回复
    本来觉得就凭14岁的这点叛逆父亲不再理她觉得这个这个父亲是有点问题的,后来看到母亲也不理了,我就知道这女的肯定隐藏了很多自己干得垃圾事没说,她活该


    IP属地:广东来自Android客户端2楼2024-08-05 17:07
    收起回复
      • 铭寒号废了重练一个而已,只是她妈后来才明白这一点
      • youxi卡米糯小错一般都能包容,能这样多半是原则上大是大非
      • 你的隔壁王哥十四岁能把人逼到没有一点犹豫的跳楼,有多大的学习压力想过没?这种家庭内为了子女成才会不记一切代价,甚至是以折磨的方式,而之后的一切变故都是由于这次跳楼父亲不闻不问的态度,换作是你心灰意泠后只会做的比他更过分,亲情破裂会让最后一丝克制也一同丧失。
      • 快拉黑尔父回复 你的隔壁王哥 :闷油瓶的话还能理解一下,小太妹为了得到什么说跳就跳我是一点也不怀疑也不同情的。你现在同情小心以后糟老罪咯。真要对她不好也不至于长大了好多事想明白了反而一直想修复关系。
      • 你的隔壁王哥回复 快拉黑尔父 :十四岁第一次逃学,还在担心父母会不会打他,说明在此之前完全就是个乖乖女。初三才逃第一次学,如果是太妹初二就已经插着翅膀到处飞了,而且跳楼母亲没有任何心里准备,就说明在以往的形象里是不可能做出这事,说明从一开始就只是正常女学生。
        • 快拉黑尔父回复 你的隔壁王哥 :人变成太妹,性格一完全变成了很难理解吗?初中时代常有的事
        • 你的隔壁王哥回复 快拉黑尔父 :如果说是太妹,那么跳楼之前必然会有各种前车之鉴,换句话说为了得到某样需求常用跳楼作为威胁。这种头也不回没有任何犹豫的跳楼,显然不是为了得到什么,就是单纯的寻死,你觉得太妹会这么纯粹的寻死吗?太妹的心理承受能力可高多了,只有未经世事的小白心里破防了才会这么干脆。
        • 快拉黑尔父回复 你的隔壁王哥 :完全的一面之词,结果可以看到的是什么?14岁钱的好父亲当她死了。对她一直很好的母亲也断了联系。想修复关系的反而是她。告诉你一个众所周知的事,人发言,一定,一定会下意识的美化自己。这是下意识。然后你再看看这个故事。
        • 快拉黑尔父回复 你的隔壁王哥 :而你所说的这个想索求什么,全包含在了一句叛逆期懂得都懂这一句话里面隐藏了。这就是她下意识的掩盖的事了。
        • 你的隔壁王哥回复 快拉黑尔父 :你要分析心理啊,纯粹的寻死只会在心里破防的时候才会存在,你如果接触过混社会的太妹,你就会发现他们会以寻求刺激为炫耀的资本,在这种群体内心理承受能力高的离谱。要想让一个学生心里破防,只能让她的天塌了,脆弱的心里才会在极短时间内崩溃,只有长期压抑才会产生这种心理。
      • 我也说一句

        还有118条回复,点击查看

      这女的晚上不回家她爹去找她,被黄毛打进医院,也没来医院看过,最后和黄毛结婚也不来往。想起三套房想爆她爹金币,结果找不到求助平台。幸好她爹跑得快。


      IP属地:福建来自Android客户端4楼2024-08-05 17:38
      收起回复
        我知道,可怜之人,必有()


        IP属地:浙江来自Android客户端7楼2024-08-05 18:38
        收起回复
          太假了,混社会不良太妹,还考高中,选专业。当没有大专么


          IP属地:天津来自Android客户端8楼2024-08-05 18:43
          收起回复
            边倪m蓖


            IP属地:广东来自Android客户端9楼2024-08-05 18:52
            回复
              父亲问题很大,应该在14岁那年再生一个或者领养一个


              IP属地:河北来自Android客户端10楼2024-08-05 18:59
              收起回复
                她爸怎么忍住不创小号的


                IP属地:浙江来自Android客户端12楼2024-08-05 19:09
                收起回复
                  站在作者的角度来看,肯定都是挑了对自己及其有利的东西来说了,然而


                  IP属地:四川来自Android客户端13楼2024-08-05 19:11
                  收起回复
                    这个好像是之前新闻里的


                    IP属地:江苏来自Android客户端17楼2024-08-05 19:31
                    收起回复
                      叛逆期你懂的这6个字包含了不知道多少事父母没对他发火而是耐心劝导也不知道包含了多少,我不好说,而且14岁逃学混社会初三高一的学生这么弄基本也是烂了


                      IP属地:黑龙江来自Android客户端21楼2024-08-05 20:06
                      收起回复
                        我们群有个女的。。。他说他爹家暴。。。喝点酒打她跟他妈。。她还轻生过。。。慢慢的的了解了。。。。他爹好像没那么不堪。。。一个月4000多生活费给她。。。她上学都打出租车。。。他爹还不怎么喝酒。。。他有抑郁症他爹还带她去看病。。。。还学了中医给她食补。。但是他就记得他爹喝酒打她跟他妈,。。。。我就纳了闷了。。。。这两个版本的故事不大对。。。。女人嘴里没实话啊。。。。。她说她爹喝酒打他妈,他直接拿水果刀给他爹捅了。淌了好多血,所以他爹送她进精神病院 反正挺混乱的。。。挺漂亮的一个高中女孩,就喜欢酒吧喝酒。。蹦迪。。。说全班男的都给她表过白。。。但是就喜欢小混混。。。
                        我得出一个结论。这家伙真有病。。。。她爹绝对对她不错。。。。。也是贱高中家庭好,还喜欢混混很蹦迪。。。。高考才两百还是三百多让同学骂了一顿。。。。破防了在群里哭跑路了。。。


                        IP属地:山东来自Android客户端22楼2024-08-05 20:19
                        收起回复
                          女的独生,八成是结婚嫁了混混日子不如意,想着爆父母金币3套房,后来连母亲都躲着她足以说明一切


                          IP属地:广东来自Android客户端23楼2024-08-05 20:35
                          收起回复
                            活该,早点死别耽误别人


                            IP属地:江西来自Android客户端24楼2024-08-05 20:37
                            回复
                              对自己闭口不谈,不好评价


                              IP属地:安徽来自Android客户端25楼2024-08-05 22:54
                              回复
                                再叛逆也不至于寻死
                                硬要死那就满足你当你死了


                                IP属地:广西来自Android客户端26楼2024-08-05 22:57
                                回复
                                  xxn的话一个标点符号都不能信


                                  IP属地:广西来自Android客户端27楼2024-08-05 23:03
                                  回复
                                    故事太过于离谱,是没讲完还是编的


                                    IP属地:湖北来自Android客户端28楼2024-08-05 23:05
                                    收起回复
                                      她的母亲从前那么希望这个家和好,对女儿也很好,结果突然也躲着她


                                      IP属地:新疆来自Android客户端30楼2024-08-05 23:32
                                      回复
                                        一眼就是避重就轻,能说的都是最轻的了


                                        IP属地:广东来自iPhone客户端31楼2024-08-05 23:45
                                        收起回复
                                          网传的被隐瞒的另一部分故事,不保真


                                          IP属地:湖南来自Android客户端32楼2024-08-06 00:08
                                          收起回复
                                            一般人做不到的绝情,可疑


                                            IP属地:陕西来自Android客户端33楼2024-08-06 00:08
                                            收起回复
                                              快马加编


                                              IP属地:四川来自Android客户端35楼2024-08-06 00:13
                                              回复
                                                默认信xxn说的话已经很反映现在的环境了


                                                IP属地:上海来自iPhone客户端36楼2024-08-06 00:30
                                                回复
                                                  這是最後一個教訓了
                                                  父親給的最後一個教訓,停止了你的反叛期,永久有效


                                                  IP属地:中国香港来自Android客户端37楼2024-08-06 00:39
                                                  回复


                                                    IP属地:河北来自Android客户端38楼2024-08-06 00:39
                                                    回复
                                                      哇,是没头没尾的讲故事,甚至比聊天记录还干净,这下不得不信了


                                                      IP属地:湖北来自Android客户端39楼2024-08-06 00:40
                                                      收起回复


                                                        IP属地:湖北来自iPhone客户端40楼2024-08-06 00:46
                                                        收起回复
                                                          叛逆期,是我懂的那个吗?
                                                          就是咒他爸要死还找烂仔来对付他爸,给人当街一顿打自己跑路了那个吗?
                                                          要我说,父母都体现出最大的斯文和忍让了,换作素质低点的可能牙齿都给人干碎了。


                                                          IP属地:广西来自Android客户端41楼2024-08-06 00:52
                                                          收起回复
                                                            自己犯贱能怪谁呢


                                                            IP属地:浙江来自Android客户端42楼2024-08-06 00:55
                                                            回复
                                                              +
                                                              + + + + + + + + + + + + + + + + +
                                                              \ No newline at end of file diff --git a/media_platform/tieba/test_data/note_detail_and_comments.html b/media_platform/tieba/test_data/note_detail_and_comments.html deleted file mode 100644 index 132068a..0000000 --- a/media_platform/tieba/test_data/note_detail_and_comments.html +++ /dev/null @@ -1,7558 +0,0 @@ -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              - -
                                                              - -
                                                              -
                                                              -
                                                              - -
                                                              - 以太比特吧 关注:309,572贴子:5,386,110
                                                              -
                                                              -
                                                              - -
                                                              -
                                                              -
                                                                -
                                                              • 1 - 2 - 3 - 4 - 5 - 6 - 7 - 8 - 9 - 10 - 下一页 - 尾页 -
                                                              • -
                                                              • 760回复贴,共12页 -
                                                              • -
                                                              • ,跳到 页   -
                                                              • -
                                                              - -
                                                              -
                                                              - - -
                                                              - 贴子管理 -
                                                                - -
                                                              -
                                                              -
                                                              -
                                                              - -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              -

                                                              对于一个父亲来说,这个女儿14岁就死了

                                                              只看楼主收藏回复 -

                                                              -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              - -
                                                              -
                                                              - -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              - - - -
                                                              -
                                                              -
                                                              点击展开,查看完整图片 -
                                                              -
                                                              -
                                                              -
                                                              -
                                                              - -
                                                              - -
                                                              -
                                                              -
                                                              -
                                                              IP属地:广东来自Android客户端1楼2024-08-05 16:56回复 -
                                                              -
                                                                -
                                                                - -
                                                                -
                                                                -
                                                                - -
                                                                -
                                                                - -
                                                                -
                                                                -
                                                                -
                                                                - - -
                                                                - 本来觉得就凭14岁的这点叛逆父亲不再理她觉得这个这个父亲是有点问题的,后来看到母亲也不理了,我就知道这女的肯定隐藏了很多自己干得垃圾事没说,她活该
                                                                -
                                                                -
                                                                - -
                                                                - -
                                                                -
                                                                -
                                                                IP属地:广东来自Android客户端2楼2024-08-05 17:07 -
                                                                收起回复
                                                                -
                                                                -
                                                                  -
                                                                  -
                                                                  -
                                                                  -
                                                                  -
                                                                    -
                                                                  • -
                                                                    铭寒号废了重练一个而已,只是她妈后来才明白这一点 - -
                                                                    -
                                                                  • -
                                                                  • -
                                                                    youxi卡米糯小错一般都能包容,能这样多半是原则上大是大非 - -
                                                                    -
                                                                  • -
                                                                  • -
                                                                    你的隔壁王哥十四岁能把人逼到没有一点犹豫的跳楼,有多大的学习压力想过没?这种家庭内为了子女成才会不记一切代价,甚至是以折磨的方式,而之后的一切变故都是由于这次跳楼父亲不闻不问的态度,换作是你心灰意泠后只会做的比他更过分,亲情破裂会让最后一丝克制也一同丧失。 - -
                                                                    -
                                                                  • -
                                                                  • -
                                                                    -
                                                                    - 快拉黑尔父回复 你的隔壁王哥 :闷油瓶的话还能理解一下,小太妹为了得到什么说跳就跳我是一点也不怀疑也不同情的。你现在同情小心以后糟老罪咯。真要对她不好也不至于长大了好多事想明白了反而一直想修复关系。 - -
                                                                    -
                                                                  • -
                                                                  • -
                                                                    你的隔壁王哥回复 快拉黑尔父 :十四岁第一次逃学,还在担心父母会不会打他,说明在此之前完全就是个乖乖女。初三才逃第一次学,如果是太妹初二就已经插着翅膀到处飞了,而且跳楼母亲没有任何心里准备,就说明在以往的形象里是不可能做出这事,说明从一开始就只是正常女学生。 - -
                                                                    -
                                                                  • -
                                                                      -
                                                                    • -
                                                                      -
                                                                      - 快拉黑尔父回复 你的隔壁王哥 :人变成太妹,性格一完全变成了很难理解吗?初中时代常有的事 - -
                                                                      -
                                                                    • -
                                                                    • -
                                                                      你的隔壁王哥回复 快拉黑尔父 :如果说是太妹,那么跳楼之前必然会有各种前车之鉴,换句话说为了得到某样需求常用跳楼作为威胁。这种头也不回没有任何犹豫的跳楼,显然不是为了得到什么,就是单纯的寻死,你觉得太妹会这么纯粹的寻死吗?太妹的心理承受能力可高多了,只有未经世事的小白心里破防了才会这么干脆。 - -
                                                                      -
                                                                    • -
                                                                    • -
                                                                      -
                                                                      - 快拉黑尔父回复 你的隔壁王哥 :完全的一面之词,结果可以看到的是什么?14岁钱的好父亲当她死了。对她一直很好的母亲也断了联系。想修复关系的反而是她。告诉你一个众所周知的事,人发言,一定,一定会下意识的美化自己。这是下意识。然后你再看看这个故事。 - -
                                                                      -
                                                                    • -
                                                                    • -
                                                                      -
                                                                      - 快拉黑尔父回复 你的隔壁王哥 :而你所说的这个想索求什么,全包含在了一句叛逆期懂得都懂这一句话里面隐藏了。这就是她下意识的掩盖的事了。 - -
                                                                      -
                                                                    • -
                                                                    • -
                                                                      你的隔壁王哥回复 快拉黑尔父 :你要分析心理啊,纯粹的寻死只会在心里破防的时候才会存在,你如果接触过混社会的太妹,你就会发现他们会以寻求刺激为炫耀的资本,在这种群体内心理承受能力高的离谱。要想让一个学生心里破防,只能让她的天塌了,脆弱的心里才会在极短时间内崩溃,只有长期压抑才会产生这种心理。 - -
                                                                      -
                                                                    • -
                                                                    -
                                                                  • 我也说一句 -

                                                                    还有113条回复,点击查看 -

                                                                    -
                                                                  • -
                                                                  - -
                                                                  -
                                                                  -
                                                                  -
                                                                  -
                                                                  -
                                                                  -
                                                                  - - -
                                                                  -
                                                                  -
                                                                  - -
                                                                  -
                                                                  -
                                                                  -
                                                                  - - -
                                                                  - 这女的晚上不回家她爹去找她,被黄毛打进医院,也没来医院看过,最后和黄毛结婚也不来往。想起三套房想爆她爹金币,结果找不到求助平台。幸好她爹跑得快。 -
                                                                  -
                                                                  -
                                                                  - -
                                                                  - -
                                                                  -
                                                                  -
                                                                  IP属地:福建来自Android客户端4楼2024-08-05 17:38 -
                                                                  收起回复
                                                                  -
                                                                  -
                                                                    -
                                                                    -
                                                                    -
                                                                    -
                                                                    - - -
                                                                    -
                                                                    -
                                                                    -
                                                                    -
                                                                    -
                                                                    -
                                                                    -
                                                                    - -
                                                                    -
                                                                    -
                                                                    -
                                                                    - - -
                                                                    我知道,可怜之人,必有() -
                                                                    -
                                                                    -
                                                                    - -
                                                                    - -
                                                                    -
                                                                    -
                                                                    IP属地:浙江来自Android客户端7楼2024-08-05 18:38 -
                                                                    收起回复
                                                                    -
                                                                    -
                                                                      -
                                                                      -
                                                                      -
                                                                      -
                                                                      - - -
                                                                      -
                                                                      -
                                                                      -
                                                                      -
                                                                      -
                                                                      -
                                                                      -
                                                                      - -
                                                                      -
                                                                      -
                                                                      -
                                                                      - - -
                                                                      太假了,混社会不良太妹,还考高中,选专业。当没有大专么 -
                                                                      -
                                                                      -
                                                                      - -
                                                                      -
                                                                      -
                                                                      -
                                                                      IP属地:天津来自Android客户端8楼2024-08-05 18:43 -
                                                                      收起回复
                                                                      -
                                                                      -
                                                                        -
                                                                        -
                                                                        -
                                                                        -
                                                                        - - -
                                                                        -
                                                                        -
                                                                        -
                                                                        -
                                                                        -
                                                                        -
                                                                        -
                                                                        - -
                                                                        -
                                                                        -
                                                                        -
                                                                        - - -
                                                                        边倪m蓖 -
                                                                        -
                                                                        -
                                                                        - -
                                                                        -
                                                                        -
                                                                        -
                                                                        IP属地:广东来自Android客户端9楼2024-08-05 18:52 -
                                                                        回复 -
                                                                        -
                                                                        -
                                                                          -
                                                                          - -
                                                                          -
                                                                          -
                                                                          -
                                                                          -
                                                                          - -
                                                                          -
                                                                          -
                                                                          -
                                                                          - - -
                                                                          父亲问题很大,应该在14岁那年再生一个或者领养一个 -
                                                                          -
                                                                          -
                                                                          - -
                                                                          - -
                                                                          -
                                                                          -
                                                                          IP属地:河北来自Android客户端10楼2024-08-05 18:59 -
                                                                          收起回复
                                                                          -
                                                                          -
                                                                            -
                                                                            -
                                                                            -
                                                                            -
                                                                            - - -
                                                                            -
                                                                            -
                                                                            -
                                                                            -
                                                                            -
                                                                            -
                                                                            -
                                                                            - -
                                                                            -
                                                                            -
                                                                            -
                                                                            - - -
                                                                            她爸怎么忍住不创小号的 -
                                                                            -
                                                                            -
                                                                            - -
                                                                            - -
                                                                            -
                                                                            -
                                                                            IP属地:浙江来自Android客户端12楼2024-08-05 19:09 -
                                                                            收起回复
                                                                            -
                                                                            -
                                                                              -
                                                                              -
                                                                              -
                                                                              -
                                                                              - - -
                                                                              -
                                                                              -
                                                                              -
                                                                              -
                                                                              -
                                                                              -
                                                                              - -
                                                                              -
                                                                              -
                                                                              - -
                                                                              -
                                                                              -
                                                                              -
                                                                              - - -
                                                                              站在作者的角度来看,肯定都是挑了对自己及其有利的东西来说了,然而 -
                                                                              -
                                                                              -
                                                                              - -
                                                                              -
                                                                              -
                                                                              -
                                                                              IP属地:四川来自Android客户端13楼2024-08-05 19:11 -
                                                                              收起回复
                                                                              -
                                                                              -
                                                                                -
                                                                                -
                                                                                -
                                                                                -
                                                                                - - -
                                                                                -
                                                                                -
                                                                                -
                                                                                -
                                                                                -
                                                                                -
                                                                                -
                                                                                - -
                                                                                -
                                                                                -
                                                                                -
                                                                                - - -
                                                                                这个好像是之前新闻里的 -
                                                                                -
                                                                                -
                                                                                - -
                                                                                -
                                                                                -
                                                                                -
                                                                                IP属地:江苏来自Android客户端17楼2024-08-05 19:31 -
                                                                                收起回复
                                                                                -
                                                                                -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  - - -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  - -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  - - -
                                                                                  叛逆期你懂的这6个字包含了不知道多少事父母没对他发火而是耐心劝导也不知道包含了多少,我不好说,而且14岁逃学混社会初三高一的学生这么弄基本也是烂了 -
                                                                                  -
                                                                                  -
                                                                                  - -
                                                                                  -
                                                                                  -
                                                                                  -
                                                                                  IP属地:黑龙江来自Android客户端21楼2024-08-05 20:06 -
                                                                                  收起回复
                                                                                  -
                                                                                  -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    - - -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    - -
                                                                                    -
                                                                                    -
                                                                                    -
                                                                                    - - -
                                                                                    - 我们群有个女的。。。他说他爹家暴。。。喝点酒打她跟他妈。。她还轻生过。。。慢慢的的了解了。。。。他爹好像没那么不堪。。。一个月4000多生活费给她。。。她上学都打出租车。。。他爹还不怎么喝酒。。。他有抑郁症他爹还带她去看病。。。。还学了中医给她食补。。但是他就记得他爹喝酒打她跟他妈,。。。。我就纳了闷了。。。。这两个版本的故事不大对。。。。女人嘴里没实话啊。。。。。她说她爹喝酒打他妈,他直接拿水果刀给他爹捅了。淌了好多血,所以他爹送她进精神病院 - 反正挺混乱的。。。挺漂亮的一个高中女孩,就喜欢酒吧喝酒。。蹦迪。。。说全班男的都给她表过白。。。但是就喜欢小混混。。。
                                                                                    我得出一个结论。这家伙真有病。。。。她爹绝对对她不错。。。。。也是贱高中家庭好,还喜欢混混很蹦迪。。。。高考才两百还是三百多让同学骂了一顿。。。。破防了在群里哭跑路了。。。 -
                                                                                    -
                                                                                    -
                                                                                    - -
                                                                                    - -
                                                                                    -
                                                                                    -
                                                                                    IP属地:山东来自Android客户端22楼2024-08-05 20:19 -
                                                                                    收起回复
                                                                                    -
                                                                                    -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                        -
                                                                                      • -
                                                                                        小学森有的人记吃不记打,有的则相反 其实想想,谁都是第一次做父母,也都是第一次做儿女,我真觉得家庭关系挺难处的。有时候我能感受到父母的爱,但是说不了几句话,我就会有一股莫名的戾气,很容易发火,但其实我是个脾气很好的人 - -
                                                                                        -
                                                                                      • -
                                                                                      • -
                                                                                        小学森回复 萌新龍傲天 :最近看了一些文章,就有提到这种情绪,大概是因为小时候父母的情感投射导致的原因,每一次父母的好,都是在加深我的愧疚(比如说,赚钱都是为了你,怎么怎么滴,宣扬牺牲和奉献以及苦难),所以我拒绝父母对我的好,所以我逆反,似乎这样可以减轻我的负面情绪 - -
                                                                                        -
                                                                                      • -
                                                                                      • -
                                                                                        小学森记得有次电视上在放一个情绪很浓烈的视频,可能是近代史之类的,我爸问我有什么感想,其实我心里波澜壮阔,但面无表情,并且淡淡回了一句,一般,没什么感受。。然后我爸是我是个冷血动物,我笑了,说,没错,我确实是个冷血动物 - -
                                                                                        -
                                                                                      • -
                                                                                      • -
                                                                                        萌新龍傲天回复 小学森 :看个人跟家庭环境被 - -
                                                                                        -
                                                                                      • -
                                                                                      • -
                                                                                        小学森所以,如果我在这个故事里面,我大概率也会这样,甚至别说还能“抬头不见低头见了”,可能我早快活去了 - -
                                                                                        -
                                                                                      • - -
                                                                                      • 我也说一句 -

                                                                                        还有34条回复,点击查看 -

                                                                                        -
                                                                                      • -
                                                                                      - -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      - -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      - - -
                                                                                      女的独生,八成是结婚嫁了混混日子不如意,想着爆父母金币3套房,后来连母亲都躲着她足以说明一切 -
                                                                                      -
                                                                                      -
                                                                                      - -
                                                                                      -
                                                                                      -
                                                                                      -
                                                                                      IP属地:广东来自Android客户端23楼2024-08-05 20:35 -
                                                                                      收起回复
                                                                                      -
                                                                                      -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        - - -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        - -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        - - -
                                                                                        活该,早点死别耽误别人 -
                                                                                        -
                                                                                        -
                                                                                        - -
                                                                                        -
                                                                                        -
                                                                                        -
                                                                                        IP属地:江西来自Android客户端24楼2024-08-05 20:37 -
                                                                                        回复 -
                                                                                        -
                                                                                        -
                                                                                          -
                                                                                          - -
                                                                                          -
                                                                                          -
                                                                                          - -
                                                                                          -
                                                                                          - -
                                                                                          -
                                                                                          -
                                                                                          -
                                                                                          - - -
                                                                                          对自己闭口不谈,不好评价 -
                                                                                          -
                                                                                          -
                                                                                          - -
                                                                                          -
                                                                                          -
                                                                                          -
                                                                                          IP属地:安徽来自Android客户端25楼2024-08-05 22:54 -
                                                                                          回复 -
                                                                                          -
                                                                                          -
                                                                                            -
                                                                                            - -
                                                                                            -
                                                                                            -
                                                                                            -
                                                                                            -
                                                                                            - -
                                                                                            -
                                                                                            -
                                                                                            -
                                                                                            -
                                                                                            - - -
                                                                                            再叛逆也不至于寻死
                                                                                            硬要死那就满足你当你死了 -
                                                                                            -
                                                                                            -
                                                                                            - -
                                                                                            -
                                                                                            -
                                                                                            -
                                                                                            IP属地:广西来自Android客户端26楼2024-08-05 22:57 -
                                                                                            回复 -
                                                                                            -
                                                                                            -
                                                                                              -
                                                                                              - -
                                                                                              -
                                                                                              -
                                                                                              -
                                                                                              -
                                                                                              - -
                                                                                              -
                                                                                              -
                                                                                              -
                                                                                              - - -
                                                                                              xxn的话一个标点符号都不能信 -
                                                                                              -
                                                                                              -
                                                                                              - -
                                                                                              -
                                                                                              -
                                                                                              -
                                                                                              IP属地:广西来自Android客户端27楼2024-08-05 23:03 -
                                                                                              回复 -
                                                                                              -
                                                                                              -
                                                                                                -
                                                                                                - -
                                                                                                -
                                                                                                -
                                                                                                -
                                                                                                -
                                                                                                - -
                                                                                                -
                                                                                                -
                                                                                                -
                                                                                                - - -
                                                                                                故事太过于离谱,是没讲完还是编的 -
                                                                                                -
                                                                                                -
                                                                                                - -
                                                                                                -
                                                                                                -
                                                                                                -
                                                                                                IP属地:湖北来自Android客户端28楼2024-08-05 23:05 -
                                                                                                收起回复
                                                                                                -
                                                                                                -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  - - -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  - -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  - - -
                                                                                                  她的母亲从前那么希望这个家和好,对女儿也很好,结果突然也躲着她 -
                                                                                                  -
                                                                                                  -
                                                                                                  - -
                                                                                                  -
                                                                                                  -
                                                                                                  -
                                                                                                  IP属地:新疆来自Android客户端30楼2024-08-05 23:32 -
                                                                                                  回复 -
                                                                                                  -
                                                                                                  -
                                                                                                    -
                                                                                                    - -
                                                                                                    -
                                                                                                    -
                                                                                                    -
                                                                                                    -
                                                                                                    - -
                                                                                                    -
                                                                                                    -
                                                                                                    -
                                                                                                    - - -
                                                                                                    一眼就是避重就轻,能说的都是最轻的了 -
                                                                                                    -
                                                                                                    -
                                                                                                    - -
                                                                                                    -
                                                                                                    -
                                                                                                    -
                                                                                                    IP属地:广东来自iPhone客户端31楼2024-08-05 23:45 -
                                                                                                    收起回复
                                                                                                    -
                                                                                                    -
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      - - -
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      - -
                                                                                                      -
                                                                                                      - -
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      - - -
                                                                                                      网传的被隐瞒的另一部分故事,不保真
                                                                                                      -
                                                                                                      -
                                                                                                      -
                                                                                                      - -
                                                                                                      - -
                                                                                                      -
                                                                                                      -
                                                                                                      IP属地:湖南来自Android客户端32楼2024-08-06 00:08 -
                                                                                                      收起回复
                                                                                                      -
                                                                                                      -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        - - -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        - -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        - - -
                                                                                                        一般人做不到的绝情,可疑 -
                                                                                                        -
                                                                                                        -
                                                                                                        - -
                                                                                                        -
                                                                                                        -
                                                                                                        -
                                                                                                        IP属地:陕西来自Android客户端33楼2024-08-06 00:08 -
                                                                                                        收起回复
                                                                                                        -
                                                                                                        -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          - - -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          - -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          - - -
                                                                                                          快马加编 -
                                                                                                          -
                                                                                                          -
                                                                                                          - -
                                                                                                          -
                                                                                                          -
                                                                                                          -
                                                                                                          IP属地:四川来自Android客户端35楼2024-08-06 00:13 -
                                                                                                          回复 -
                                                                                                          -
                                                                                                          -
                                                                                                            -
                                                                                                            - -
                                                                                                            -
                                                                                                            -
                                                                                                            -
                                                                                                            -
                                                                                                            - -
                                                                                                            -
                                                                                                            -
                                                                                                            -
                                                                                                            - - -
                                                                                                            默认信xxn说的话已经很反映现在的环境了 -
                                                                                                            -
                                                                                                            -
                                                                                                            - -
                                                                                                            -
                                                                                                            -
                                                                                                            -
                                                                                                            IP属地:上海来自iPhone客户端36楼2024-08-06 00:30 -
                                                                                                            回复 -
                                                                                                            -
                                                                                                            -
                                                                                                              -
                                                                                                              - -
                                                                                                              -
                                                                                                              -
                                                                                                              -
                                                                                                              -
                                                                                                              - -
                                                                                                              -
                                                                                                              -
                                                                                                              -
                                                                                                              - - -
                                                                                                              這是最後一個教訓了
                                                                                                              父親給的最後一個教訓,停止了你的反叛期,永久有效 -
                                                                                                              -
                                                                                                              -
                                                                                                              - -
                                                                                                              -
                                                                                                              -
                                                                                                              -
                                                                                                              IP属地:中国香港来自Android客户端37楼2024-08-06 00:39 -
                                                                                                              回复 -
                                                                                                              -
                                                                                                              -
                                                                                                                -
                                                                                                                - -
                                                                                                                -
                                                                                                                -
                                                                                                                -
                                                                                                                -
                                                                                                                - -
                                                                                                                -
                                                                                                                -
                                                                                                                -
                                                                                                                - - -
                                                                                                                编 -
                                                                                                                -
                                                                                                                -
                                                                                                                - -
                                                                                                                -
                                                                                                                -
                                                                                                                -
                                                                                                                IP属地:河北来自Android客户端38楼2024-08-06 00:39 -
                                                                                                                回复 -
                                                                                                                -
                                                                                                                -
                                                                                                                  -
                                                                                                                  - -
                                                                                                                  -
                                                                                                                  -
                                                                                                                  - -
                                                                                                                  -
                                                                                                                  - -
                                                                                                                  -
                                                                                                                  -
                                                                                                                  -
                                                                                                                  - - -
                                                                                                                  哇,是没头没尾的讲故事,甚至比聊天记录还干净,这下不得不信了 -
                                                                                                                  -
                                                                                                                  -
                                                                                                                  - -
                                                                                                                  -
                                                                                                                  -
                                                                                                                  -
                                                                                                                  IP属地:湖北来自Android客户端39楼2024-08-06 00:40 -
                                                                                                                  收起回复
                                                                                                                  -
                                                                                                                  -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    - - -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    - -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    - - -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    - -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    -
                                                                                                                    IP属地:湖北来自iPhone客户端40楼2024-08-06 00:46 -
                                                                                                                    收起回复
                                                                                                                    -
                                                                                                                    -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      - - -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      - -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      - - -
                                                                                                                      叛逆期,是我懂的那个吗?
                                                                                                                      就是咒他爸要死还找烂仔来对付他爸,给人当街一顿打自己跑路了那个吗?
                                                                                                                      要我说,父母都体现出最大的斯文和忍让了,换作素质低点的可能牙齿都给人干碎了。 -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      - -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      -
                                                                                                                      IP属地:广西来自Android客户端41楼2024-08-06 00:52 -
                                                                                                                      收起回复
                                                                                                                      -
                                                                                                                      -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        - - -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        - -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        - - -
                                                                                                                        自己犯贱能怪谁呢 -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        - -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        -
                                                                                                                        IP属地:浙江来自Android客户端42楼2024-08-06 00:55 -
                                                                                                                        回复 -
                                                                                                                        -
                                                                                                                        -
                                                                                                                          -
                                                                                                                          - -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -

                                                                                                                          -
                                                                                                                          -
                                                                                                                          - -
                                                                                                                          -
                                                                                                                            -
                                                                                                                          • 发贴红色标题
                                                                                                                          • -
                                                                                                                          • 显示红名
                                                                                                                          • -
                                                                                                                          • 签到六倍经验
                                                                                                                          • -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          - -
                                                                                                                          -
                                                                                                                          -

                                                                                                                          赠送补签卡1张,获得[经验书购买权]

                                                                                                                          - -
                                                                                                                          -

                                                                                                                          我在贴吧

                                                                                                                          -
                                                                                                                          - -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          - -
                                                                                                                          -

                                                                                                                          扫二维码下载贴吧客户端

                                                                                                                          -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          下载贴吧APP
                                                                                                                          看高清直播、视频!
                                                                                                                          -
                                                                                                                          -
                                                                                                                          - - -
                                                                                                                          -
                                                                                                                          -
                                                                                                                          - -
                                                                                                                          -
                                                                                                                          \ No newline at end of file diff --git a/model/__init__.py b/model/__init__.py new file mode 100644 index 0000000..40a96af --- /dev/null +++ b/model/__init__.py @@ -0,0 +1 @@ +# -*- coding: utf-8 -*- diff --git a/model/m_baidu_tieba.py b/model/m_baidu_tieba.py new file mode 100644 index 0000000..6f420dc --- /dev/null +++ b/model/m_baidu_tieba.py @@ -0,0 +1,19 @@ +# -*- coding: utf-8 -*- +from typing import Optional +from pydantic import BaseModel, Field + + +class TiebaNote(BaseModel): + note_id: str = Field(..., description="帖子ID") + title: str = Field(..., description="帖子标题") + desc: str = Field(default="", description="帖子描述") + note_url: str = Field(..., description="帖子链接") + publish_time: str = Field(default="", description="发布时间") + user_link: str = Field(default="", description="用户主页链接") + user_nickname: str = Field(default="", description="用户昵称") + user_avatar: str = Field(default="", description="用户头像地址") + tieba_name: str = Field(..., description="贴吧名称") + tieba_link: str = Field(..., description="贴吧链接") + total_replay_num: int = Field(default=0, description="回复总数") + total_replay_page: int = Field(default=0, description="回复总页数") + ip_location: Optional[str] = Field(default="", description="IP地理位置") diff --git a/model/m_douyin.py b/model/m_douyin.py new file mode 100644 index 0000000..40a96af --- /dev/null +++ b/model/m_douyin.py @@ -0,0 +1 @@ +# -*- coding: utf-8 -*- diff --git a/model/m_kuaishou.py b/model/m_kuaishou.py new file mode 100644 index 0000000..40a96af --- /dev/null +++ b/model/m_kuaishou.py @@ -0,0 +1 @@ +# -*- coding: utf-8 -*- diff --git a/model/m_weibo.py b/model/m_weibo.py new file mode 100644 index 0000000..40a96af --- /dev/null +++ b/model/m_weibo.py @@ -0,0 +1 @@ +# -*- coding: utf-8 -*- diff --git a/model/m_xiaohongshu.py b/model/m_xiaohongshu.py new file mode 100644 index 0000000..40a96af --- /dev/null +++ b/model/m_xiaohongshu.py @@ -0,0 +1 @@ +# -*- coding: utf-8 -*- diff --git a/requirements.txt b/requirements.txt index 151374f..eb405db 100644 --- a/requirements.txt +++ b/requirements.txt @@ -13,4 +13,4 @@ python-dotenv==1.0.1 jieba==0.42.1 wordcloud==1.9.3 matplotlib==3.9.0 -requests==2.32.3 \ No newline at end of file +requests==2.32.3 diff --git a/schema/tables.sql b/schema/tables.sql index 88828b7..2aadb38 100644 --- a/schema/tables.sql +++ b/schema/tables.sql @@ -349,29 +349,26 @@ ALTER TABLE `bilibili_video_comment` ALTER TABLE `weibo_note_comment` ADD COLUMN `parent_comment_id` VARCHAR(64) DEFAULT NULL COMMENT '父评论ID'; -SET -FOREIGN_KEY_CHECKS = 1; - DROP TABLE IF EXISTS `tieba_note`; -CREATE TABLE `tieba_note` +CREATE TABLE tieba_note ( - `id` int NOT NULL AUTO_INCREMENT COMMENT '自增ID', - `note_id` varchar(64) NOT NULL COMMENT '帖子ID', - `title` varchar(255) DEFAULT NULL COMMENT '笔记标题', - `desc` longtext COMMENT '笔记描述', - `time` varchar NOT NULL COMMENT '笔记发布时间', - `note_url` varchar(255) DEFAULT NULL COMMENT '笔记详情页的URL', - `nickname` varchar(64) DEFAULT NULL COMMENT '用户昵称', - `nickname_link` varchar(255) DEFAULT NULL COMMENT '用户主页地址', - `tieba_name` varchar(255) DEFAULT NULL COMMENT '贴吧名称', - `tieba_link` varchar(255) DEFAULT NULL COMMENT '贴吧链接地址', - `avatar` varchar(255) DEFAULT NULL COMMENT '用户头像地址', - `ip_location` varchar(255) DEFAULT NULL COMMENT '评论时的IP地址', - `add_ts` bigint NOT NULL COMMENT '记录添加时间戳', - `last_modify_ts` bigint NOT NULL COMMENT '记录最后修改时间戳', - `comment_count` varchar(16) DEFAULT NULL COMMENT '笔记评论数', - PRIMARY KEY (`id`), - KEY `idx_tieba_note_id` (`note_id`), - KEY `idx_tieba_note_time` (`time`) -) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMMENT='贴吧帖子表'; + id BIGINT AUTO_INCREMENT PRIMARY KEY, + note_id VARCHAR(644) NOT NULL COMMENT '帖子ID', + title VARCHAR(255) NOT NULL COMMENT '帖子标题', + `desc` TEXT COMMENT '帖子描述', + note_url VARCHAR(255) NOT NULL COMMENT '帖子链接', + publish_time VARCHAR(255) NOT NULL COMMENT '发布时间', + user_link VARCHAR(255) NOT NULL COMMENT '用户主页链接', + user_nickname VARCHAR(255) NOT NULL COMMENT '用户昵称', + user_avatar VARCHAR(255) NOT NULL COMMENT '用户头像地址', + tieba_name VARCHAR(255) NOT NULL COMMENT '贴吧名称', + tieba_link VARCHAR(255) NOT NULL COMMENT '贴吧链接', + total_replay_num INT DEFAULT 0 COMMENT '帖子回复总数', + total_replay_page INT DEFAULT 0 COMMENT '帖子回复总页数', + ip_location VARCHAR(255) DEFAULT '' COMMENT 'IP地理位置', + add_ts BIGINT NOT NULL COMMENT '添加时间戳', + last_modify_ts BIGINT NOT NULL COMMENT '最后修改时间戳', + KEY `idx_tieba_note_note_id` (`note_id`), + KEY `idx_tieba_note_publish_time` (`publish_time`) +) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMMENT='贴吧帖子表'; \ No newline at end of file diff --git a/store/tieba/__init__.py b/store/tieba/__init__.py index 9e47fa4..efaa6cc 100644 --- a/store/tieba/__init__.py +++ b/store/tieba/__init__.py @@ -1,6 +1,7 @@ # -*- coding: utf-8 -*- from typing import List +from model.m_baidu_tieba import TiebaNote from . import tieba_store_impl from .tieba_store_impl import * @@ -21,24 +22,20 @@ class TieBaStoreFactory: return store_class() -async def update_tieba_note(note_item: Dict): - tieba_url = "https://tieba.baidu.com" - note_id = note_item.get("note_id") - local_db_item = { - "note_id": note_id, - "title": note_item.get("title") or note_item.get("desc", "")[:255], - "desc": note_item.get("desc", ""), - "note_url": tieba_url + note_item.get("note_url"), - "time": note_item.get("time"), - "tieba_name": note_item.get("tieba_name"), - "tieba_link": tieba_url + note_item.get("tieba_link", ""), - "nickname": note_item.get("nickname"), - "nickname_link": tieba_url + note_item.get("nickname_link", ""), - "ip_location": note_item.get("ip_location", ""), - "last_modify_ts": utils.get_current_timestamp(), - } - utils.logger.info(f"[store.tieba.update_tieba_note] tieba note: {local_db_item}") - await TieBaStoreFactory.create_store().store_content(local_db_item) +async def update_tieba_note(note_item: TiebaNote): + """ + Add or Update tieba note + Args: + note_item: + + Returns: + + """ + save_note_item = note_item.model_dump() + save_note_item.update({"last_modify_ts": utils.get_current_timestamp()}) + utils.logger.info(f"[store.tieba.update_tieba_note] tieba note: {save_note_item}") + + await TieBaStoreFactory.create_store().store_content(save_note_item) async def batch_update_tieba_note_comments(note_id: str, comments: List[Dict]):