全球新闻周报数据集

全球新闻周报数据集 数据来源:互联网公开数据
标签:新闻,时间序列,多语言,媒体分析,新闻源,内容聚合,新闻事件,全球新闻

数据概述:
本数据集记录了2017年8月24日至2018年8月30日期间全球范围内发布的新闻内容。2017年包含1,398,431篇文章,2018年包含1,912,872篇文章,总计约330万篇文章。数据来源于20,000个新闻源,覆盖20多种语言。每个记录包含以下四个字段:
1. publish_time:文章首次上线的时间,格式为yyyyMMddHHmm,时区为印度标准时间(IST)。
2. feed_code:新闻来源的唯一标识符,对应具体的发布者或域名。
3. source_url:文章的URL链接。
4. headline_text:文章的标题,支持UTF-8编码,涵盖多种语言。

数据用途概述:
该数据集适用于新闻内容分析、媒体趋势研究、新闻事件追踪、多语言内容分析等多种场景。研究者可以利用此数据集分析新闻传播规律、媒体影响力分布以及全球新闻事件的热度变化。媒体机构可以借此优化内容分发策略,提升新闻聚合效率。此外,数据集还支持跨语言新闻内容的研究,为多语言信息处理和全球化新闻分析提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 268.54 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。