-
加拿大国会议员在Bluesky平台的活动数据集
数据集概述 该数据集围绕加拿大国会议员在Bluesky平台的活动展开,包含一个压缩文件,为研究加拿大议员在该社交媒体平台的行为提供数据支持。 文件详解 文件名称: Cdn_MPs_Bluesky-At-publication.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
气候安全相关推文ID数据集2014_2022
数据集概述 本数据集包含2014年1月至2022年3月期间,Twitter平台上反映气候安全对话的推文ID。数据集由3个文件组成,涵盖推文ID列表、查询说明及文档,为研究气候安全议题在社交媒体上的传播提供数据支持。 文件详解 文件名称: cs_tweets_ids.txt 文件格式: TXT 字段映射:...
-
Objaverse_Source_Follower_Milestone_Based_粉丝里程碑3D模型完整数据集
数据集概述 本数据集为“Follower's Milestone”相关的3D模型及预览文件集合,包含通过Agisoft Photoscan、RealityCapture、ContextCapture处理的.glb格式模型文件及配套.jpeg预览图,用于展示里程碑相关内容。 文件详解...
-
Reddit_Based_实体链接数据集_多标注文本语义分析完整数据
数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...
-
时间感知命名实体识别推特语料库
数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
-
AI广播者文化经济资本访谈编码数据集
数据集概述 本数据集包含对Mustang Radio两名代表(节目总监与数字部门成员)的定性访谈匿名摘录及主题编码,基于布尔迪厄资本理论分析印尼首个AI广播者Aimee的文化与经济资本,支持研究AI内容及虚拟角色在数字媒体策略与受众互动中的整合。 文件详解 文件名称: Coding Interview.pdf 文件格式: PDF 内容说明:...
-
Reddit群组互动对气候相关观点变化影响评估数据集2020_2022
数据集概述 该数据集收集了2020年7月至2022年12月期间,Reddit六个子版块的匿名对话网络数据,包含六千二百五十一篇帖子、三十六万三千三百五十条评论及五万四千九百二十三位独立用户,用于评估群组互动对气候相关观点变化的影响。 文件详解 文件名称: filtered_subs_and_threads_anonymized.zip 文件格式:...
-
ALLINTERACT公民科学参与原始数据集2021_2022
数据集概述 本数据集为欧盟Horizon 2020 ALLINTERACT项目的原始数据,包含文献综述、社交媒体分析、焦点小组、调查及社交媒体沟通观察五大类数据,围绕性别与教育领域的公民科学参与主题展开,覆盖2010-2022年的多源研究资料。 文件详解 文献综述文件:...
-
萨伊岛椰枣林火灾新闻报道PDF数据集
数据集概述 该数据集包含一则关于萨伊岛椰枣林火灾的新闻报道PDF文件,内容源自Sudan Videos的Facebook帖子,转载自Nubokeen的新闻,涉及火灾造成约百分之九十五椰枣林损毁、起火原因不明等信息,属于Ille & Salah 2022年《Walking on fire》期刊的来源资料。 文件详解 文件名称: Sudan...
-
巴西政治与新闻媒体类Telegram公共频道数据集
数据集概述 本数据集包含巴西政治类与新闻媒体类的Telegram公共频道列表,通过TeleCatch工具提取了频道元数据,为研究巴西社交媒体中的政治与新闻传播渠道提供基础数据支持。 文件详解 该数据集包含3个文件,具体说明如下: - 文档文件: - dataset description.pdf: PDF格式,可能包含数据集的详细说明文档。 -...
-
土耳其新冠疫情推特数据库样本
数据集概述 该数据集为土耳其新冠疫情相关推特数据库样本,包含疫情爆发前后各一个月的土耳其语推文ID,按新冠、经济、政治、宗教、虚假信息、国际关系等主题分类,为研究疫情期间社交媒体内容提供数据支持。 文件详解 文件名称: id.zip 文件格式: ZIP (.zip) 内容说明:...
-
Webis标题党破解语料库2022
数据集概述 该数据集包含从Facebook、Reddit和Twitter爬取的五千条标题党帖子及其对应的破解内容,按训练、验证、测试集划分。破解内容分为短语型、段落型和非连续多文本型三类,曾用于SemEval-2023标题党破解任务。 文件详解 文件名称: webis-clickbait-22.zip 文件格式: ZIP压缩包 内部文件(按预设划分):...
-
数据2017年三周内新闻提及4chan与4chan_pol_相关帖子数据集
数据集概述 该数据集包含两部分:一是2017年提及4chan最多的三周内,Nexis Uni收录的新闻文章(含来源、标题、提及4chan的句子等);二是4chan/pol/板块中引用这些新闻URL的帖子数据,可用于分析新闻对4chan的报道框架及平台内讨论关联。 文件详解 数据文件:...
-
Twitter仇恨言论检测与分析数据集
数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...
-
开源推广的社交媒体反应数据集_AI驱动的GitHub项目在Hacker_News的帖子
数据集概述 该数据集围绕开源推广的社交媒体反应展开,核心内容为AI驱动的GitHub项目在Hacker News平台上的帖子相关数据,包含论文中的图表等信息,相关研究已被ICSME 2025研究轨道接受。 文件详解 文件名称:SM_Reactions_HN_GH_AI.zip 文件格式:ZIP压缩包(.zip)...
-
加拿大政治家YouTube账号数据集
数据集概述 本数据集收录加拿大国会议员(MPs)的YouTube账号信息,包含头衔、姓名、用户名、账号链接、状态(活跃/非活跃)、性别、政党 affiliation、选区及所在省份/地区等核心字段,为研究政治人物的社交媒体存在提供基础数据。 文件详解 文件名称:...
-
InVID_Based_2018虚假视频语料库分析完整数据
数据集概述 该数据集是InVID项目背景下开发的虚假视频语料库2018年版本,包含200条虚假视频、180条真实视频,以及通过爬取和近重复检索收集的大量近重复视频,总计3957条标注为虚假、2458条标注为真实的视频。视频按时间级联排序并附元数据,仅提供视频URL及标注。 文件详解 文件名称: fake-video-corpus-2018.zip...
-
多语言错误信息推文数据集
数据集概述 该数据集包含多语言错误信息推文(MMTweet)相关的标注指南、结构化数据文件、代码脚本等资源,覆盖推文分类、声明匹配等任务,支持多语言错误信息检测与分析研究。 文件详解 标注指南文件: Data Annotation – Tweet Classification.pdf:PDF格式,推文分类任务的标注规范文档 Data...
-
爱国主义与平台_军事博物馆Instagram传播策略评估数据集
数据集概述 本数据集聚焦军事博物馆在Instagram平台的传播策略,围绕爱国主义主题展开评估。包含一份PDF文档,为研究社交媒体环境下军事文化传播模式提供资料支持。 文件详解 文件名称:DATA ART SCOPUS PKM 1.pdf 文件格式:PDF(.pdf)...
-
西班牙语COVID_19推文职业检测黄金标准标注数据集2021
数据集概述 本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文,按训练集、验证集、测试集以六十比二十比二十比例划分,涵盖职业分类与命名实体识别两个子任务的标注数据,同时提供多格式文件及工具脚本,支持自然语言处理模型训练与评估。 文件详解 数据集为压缩包格式,包含两个子任务相关文件,具体说明如下: - subtask-1(职业分类子任务):...



