-
多语种越狱数据集
2026年2月15日 30 207 176
数据集概述 本数据集为多语种越狱数据集,包含一个Excel文件,未进行训练/测试、数据/标签、原始/处理等数据拆分,未提供自述文件或内容预览,可用于多语种文本相关的研究与分析。 文件详解 文件名称:多语种越狱数据集.xlsx 文件格式:XLSX 字段映射介绍:未提供内容预览,具体字段信息暂不明确 适用场景 多语种文本数据挖掘:...
-
CAT_Q_Based_北欧自闭症患者语言伪装文本数据
2026年1月30日 30 72 56
数据集概述 本数据集包含北欧地区113名自闭症参与者的语言伪装相关文本数据,基于CAT-Q调查(Hull et al, 2020)收集。为保护隐私,CAT-Q评分、健康数据及性别、年龄等变量已排除,仅保留语言能力伪装饱和度的文本内容,排除纯行为描述类回答。 文件详解 瑞典数据文件 文件名称:sweden.docx 文件格式:DOCX...
-
Deepseek_Source_Deepseek情感分析数据集
2026年1月29日 30 153 97
数据集概述 本数据集为Deepseek情感分析数据集,包含2个文件,无目录结构,无训练/测试、数据/标签或原始/处理数据的拆分。文件类型包括.xlsx和.csv,主要涉及文本情感分析相关数据,可用于自然语言处理领域的情感分析研究。 文件详解 Combined_Deepseek.xlsx 文件格式:.xlsx...
-
CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020
2026年1月18日 30 40 19
数据集概述 本数据集包含巴西联邦审计法院(CGU)网站发布的审计报告原始文本,2020年通过脚本scrape_pdfs.py抓取,用于论文“机器学习在反腐败政策分析与支持中的应用”研究。现CGU网站结构变更导致爬虫失效,但报告仍可手动获取,含2个文件。 文件详解 scrape_pdfs.py 文件格式:.py...
-
Stamatatos06_Based_作者识别C10文本数据集_2015
2026年1月22日 30 70 58
数据集概述 本数据集包含来自十位不同作者(C10)的五百篇文本,用于作者识别研究。数据以压缩包形式提供,内部包含一个JSON文件记录真实标签(ground truth),无训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:stamatatos06-authorship-attribution-...
-
Office_Suit_Based_办公软件信息集合_2019_2022
2026年1月22日 30 117 57
数据集概述 本数据集收集了2019至2022年与办公软件相关的信息,包含4个文件,无目录结构。主要涵盖Microsoft Office、Zoom、Webex等办公软件的版本更新、功能说明等内容,文件类型以文本文档为主,辅以压缩文件。 文件详解 文件名称:Microsoft_Office_2019.txt 文件格式:TXT...
-
Staycation_Indonesia_Language_数据抓取结果
2026年1月21日 30 62 36
数据集概述 本数据集为针对印尼语"Staycation"主题的数据抓取结果,包含1个Excel文件,未划分训练/测试集、数据/标签集或原始/处理数据集,文件类型单一为.xlsx格式。 文件详解 文件名称:data staycation.xlsx 文件格式:XLSX...
-
Digital_tools_gamification_消费者垃圾分类活动数据集
2026年1月19日 30 192 111
数据集概述 本数据集围绕智慧城市中提升消费者垃圾分类活动的数字化工具与游戏化策略展开,包含参与者选择方法、三类调查问卷翻译、人口统计分析等内容,共5个文件,覆盖文档与数据两种类型,为相关研究提供结构化支持。 文件详解 数据说明文档 文件名称:data_description.pdf 文件格式:PDF...
-
MEMEX_Stories_v1_0_巴黎试点参与者小组与个人动态生成故事文本数据
2026年1月18日 30 91 70
数据集概述 本数据集包含MEMEX项目巴黎试点参与者生成的故事文本,源于小组与个人动态,通过引导式工作坊收集并以匿名格式存储。总计18个文件,主要记录参与者创作的故事内容,支持对项目相关叙事的分析与研究。 文件详解 故事文本文件 文件名称:包括Les commerces d'antan.docx、PAR_8_La...
-
Aggressive_Mimicry_Based_147文化人类学攻击性拟态数据_2019
2026年1月13日 30 65 22
数据集概述 本数据集基于人类关系区域档案(HRAF)的366个人类学文化文本数据,通过关键词抓取获得攻击性拟态相关内容。共提取366个民族志案例,涉及7个大陆组34个地区的145种文化,占2019年eHRAF文化数据集约44%。数据集仅包含一个文件。 文件详解 文件名称:Lures.xlsx 文件格式:XLSX...
-
Algorithmization_Representation_Based_监管沙盒探索性实验试点研究数据
2025年12月30日 30 88 71
数据集概述 本数据集是论文“No Algorithmization without Representation: Pilot Study on Regulatory Experiments in an Exploratory Sandbox”的配套数据及脚本,包含7个文件,涉及监管沙盒探索性实验的相关数据与分析脚本,可用于支持监管实验相关研究与分析。...
-
henryrzepa_wordpress_Based_2006_2015年7月18日博客文章及评论完整导出数据
2025年12月28日 30 55 28
数据集概述 本数据集为Wordpress博客导出的XML文件,包含Henry Rzepa在2006年至2015年7月18日期间发布的四百四十篇博客文章及相关评论,是研究该时间段内特定主题博客内容的原始文本数据。 文件详解 文件名称:henryrzepa.wordpress.2015-07-19.xml 文件格式:XML...
-
合法文本与数据挖掘文献综述附录
2025年12月11日 30 55 52
数据集概述 本数据集是一篇名为《“合法”文本与数据挖掘文献综述》的综述论文的配套附录,以PDF格式呈现。附录包含八个表格,详细说明综述各章节所引用的学术文献及其具体用途,为理解综述的文献引用逻辑提供补充支持。 文件详解 文件名称: A Literature Review of Lawful Text and Data Mining - Appendix...



