-
基于SciExpeM的燃烧研究所论文数据_2022年
2026年1月31日 30 155 115
数据集概述 本数据集关联Proceedings Of The Combustion Institute 2022年的相关论文,由Han Xinlu等作者贡献,通过SciExpeM平台管理,文件存储于Zenodo,包含1个XML格式的元数据文件,为学术研究提供结构化的文献关联数据支持。 文件详解...
-
Bond_graph_Based_完整文献数据库_2024
2026年1月30日 30 85 77
数据集概述 本数据集为Bond graph领域的完整文献数据库,包含六份文件,涵盖作者词表、关键词映射、关键词网络、文献记录文本及Excel表格等内容,可支持Bond graph研究领域的文献检索、作者分析与关键词关联研究。 文件详解 TXT文件(共5份) 文件名称:Thesaurus_authors.txt、savedrecs(2024)...
-
ELTeC_gsw_Based_瑞士德语小说集_公开数据集
2026年1月30日 30 64 63
数据集概述 本数据集是欧洲文学文本集合(ELTeC)的瑞士德语小说子集,由COST Action "Distant Reading for European Literary History"项目生成,包含100部符合语料库构成标准的瑞士德语小说,采用TEI编码,支持欧洲文学远程阅读研究,总计102个文件。 文件详解 核心数据文件...
-
MedLatin_Based_中世纪拉丁语作者分析数据集_v1
2026年1月29日 30 85 39
数据集概述 本数据集包含MedLatinEpi和MedLatinLit两个子数据集,合计324篇标注作者的中世纪拉丁语文本。其中MedLatinEpi含294篇书信类文本,MedLatinLit含30篇文学评论及各主题论著类文本,可为作者归属、作者验证等计算语言学任务提供研究基础。 文件详解 文件名称:MedLatin.zip 文件格式:ZIP...
-
Stamatatos06_Based_作者识别C10文本数据集_2015
2026年1月22日 30 187 39
数据集概述 本数据集包含来自十位不同作者(C10)的五百篇文本,用于作者识别研究。数据以压缩包形式提供,内部包含一个JSON文件记录真实标签(ground truth),无训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:stamatatos06-authorship-attribution-...
-
Jack_the_Ripper_Corpus_开膛手杰克信件语料库数据v1_0
2026年1月20日 30 121 14
数据集概述 本数据集为开膛手杰克信件语料库v1.0,包含与开膛手杰克相关的信件文本集合,是用于历史研究和文本分析的语料资源。数据集以压缩包形式存储,未进行训练测试、数据标签或原始处理数据的拆分。 文件详解 文件名称:andreanini/jacktherippercorpus-v1.0.zip 文件格式:ZIP(压缩包)...
-
Hindawi_Based_19_20世纪阿拉伯文学计量风格测试语料库_数据集
2026年1月20日 30 64 61
数据集概述 本数据集包含19世纪至20世纪初的三类阿拉伯文学文本语料库,用于计量风格测试。涵盖Jurji Zaydan的22部编年历史小说、8位作者的65部作品、28位作者的300部作品。文本经标准化处理,适配R stylo工具,原始来源为Hindawi平台,压缩包内为UTF8编码的清洁文本文件。 文件详解 主文件...
-
Arden_Shakespeare_His_Contemporaries_戏剧短语重复对比分析数据
2026年1月7日 30 36 30
数据集概述 本数据集包含《Arden of Faversham》与Martin Mueller语料库“Shakespeare His Contemporaries”中其他早期现代戏剧的短语重复排名数据。通过量化两部戏剧间共享短语的数量和类型,为文学研究者提供文本关联分析的结构化参考。数据集含2个文件,覆盖核心对比指标。 文件详解...
-
Stylometric_Based_约翰_斯图尔特_穆勒_妇女的屈从地位_作者归属分析数据_应用文件
2026年1月5日 30 40 37
数据集概述 本数据集为《妇女的屈从地位》作者归属问题的计算文体学分析项目相关文件。针对约翰·斯图尔特·穆勒称该书由其与哈丽特·泰勒·穆勒、海伦·泰勒合著的争议,通过支持向量机、K近邻、决策树三种分类器进行作者识别,数据集包含训练测试语料、应用代码及分析结果。 文件详解...
-
Shakespeare_His_Contemporaries_Based_早期现代戏剧共享唯一四元组数据
2026年1月1日 30 115 26
数据集概述 本数据集基于Martin Mueller的语料库《莎士比亚及其同代人》,记录了该时期仅在两部戏剧中共同出现的四元组(至少四个词的序列)信息。包含3个文件,核心内容为戏剧间共享四元组的关联数据,可用于分析早期现代戏剧的文本关联与作者风格特征。 文件详解 shcshareduniquetetragramsplus-sheet2.csv...
-
Bionomia_GBIF_Source_印度马哈拉施特拉邦Copelatus属甲虫标本采集者与鉴定者关联数据
2025年12月28日 30 146 94
数据集概述 本数据集关联了印度马哈拉施特拉邦Copelatus属(鞘翅目:龙虱科:Copelatinae亚科)甲虫标本的采集者与鉴定者信息,包含三个新物种描述及属内其他类群的记录。数据由Bionomia志愿者标注,基于全球生物多样性信息机构(GBIF)聚合的标本数据,以Frictionless Data数据包格式呈现,含9个文件。 文件详解 数据文件...
-
跨主题作者归属大型语料库FICSIT
2025年12月23日 30 199 198
数据集概述 该数据集是精准控制跨主题样本的作者归属语料库,基于StackExchange平台数据构建,包含1237位作者的188077条文本样本,覆盖308个主题,未进行额外预处理,为跨主题作者归属研究提供基础数据。 文件详解 文件名称: FICSIT.zip:压缩包格式,包含跨主题作者归属的文本样本数据,具体字段需解压后查看 文件名称:...
-
bioRxiv预印本国际作者身份与合作数据集
2025年12月22日 30 38 12
数据集概述 该数据集包含研究bioRxiv预印本国际作者身份与合作的相关数据及补充表格,涵盖作者归属、论文国家分布、下载量等信息,同时提供数据处理代码、数据库快照、字段说明及人工修正记录,支持研究复现与扩展分析。 文件详解 数据文件(CSV格式,共18个):...
-
长花伽蓝菜物种名称作者归属编年引用表
2025年12月18日 30 40 15
数据集概述 本数据集为植物分类学研究中的一个表格,按时间顺序整理了不同出版物对长花伽蓝菜(Kalanchoe longiflora)物种名称作者归属的引用情况,包含参考文献来源及对应的作者署名格式。 文件详解 文件名称:table.html 文件格式:HTML(.html)...
-
西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX
2025年12月14日 30 75 50
数据集概述 本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容,包含短篇故事、诗歌、评论及社会政治散文,覆盖西班牙政治文化转型关键时期,为人文社科领域的计算分析提供丰富语料支持。 文件详解 索引文件(CSV格式): CORSMAXIX_la_vida_literaria_index.csv:《La vida...
-
伽蓝菜属Raveta组分类修订文献表数据集
2025年12月10日 30 152 20
数据集概述 本数据集是关于伽蓝菜属(Kalanchoe)Raveta组分类修订的文献表数据,包含该组下三个新亚组(Raveta亚组、Longiflorae亚组、Rotundifoliae亚组)的分类单元信息,记录了各物种的描述年份、文献引用及自然地理分布范围。 文件详解 文件名称: table.html 文件格式: HTML (.html) 文件内容:...
-
PAN23多作者写作风格分析数据集
2025年12月7日 30 134 20
数据集概述 该数据集是PAN@CLEF2023多作者写作风格分析共享任务的专用数据,包含三个难度级别的文档集,用于训练和测试段落级风格变化检测算法,文档均为英文且风格变化仅发生在段落间。 文件详解 文件名称: pan23-multi-author-analysis.zip 文件格式: ZIP压缩包 包含内容:...
-
PAN12作者识别归属数据集
2025年12月5日 30 68 41
数据集概述 该数据集为PAN12作者识别归属任务提供训练语料,包含不同的归属和聚类场景。相比往届,语料调整为较小作者群体的较大文档,更贴近传统精读分析的典型案例,数据来源为Feedbooks.com的免费小说集。 文件详解 文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包 内容说明:...
-
葡萄牙语作者归属分析语料库
2025年11月29日 30 44 25
数据集概述 该数据集是用于作者归属分析的葡萄牙语语料库,包含三位不同作者的作品,每位作者各三部,共计九部书籍文本,为研究文本特征与作者风格关联提供数据支持。 文件详解 文件类型:所有文件均为TXT格式(.txt),共9个文件,占比百分之百 文件示例: MC_O Outro Pe da Sereia.txt MC_Jesusalem.txt JS_A...
-
Reddit跨主题作者身份验证语料库
2025年11月28日 30 194 112
数据集概述 该数据集包含2010至2016年间1000名Reddit用户的评论内容,每个问题包含1篇未知文档和4篇已知文档(每篇约7KB),文档由同一子版块评论聚合而成,且问题内文档子版块不重叠,覆盖1388个不同主题,格式与PAN作者身份识别语料库一致。 文件详解 文件名称: Reddit_Cross-Topic-AV-...



