-
Tolosa_Treebank_Occitan语言依存句法标注数据
2026年1月27日 30 140 117
数据集概述 本数据集是首个奥克语依存树库,由POCTEFA Interreg欧洲基金资助的EFA 227/16 LINGUATEC项目开发。包含25K个标注了词性标签、词元及句法依存关系的词元,遵循通用依存关系(UD)标注规范,数据以ConLL-U格式存储,覆盖加斯科涅、朗格多克、勒穆瓦纳和普罗旺斯四种主要奥克语方言。 文件详解...
-
Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集
2026年1月22日 30 117 116
数据集概述 本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词,由两位独立标注者采用IO方案手动标注,标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征,填补了阿拉伯语多标注方案研究的空白。 文件详解 文件名称:dataset.zip 文件格式:ZIP...
-
BALT_巴比伦行政与法律文本数据集
2025年12月23日 30 67 46
数据集概述 该数据集包含开放丰富注释楔形文字语料库(Oracc)上发布的“BALT: 巴比伦行政与法律文本”项目数据,收录新巴比伦、波斯及希腊化时期(约公元前626-93年)的2990份巴比伦行政与法律文本,涉及古代巴比伦宗教中心及私人家庭的行政与日常经济活动。 文件详解 文件名称: balt.zip 文件格式: ZIP(压缩包) 内容说明:...
-
罗马尼亚语言表情包数据集v2
2025年12月5日 30 113 88
数据集概述 该数据集为罗马尼亚语言表情包数据集v2,包含从公共社交媒体平台收集的罗马尼亚语表情包,提供手动标注(文本内容、图像复杂度、极性、情感、政治内容)及自动标注(词性标签、词元、依存句法分析)信息,支持多维度分析。 文件详解 核心文件: metadata.tsv: TSV格式,含文件ID、元数据及手动标注信息 LICENSE: 许可信息文件...
-
childPoeDE_德国儿童诗歌计算与实验研究元数据
2025年12月5日 30 20 2
数据集概述 该数据集是CHYLSA项目下的childPoeDE语料库元数据,包含一千零八十二首1991至2019年出版的德国儿童诗歌的元数据,涵盖诗歌层面(作者、长度、韵律等)、词元层面(词性、拟声词等)信息,以及词频表和处理脚本等。 文件详解 数据文件(CSV格式):...



