-
葡萄牙语文本中的性别偏见数据集
2025年12月22日 30 99 82
数据集概述 该数据集包含用于研究葡萄牙语文本中性别偏见的相关数据,包括精选的葡萄牙语文学语料库、构建句子模板的词表以及已生成的句子模板文件,为基于掩码语言模型的性别偏见分析提供支持。 文件详解 语料库文件: corpus.zip:压缩文件,包含1804-1998年巴西和欧洲葡萄牙语的592部散文作品,共120万句、1760万词的精选文学语料库...
-
德语报纸中_gewinkt_与_gewunken_分布数据集1950_2019
2025年12月21日 30 62 13
数据集概述 该数据集包含1950至2019年间德语报纸中动词'winken'的两种过去分词形式'gewinkt'与'gewunken'的分布统计数据,为研究德语词汇形态演变提供支持。 文件详解 文件名称: gewinkt_gewunken_DeReKo.csv 文件格式: CSV(逗号分隔值) 字段映射: Decade:...
-
希腊拉丁纸草文献词汇列表数据集20240521
2025年12月18日 30 74 69
数据集概述 该数据集为2024年5月21日更新的纸草文献词汇列表,收录了An.Pap. 33、BGU 21等多份纸草文献中的词汇,按希腊语和拉丁语分类,涵盖名称、地理、宗教等类别,包含613条新词汇条目,为纸草文献词汇研究提供结构化数据。 文件详解 文件名称:cceh/papyri-wl-data-v27.zip 文件格式:ZIP压缩包...
-
古典与文学汉语学习者可靠词汇表原始频率数据集
2025年12月16日 30 36 35
数据集概述 该数据集包含古典与文学汉语学习者词汇表的原始频率计数,基于三个语料库(Micheal Loewe早期中文文本、正史、六部小说)构建,为汉语词汇研究提供基础数据支持。 文件详解 压缩包文件:...
-
加泰罗尼亚政府网页爬取语料库2020
2025年12月13日 30 103 63
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
-
Zipf变换与词频分析教学数据集_是_首相
2025年12月9日 30 24 16
数据集概述 本数据集是《应用科学计量学与信息科学II:知识表示》课程中Zipf变换与词频分析任务的配套教学材料,基于《Yes Prime Minister》(捷克译名《Jistě, pane premiére》)文本构建,包含数据文件与可视化图表。 文件详解 数据文件:...
-
德国联邦宪法法院新冠相关判决数据集2024_07_24
2025年12月8日 30 205 81
数据集概述 该数据集是德国联邦宪法法院(BVerfG)所有与新冠病毒(SARS-CoV-2)相关判决的自动化汇编,基于联邦宪法法院判决语料库(CE-BVerfG),收录全文含“Corona”“SARS-CoV”或“COVID”关键词的判决,为相关法律研究提供系统数据支持。 文件详解 判决文件压缩包: BVerfG-...
-
学术_小说与歌曲语言数据集
2025年12月5日 30 48 21
数据集概述 该数据集为研究项目“学术、小说与歌曲中的语言”的数据管理计划(DMP)。核心内容围绕学术写作、小说文本与歌曲歌词中的动词使用差异展开,对比不同体裁及文本内的动词多样性,分析各体裁高频动词特征。 文件详解 文件名称:DMP_Language in academics fiction and song.pdf 文件格式:PDF (.pdf)...
-
英文无大小写BERT模型单字词数据集
2025年4月19日 30 158 50
英文无大小写BERT模型单字词数据集 数据来源:互联网公开数据 标签:BERT,自然语言处理,英文,词频分析,预训练模型,词汇分布,子词分割 数据概述:...



