SIMPITIKI_GITHUB_意大利语文本简化语料库数据

本数据集为意大利语文本简化语料库SIMPITIKI，包含两组简化文本对：第一组通过半自动方式从意大利语维基百科获取，第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件，无训练测试、数据标签或原始处理数据的划分。

文件名称：simpitiki-v2.xml
文件格式：XML
字段映射介绍：作为意大利语文本简化语料库的核心文件，包含两类简化文本对数据：一类是来自意大利语维基百科的半自动采集文本对，另一类是来自行政领域文档的人工标注逐句文本对。具体字段结构需参考XML文件内部的标签定义。

GitHub仓库dhfbk/simpitiki

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	0.87 MiB
最后更新	2026年1月29日
创建于	2026年1月29日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。