SIMPITIKI_GITHUB_意大利语文本简化语料库数据

数据集概述

本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。

文件详解

  • 文件名称:simpitiki-v2.xml
  • 文件格式:XML
  • 字段映射介绍:作为意大利语文本简化语料库的核心文件,包含两类简化文本对数据:一类是来自意大利语维基百科的半自动采集文本对,另一类是来自行政领域文档的人工标注逐句文本对。具体字段结构需参考XML文件内部的标签定义。

数据来源

GitHub仓库dhfbk/simpitiki

适用场景

  • 意大利语文本简化模型训练: 用于训练和优化针对意大利语的自动文本简化算法,提升文本可读性。
  • 自然语言处理研究: 支持意大利语简化文本的语言学特征分析,探索简化规则和策略。
  • 行政文档简化应用: 基于行政领域的手动标注数据,开发面向公共行政文本的简化工具。
  • 语料库构建方法对比: 对比半自动采集(维基百科)与手动标注(行政文档)两种语料库构建方式的差异和效果。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.87 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。