找到7个数据集

标签: 文本简化

过滤结果
  • SIMPITIKI_GITHUB_意大利语文本简化语料库数据

    2026年1月29日 30 125 68

    数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
    packageimg
  • iDISK_Based_膳食补充剂信息简化与可视化消费者理解研究数据集

    2026年1月22日 30 194 41

    数据集概述 本数据集为膳食补充剂信息呈现方式对消费者理解影响的研究数据,包含原始文本、文本简化、手动简化、图可视化四种呈现方式的实验数据,以及690名参与者的人口统计、健康素养、理解问题答案和答题耗时等信息,共6个文件,用于评估不同信息呈现策略的效果。 文件详解 README.txt:TXT格式,包含数据集标题、作者信息、生成时间等基本说明,由XING...
    packageimg
  • AI驱动的医疗知情同意书简明语言编辑评估数据集2025

    2025年12月25日 30 23 13

    数据集概述 本数据集是关于AI驱动医疗知情同意书简明语言编辑评估研究的补充材料,包含癌症相关知情同意书原始文本、两种AI编辑版本(Simple AI Edit和Complex AI Edit)、可读性评分数据及可复现分析的代码笔记本,支持医疗健康传播领域的研究。 文件详解 压缩文件: Corpus - Informed Consent...
    packageimg
  • 加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集

    2025年12月13日 30 150 94

    数据集概述 本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据,是MLSP多语言词汇简化管道数据集的一部分,曾用于BEA教育应用NLP创新研讨会的MLSP共享任务,支持词汇复杂度评估与简化研究。 文件详解 加泰罗尼亚语测试数据压缩包:Catalan_Test.zip,ZIP格式,包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...
    packageimg
  • 词汇简化可靠数据集BenchLS

    2025年12月8日 30 100 97

    数据集概述 该数据集为词汇简化研究提供可靠资源,整合LexMTurk与LSeval数据集的929个实例,每个实例包含句子、目标复杂词及按简单性排序的候选替换词。经拼写过滤和词形变化校正处理,平均每个复杂词对应7.37个候选词。 文件详解 文件名称:BenchLS.zip 文件格式:ZIP压缩包...
    packageimg
  • 俄罗斯法制文本平行语料库2008-2022

    2025年4月18日 30 31 26

    俄罗斯法制文本平行语料库2008-2022 数据来源:互联网公开数据 标签:俄罗斯法律,文本简化,平行语料库,法律文本,自然语言处理,法律历史,动态主题建模 数据概述: 本数据集收录了2008年12月31日至2022年11月28日期间的俄罗斯法制文本及其简化版本,包含2963对原始文档和简化文档。数据来源于俄罗斯政府官方报纸Rossiyskaya...
    packageimg
  • 词语难度评估数据集

    2025年4月14日 30 163 4

    词语难度评估数据集 数据来源:互联网公开数据 标签:词语难度,语言学,文本简化,深度学习,特征工程,自然语言处理,词频分析,二分类问题 数据概述 本数据集包含40,481条数据记录,主要用于评估词语的难度。数据集的每个实例包含多个特征,包括词语本身、词长、词频、词频的对数变换、平均反应时间(Mean...
    packageimg