Kaggle反馈竞赛修正训练集-文本标注数据集

Kaggle反馈竞赛修正训练集-文本标注数据集 数据来源:互联网公开数据 标签:文本分析,自然语言处理,标注数据,竞赛,反馈,文本纠错,机器学习,NLP

数据概述: 本数据集是针对Kaggle反馈竞赛(Feedback Prize)的修正版训练集,旨在提升原始数据的标签质量。原始训练集中存在大量的标注错误,本数据集通过修正这些错误,提供了更准确的文本标注信息。

数据包含以下关键字段:

  • id:文章的唯一标识符。
  • discourse_id:每个讨论片段的唯一标识符。
  • essay_id:文章的标识符。
  • discourse_start:原始数据中讨论片段的起始位置(已替换,请参考new_start)。
  • discourse_end:原始数据中讨论片段的结束位置(已替换,请参考new_end)。
  • discourse_text:原始数据中讨论片段的文本内容(已替换,请参考text_by_new_index)。
  • discourse_type:讨论片段的类型(例如:引言、结论等)。
  • predictionstring:原始数据中预测字符串(已替换,请参考new_predictionstring)。
  • text_by_index:(可忽略)
  • new_start:修正后的讨论片段起始位置。
  • new_end:修正后的讨论片段结束位置。
  • text_by_new_index:修正后的讨论片段文本内容。
  • new_predictionstring:修正后的预测字符串。

数据用途概述: 该数据集主要用于训练和评估文本分析模型,特别是针对写作质量评估、文本结构分析、情感分析等任务。修正后的标注数据能够有效提高模型的准确性和泛化能力。具体应用场景包括:

  • 文本分类:根据discourse_type对文本片段进行分类。
  • 文本分割:根据new_startnew_end进行文本片段分割。
  • 命名实体识别:识别文本中的各种类型的讨论片段。
  • 模型训练:用于训练机器学习模型,以预测文本中的讨论片段类型、位置等。
  • 竞赛:用于Kaggle反馈竞赛,改进参赛模型的性能。
packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 19.93 MiB
最后更新 2025年4月18日
创建于 2025年4月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。