Kaggle反馈竞赛修正训练集-文本标注数据集

关注者: 0

资源积分: 30

分类

互联网数据

互联网公开数据

授权

没有提供授权

数据集

Kaggle反馈竞赛修正训练集-文本标注数据集

Kaggle反馈竞赛修正训练集-文本标注数据集数据来源：互联网公开数据标签：文本分析,自然语言处理,标注数据,竞赛,反馈,文本纠错,机器学习,NLP

数据概述：本数据集是针对Kaggle反馈竞赛（Feedback Prize）的修正版训练集，旨在提升原始数据的标签质量。原始训练集中存在大量的标注错误，本数据集通过修正这些错误，提供了更准确的文本标注信息。

数据包含以下关键字段：

id：文章的唯一标识符。
discourse_id：每个讨论片段的唯一标识符。
essay_id：文章的标识符。
discourse_start：原始数据中讨论片段的起始位置（已替换，请参考new_start）。
discourse_end：原始数据中讨论片段的结束位置（已替换，请参考new_end）。
discourse_text：原始数据中讨论片段的文本内容（已替换，请参考text_by_new_index）。
discourse_type：讨论片段的类型（例如：引言、结论等）。
predictionstring：原始数据中预测字符串（已替换，请参考new_predictionstring）。
text_by_index：(可忽略)
new_start：修正后的讨论片段起始位置。
new_end：修正后的讨论片段结束位置。
text_by_new_index：修正后的讨论片段文本内容。
new_predictionstring：修正后的预测字符串。

数据用途概述：该数据集主要用于训练和评估文本分析模型，特别是针对写作质量评估、文本结构分析、情感分析等任务。修正后的标注数据能够有效提高模型的准确性和泛化能力。具体应用场景包括：

文本分类：根据discourse_type对文本片段进行分类。
文本分割：根据new_start和new_end进行文本片段分割。
命名实体识别：识别文本中的各种类型的讨论片段。
模型训练：用于训练机器学习模型，以预测文本中的讨论片段类型、位置等。
竞赛：用于Kaggle反馈竞赛，改进参赛模型的性能。

数据与资源

Kaggle反馈竞赛修正训练集-文本标注数据集.zipZIP
19.93 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	19.93 MiB
最后更新	2025年4月18日
创建于	2025年4月18日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？