文本编辑数据集
数据来源:互联网公开数据
标签:文本编辑,机器学习,自然语言处理,语法检查,语言模型,训练数据,数据标注
数据概述:
本数据集由Grammarly提供,包含用于训练文本编辑模型的精心整理的数据。数据集包括两个主要文件:validation.csv和train.csv。这些文件包含了源文本及其经过特定文本编辑任务处理后的编辑版本。每个示例包含任务类型、原始文本和编辑后的文本。任务类型字段指明了对源文本执行的具体编辑任务,有助于研究人员分类和理解不同的编辑类型。
数据用途概述:
该数据集适用于训练和评估文本编辑模型,研究者可以通过比较模型输出和目标文本评估模型性能。此外,数据集还适用于语言生成研究,帮助训练生成准确且上下文合适的文本编辑模型。
举例:
数据集包含两个主要文件:train.csv和validation.csv。这些文件采用CSV格式,易于使用各种编程语言(如Python)加载和处理。
train.csv文件包含训练数据,每行代表一个文本编辑任务示例,包括任务类型、原始文本和编辑后的文本。
validation.csv文件用于验证训练模型在未见数据上的性能。
通过研究编辑文本(tgt)和原始文本(src),可以分析常见文本编辑模式,理解不同编辑任务中的典型变化。
数据集详细信息:
train.csv和validation.csv文件的列描述如下:
- task:表示对源文本执行的文本编辑任务类型,为分类变量。
- src:表示编辑前的原始源文本。
- tgt:表示执行特定任务后编辑后的文本版本。
数据集列说明:
validation.csv文件:
- task:文本编辑任务类型(分类)
- src:编辑前的原始文本(文本)
- tgt:编辑后的文本版本(文本)
train.csv文件:
- task:文本编辑任务类型(分类)
- src:编辑前的原始文本(文本)
- tgt:编辑后的文本版本(文本)
数据集来源:Grammarly(来自Huggingface)
许可证:CC0 1.0 Universal (CC0 1.0) - 公共领域奉献
无版权限制,允许自由复制、修改、分发和表演,包括商业用途。