学术写作文本生成评估数据集AcademicWritingTextGenerationEvaluationDataset-honokashinohara

学术写作文本生成评估数据集AcademicWritingTextGenerationEvaluationDataset-honokashinohara

数据来源:互联网公开数据

标签:文本生成, 学术写作, 论文写作, 机器写作, 文本评估, 自然语言处理, 写作质量, 语言模型

数据概述: 该数据集包含来自学术写作领域的文本数据,记录了学生根据特定提示词撰写的文章以及相应的评估信息,主要用于评估文本生成模型的性能和质量。主要特征如下: 时间跨度:数据未标明具体时间,通常用于静态模型训练和评估。 地理范围:数据未限定地理范围,文章内容涵盖广泛的学术话题。 数据维度: train_prompts.csv: 包含写作提示词信息,包括提示词ID(prompt_id)、提示词名称(prompt_name)、写作说明(instructions)和参考文本(source_text)。 train_essays.csv: 包含训练集文章数据,包括文章ID(id)、提示词ID(prompt_id)、文章文本(text)和文章是否为机器生成的标志(generated)。 test_essays.csv: 包含测试集文章数据,包括文章ID(id)、提示词ID(prompt_id)和文章文本(text)。 sample_submission.csv: 包含提交格式示例,包括文章ID(id)和生成的标志(generated)。 数据格式:CSV格式,包含四个CSV文件,便于数据处理和分析。数据来源于学生写作样本和相关的提示信息。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、文本生成和机器写作领域的学术研究,例如生成文本的质量评估、写作风格分析、模型训练等。 行业应用:可以为教育科技公司、写作辅助工具提供数据支持,尤其是在自动写作评估、个性化写作辅导、论文查重等应用方面。 决策支持:支持教育机构和研究机构进行写作能力评估、教学策略优化。 教育和培训:作为语言学、计算机科学等专业课程的辅助材料,帮助学生和研究人员深入理解文本生成和评估方法。 此数据集特别适合用于评估文本生成模型的性能,探索不同写作提示词对生成文本的影响,并研究如何提高机器生成文本的质量和可读性,从而实现更智能的写作辅助工具。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.35 MiB
最后更新 2025年5月10日
创建于 2025年5月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。