数据集

学术写作文本生成评估数据集AcademicWritingTextGenerationEvaluationDataset-honokashinohara

数据来源：互联网公开数据

标签：文本生成, 学术写作, 论文写作, 机器写作, 文本评估, 自然语言处理, 写作质量, 语言模型

数据概述：该数据集包含来自学术写作领域的文本数据，记录了学生根据特定提示词撰写的文章以及相应的评估信息，主要用于评估文本生成模型的性能和质量。主要特征如下：时间跨度：数据未标明具体时间，通常用于静态模型训练和评估。地理范围：数据未限定地理范围，文章内容涵盖广泛的学术话题。数据维度： train_prompts.csv: 包含写作提示词信息，包括提示词ID（prompt_id）、提示词名称（prompt_name）、写作说明（instructions）和参考文本（source_text）。 train_essays.csv: 包含训练集文章数据，包括文章ID（id）、提示词ID（prompt_id）、文章文本（text）和文章是否为机器生成的标志（generated）。 test_essays.csv: 包含测试集文章数据，包括文章ID（id）、提示词ID（prompt_id）和文章文本（text）。 sample_submission.csv: 包含提交格式示例，包括文章ID（id）和生成的标志（generated）。数据格式：CSV格式，包含四个CSV文件，便于数据处理和分析。数据来源于学生写作样本和相关的提示信息。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本生成和机器写作领域的学术研究，例如生成文本的质量评估、写作风格分析、模型训练等。行业应用：可以为教育科技公司、写作辅助工具提供数据支持，尤其是在自动写作评估、个性化写作辅导、论文查重等应用方面。决策支持：支持教育机构和研究机构进行写作能力评估、教学策略优化。教育和培训：作为语言学、计算机科学等专业课程的辅助材料，帮助学生和研究人员深入理解文本生成和评估方法。此数据集特别适合用于评估文本生成模型的性能，探索不同写作提示词对生成文本的影响，并研究如何提高机器生成文本的质量和可读性，从而实现更智能的写作辅助工具。

数据与资源

学术写作文本生成评估数据集AcademicWritingTextGenerationEvalu...ZIP
1.35 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.35 MiB
最后更新	2025年5月10日
创建于	2025年5月10日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

学术写作文本生成评估数据集AcademicWritingTextGenerationEvaluationDataset-honokashinohara

数据与资源

附加信息

注册成功！