文档评论意图分类数据集

文档评论意图分类数据集 数据来源:互联网公开数据 标签:文档评论,意图分类,CommonCrawl,文本分析,自然语言处理,商务文档,交互分析 数据概述: 本数据集收录了2013年至2020年间CommonCrawl文档库中所有docx文件的评论内容,涵盖近8年的数据。数据集中的每个评论句子均经过人工标注,标注字段包括level_0、level_1、level_2、level_3和level_4,这些字段代表了评论的层次分类。此外,数据集还包括了上下文相关的其他字段,如文件ID、评论日期、作者匿名昵称等。数据集用于研究文档中的评论处理和交互分析,提供了详细的分类系统以帮助理解评论的意图。 数据用途概述: 该数据集适用于文档评论意图分类研究、商务文档分析、自然语言处理等多种场景。研究人员可以利用此数据集进行评论意图的层次分类,从而更好地理解文档中的交互模式;企业可以利用数据优化文档管理流程;教育机构可以将其用于教学,帮助学生理解文档中的评论处理和交互机制。 字段描述: file_id: 文件标识符 comment_id: 评论框标识符 comment_date: 评论日期 anonymized_nickname: 作者匿名昵称 document_paragraph_text: 评论关联的文档段落文本 document_selected_text: 评论附加的文本选择部分 document_selected_sentences: 选定文本中的句子数量 comment_full_text: 评论的全部文本 comment_sentence_text: 评论被分割成的句子文本,标签(level_X)对应于此字段 is_sentence: 描述comment_sentence_text是否仅为一个句子或整个评论文本 num_sentence: 全评论文本中的句子数量 total_sentences: 评论中的总句子数量 grammar_checked: 是否在Microsoft Word中至少进行过一次语法检查 grammatical_errors: 文档中是否高亮显示了语法错误 has_replies: 评论框中是否包含回复 is_reply: 描述comment_sentence_text是否为评论框中的回复 num_reply: 回复在评论框中的顺序 num_replies: 评论框中总回复数量 is_resolved: 定义评论是否已解决 language_name: 评论文本推断的语言 num_hyperlinks: 选定文本中的链接数量 num_images: 选定文本中的图像数量 spelling_checked: 是否进行了拼写检查 spelling_errors: 文档中是否高亮显示了拼写错误 tracked_changes: 描述文档是否启用了更改跟踪 next_action: 消息留言后发生的后续操作 level_0: 主类别 level_1: 第一层类别 level_2: 第二层类别 level_3: 第三层类别 level_4: 第四层类别

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 14, 2025, 22:09 (UTC)
创建于 四月 14, 2025, 22:09 (UTC)