文档评论意图分类数据集
数据来源:互联网公开数据
标签:文档评论,意图分类,CommonCrawl,文本分析,自然语言处理,商务文档,交互分析
数据概述:
本数据集收录了2013年至2020年间CommonCrawl文档库中所有docx文件的评论内容,涵盖近8年的数据。数据集中的每个评论句子均经过人工标注,标注字段包括level_0、level_1、level_2、level_3和level_4,这些字段代表了评论的层次分类。此外,数据集还包括了上下文相关的其他字段,如文件ID、评论日期、作者匿名昵称等。数据集用于研究文档中的评论处理和交互分析,提供了详细的分类系统以帮助理解评论的意图。
数据用途概述:
该数据集适用于文档评论意图分类研究、商务文档分析、自然语言处理等多种场景。研究人员可以利用此数据集进行评论意图的层次分类,从而更好地理解文档中的交互模式;企业可以利用数据优化文档管理流程;教育机构可以将其用于教学,帮助学生理解文档中的评论处理和交互机制。
字段描述:
file_id: 文件标识符
comment_id: 评论框标识符
comment_date: 评论日期
anonymized_nickname: 作者匿名昵称
document_paragraph_text: 评论关联的文档段落文本
document_selected_text: 评论附加的文本选择部分
document_selected_sentences: 选定文本中的句子数量
comment_full_text: 评论的全部文本
comment_sentence_text: 评论被分割成的句子文本,标签(level_X)对应于此字段
is_sentence: 描述comment_sentence_text是否仅为一个句子或整个评论文本
num_sentence: 全评论文本中的句子数量
total_sentences: 评论中的总句子数量
grammar_checked: 是否在Microsoft Word中至少进行过一次语法检查
grammatical_errors: 文档中是否高亮显示了语法错误
has_replies: 评论框中是否包含回复
is_reply: 描述comment_sentence_text是否为评论框中的回复
num_reply: 回复在评论框中的顺序
num_replies: 评论框中总回复数量
is_resolved: 定义评论是否已解决
language_name: 评论文本推断的语言
num_hyperlinks: 选定文本中的链接数量
num_images: 选定文本中的图像数量
spelling_checked: 是否进行了拼写检查
spelling_errors: 文档中是否高亮显示了拼写错误
tracked_changes: 描述文档是否启用了更改跟踪
next_action: 消息留言后发生的后续操作
level_0: 主类别
level_1: 第一层类别
level_2: 第二层类别
level_3: 第三层类别
level_4: 第四层类别