数据集

问答社区问题质量评估数据集QuestionQualityAssessmentDataset-yiningyan366

数据来源：互联网公开数据

标签：问答社区, 问题质量, 自然语言处理, 文本分析, 标注数据, 机器翻译, 情感分析, 深度学习

数据概述：该数据集包含来自Stack Exchange和Wikipedia的数据，记录了问答社区中问题的文本内容及其质量评估结果。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料库。地理范围：数据来源为Stack Exchange和Wikipedia，覆盖全球用户贡献的问答内容。数据维度：包括“Community”（问题所属社区）、“Id”（问题唯一标识）、“Request”（问题文本）、“Score1-Score5”（五个独立评估者的评分）、“TurkId1-TurkId5”（对应评估者的Turk ID）、“Normalized Score”（标准化后的问题质量评分）等字段。数据格式：主要以CSV格式提供，包括stack-exchange.annotated.csv和wikipedia.annotated.csv两个文件，便于结构化数据分析。此外，还包含BERT模型相关的配置文件和模型文件，如config.json, model.safetensors, tokenizer.json等。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘、情感分析等领域的研究，如问题质量评估模型的构建、问题语义理解、用户提问行为分析等。行业应用：可用于构建问答社区的质量监控系统，提升用户体验，改进内容推荐算法，以及优化社区管理策略。决策支持：支持对问答社区内容的质量进行量化评估，为社区运营提供数据支持，辅助决策。教育和培训：可作为自然语言处理、机器学习等课程的实训数据集，帮助学生和研究人员理解问题质量评估的流程与方法。此数据集特别适合用于探索影响问题质量的因素，构建问题质量预测模型，并提升问答社区的用户参与度和内容价值。

数据与资源

versions_20250331153317.zipZIP
387.98 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	387.98 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

问答社区问题质量评估数据集QuestionQualityAssessmentDataset-yiningyan366

数据与资源

附加信息

注册成功！