数据集

文本连贯性评估伪标签数据集TextCoherenceEvaluationPseudo-labelingDataset-abdulkadirguner

数据来源：互联网公开数据

标签：文本连贯性, 自然语言处理, 伪标签, 文本分析, 机器学习, 文本特征, 语篇分析, 模型预测

数据概述：该数据集包含通过伪标签方法生成的文本连贯性评估数据，旨在辅助研究和开发文本连贯性分析模型。主要特征如下：时间跨度：数据未明确标注时间，可视为静态数据集。地理范围：数据来源未明确，但主要关注通用英语文本。数据维度：包括“text_id”（文本唯一标识符）、“text”（文本内容）、“property”（文本属性，可能与连贯性相关）、“dictor”（文本特征提取结果，以字典形式存储）、“feature_text”（文本特征，以字符串形式存储）、“featureCount_text”（特征计数）、“addname”（附加信息）、“special_skor”、“skori”、“prob”（模型预测概率或其他评分指标）。数据格式：数据集以CSV格式存储，包含多个文件，每个文件对应不同的fold或模型预测结果，并附带pickle文件用于存储中间结果。数据来源：数据来源未明确，但经过了伪标签处理，可能基于预训练模型或其他文本分析技术。该数据集适合用于文本连贯性评估模型的训练、验证和分析。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘等领域的研究，包括文本连贯性评估、语篇分析、文本质量评估等。行业应用：可应用于内容创作、写作辅助、自动摘要、机器翻译等领域，提升文本生成质量和用户体验。决策支持：支持内容审核、文本质量监控等方面的决策制定。教育和培训：可作为自然语言处理、文本分析等课程的实训素材，帮助学生理解和应用文本连贯性分析技术。此数据集特别适合用于探索文本连贯性与各种文本特征之间的关系，以及评估不同模型的预测性能，帮助用户提升文本分析模型的准确性和鲁棒性。

数据与资源

versions_20250412015523.zipZIP
152.21 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	152.21 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。