诡异语义分析数据集

数据集概述

该数据集包含计算语言学脚本的整理结果,基于语言学领域325篇德文学术文本(含AI生成与人类撰写),通过余弦相似度(阈值0.7)将词元聚类为语义类别,涵盖不同词性(名词、动词等)及组合的多次运行结果,提供可视化、成员列表及数值数据文件。

文件详解

  • 热图文件(HTML格式):
  • 示例:adjectives_adverbs_heatmap.html、allcategories_heatmap.html等
  • 内容:展示各AI模型在不同运行中100个最频繁的语义类别,类别值反映余弦相似度≥0.7的词元总频率
  • 成员列表文件(TXT格式):
  • 示例:adverbs_members.txt、allcategories_members.txt等
  • 内容:列出每次运行中各语义类别包含的词元,如“abbilden”类别包含abbilden、abzubilden、darstellen等词元
  • 数值结果文件(XLSX格式):
  • 示例:adjectives_sheet.xlsx、verbs_sheet.xlsx等
  • 内容:存储每次运行的完整数值结果,支持进一步统计分析

数据来源

GitHub:https://github.com/DayJay1992/SemanticAIAnalysis/

适用场景

  • 计算语言学研究:分析AI生成文本与人类文本的语义聚类差异
  • 自然语言处理应用:为德语文本语义分类模型提供训练或验证数据
  • 学术文本分析:探究语言学领域学术文本的语义特征及AI生成文本的语义规律
  • 统计分析:基于完整数值结果开展语义类别频率、分布等量化研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 31.6 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。