诡异语义分析数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

诡异语义分析数据集

数据集概述

该数据集包含计算语言学脚本的整理结果，基于语言学领域325篇德文学术文本（含AI生成与人类撰写），通过余弦相似度（阈值0.7）将词元聚类为语义类别，涵盖不同词性（名词、动词等）及组合的多次运行结果，提供可视化、成员列表及数值数据文件。

文件详解

热图文件（HTML格式）：
示例：adjectives_adverbs_heatmap.html、allcategories_heatmap.html等
内容：展示各AI模型在不同运行中100个最频繁的语义类别，类别值反映余弦相似度≥0.7的词元总频率
成员列表文件（TXT格式）：
示例：adverbs_members.txt、allcategories_members.txt等
内容：列出每次运行中各语义类别包含的词元，如“abbilden”类别包含abbilden、abzubilden、darstellen等词元
数值结果文件（XLSX格式）：
示例：adjectives_sheet.xlsx、verbs_sheet.xlsx等
内容：存储每次运行的完整数值结果，支持进一步统计分析

数据来源

GitHub：https://github.com/DayJay1992/SemanticAIAnalysis/

适用场景

计算语言学研究：分析AI生成文本与人类文本的语义聚类差异
自然语言处理应用：为德语文本语义分类模型提供训练或验证数据
学术文本分析：探究语言学领域学术文本的语义特征及AI生成文本的语义规律
统计分析：基于完整数值结果开展语义类别频率、分布等量化研究

数据与资源

15797828.zipZIP
31.60 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	31.6 MiB
最后更新	2025年12月8日
创建于	2025年12月8日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？