-
商品向量相似度分析数据集
2026年2月22日 30 13 3
商品向量相似度分析数据集_Product_Vector_Similarity_Analysis 数据来源:互联网公开数据 标签:商品推荐, 向量分析, 相似度计算, 机器学习, 嵌入, 文本分析, 亚马逊, 电商 数据概述: 该数据集包含来自电商平台(如亚马逊)的商品信息,记录了商品经过嵌入处理后的向量表示及其相似度关系。主要特征如下:...
-
论文写作结构要素识别评估数据集
2026年2月22日 30 77 49
论文写作结构要素识别评估数据集_Essay_Structure_Element_Recognition_Evaluation 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 论文写作, 结构识别, 机器学习, 评估, 文本标注, 深度学习 数据概述: 该数据集包含用于评估论文写作结构要素识别模型性能的评估结果。主要特征如下:...
-
医学文献摘要与全文分析数据集
2026年2月22日 30 173 33
医学文献摘要与全文分析数据集_Medical_Literature_Abstract_and_Full_text_Analysis_Dataset 数据来源:互联网公开数据 标签:医学文献, 文本分析, 生物医学, 摘要, 全文, 自然语言处理, 论文分析, 知识发现 数据概述:...
-
学术论文标题与作者信息数据集
2026年2月21日 30 84 33
学术论文标题与作者信息数据集_Academic_Paper_Title_and_Author_Information_Dataset 数据来源:互联网公开数据 标签:学术论文, 标题, 作者, 信息检索, 自然语言处理, 文本分析, 数据挖掘, 学术研究 数据概述:...
-
社交媒体图片内容分析数据集
2025年8月20日 60 204 34
社交媒体图片内容分析数据集_Social_Media_Image_Content_Analysis_Dataset 数据来源:互联网公开数据 标签:社交媒体, 图像分析, 文本挖掘, 数据挖掘, 图像识别, 机器学习, 文本分析, 数据可视化 数据概述:...
-
文本主题建模测试数据集
2026年2月21日 30 8 2
文本主题建模测试数据集_Text_Topic_Modeling_Test_Data 数据来源:互联网公开数据 标签:文本分析, 主题建模, 词频统计, TF-IDF, 数据预处理, 机器学习, 文本挖掘, 自然语言处理 数据概述: 该数据集包含预处理后的文本数据,主要用于测试主题建模算法的性能。主要特征如下:...
-
电影标题与年份信息数据集
2026年2月19日 30 8 6
电影标题与年份信息数据集_Movie_Titles_and_Years_Information 数据来源:互联网公开数据 标签:电影, 标题, 年份, 影视, 数据集, 文本数据, 电影数据库, 数据分析 数据概述: 该数据集包含电影标题和年份信息,来源于公开数据。主要特征如下:...
-
维基百科评论毒性分析数据集
2025年10月30日 60 191 52
维基百科评论毒性分析数据集_Wikipedia_Comments_Toxicity_Analysis_Dataset 数据来源:互联网公开数据 标签:文本分析, 情感分析, 毒性检测, 维基百科, 自然语言处理, 评论数据, 机器学习, 多语言 数据概述:...
-
招聘信息文本分析数据集-harsh221upadhyay
2025年4月24日 90 199 190
招聘信息文本分析数据集-harsh221upadhyay 数据来源:互联网公开数据 标签:招聘,职位描述,自然语言处理,文本分析,机器学习,行业分析,人才市场,数据挖掘 数据概述: 该数据集包含了来自互联网的招聘信息文本数据,主要记录了各类职位的详细描述。主要特征如下: 时间跨度: 数据记录的时间范围为近期,具体时间跨度取决于数据来源的更新频率。...
-
数据集_100个中印尼商务词汇条目
2026年2月15日 30 187 66
数据集概述 本数据集包含一百个汉印尼商务领域的双语词汇条目,以单一Excel文件形式呈现,未划分训练测试集、数据标签集或原始处理集,旨在为商务场景下的汉印尼词汇翻译与学习提供结构化参考。 文件详解 文件名称:100 Chinese–Indonesian Business Vocabulary Items Dataset.xlsx 文件格式:XLSX...
-
IN02006_Sanskrit_Epidoc梵语铭文XML数据
2026年2月13日 30 83 80
数据集概述 本数据集为Lajampat Trivikrama Pedestal of Manadeva铭文的梵语XML文件,是Epidoc格式的草稿版本,计划纳入Siddham档案。数据集包含1个XML文件,无元数据,文件类型单一。 文件详解 文件名称:IN02006.xml 文件格式:XML...
-
Amazon_MT_Based手机多语言评论数据
2026年2月9日 30 204 108
数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
-
forTEXT_Based_文学文本情感分析标签集
2026年2月9日 30 59 47
数据集概述 本数据集为适用于文学文本情感元素分析的标签集,基于结构导向的情感研究方法,包含文学人物情感类型分析的基础类别,可作为情感分析的入门工具,帮助研究者识别和分类文学文本中的情感表达,数据集包含1个文件。 文件详解 文件名称:forTEXT_Tagset_Emotionsanalyse.xml 文件格式:XML...
-
用于文本解析的基于文本的解释方法_文本分析与文学文本标注标签集
2026年2月9日 30 115 113
数据集概述 本数据集为用于文学研究文本标注的标签集“Interpretationstexte analysieren”,提供分析文学解释文本结构特征和其他属性的分类体系,也可用于一般科学文本标注,支持按需扩展或调整。数据集包含一个XML格式文件。 文件详解...
-
TextGrid_CC_BY_3_0授权_XML格式语料库数据
2026年1月28日 30 169 166
数据集概述 本数据集为XML格式的文本语料库压缩包,所有文本源自TextGrid平台,由Katrin Dennerlein博士整理。语料库采用CC-BY 3.0协议授权,相关研究在《席勒-克莱斯特不确定性原理》中被提及,可用于计算机语言学或文本分析相关研究。 文件详解 文件名称:XML.zip 文件格式:ZIP(压缩包)...
-
Andromaque_Tragedie_戏剧作品XML元数据
2026年2月8日 30 14 1
数据集概述 本数据集包含戏剧作品《Andromaque Tragédie》的XML格式文件,无额外目录结构或数据拆分,核心为单份戏剧相关元数据文件,可用于戏剧文学的文本分析或元数据研究。 文件详解 核心文件:EMOTHE0719_AndromaqueTragedie.xml 文件格式:XML 内容说明:包含《Andromaque...
-
C_SSRS_Based_Reddit用户自杀风险标注数据集
2026年2月8日 30 36 6
数据集概述 本数据集包含Reddit平台r/SuicideWatch等心理健康相关子版块用户的自杀风险评估数据。通过哥伦比亚自杀严重程度评定量表(C-SSRS),由领域专家对448名用户标注为支持性、自杀意念、自杀行为、自杀尝试四类标签,标注者间一致性达0.76。数据集含7个文件,覆盖匿名用户帖子及标注信息,为社交媒体自杀风险分析提供支撑。 文件详解...
-
evoting_Sentiment_电子投票情感分析数据集
2026年2月7日 30 103 29
数据集概述 本数据集包含电子投票相关的情感数据,涵盖原始、清理后的电子投票数据文件及情感标签文件,共4个文件。数据用于电子投票场景下的文本情感分析,包含不同处理阶段的电子投票文本数据及对应的情感标签,可支持情感分析模型训练与验证。 文件详解 电子投票原始数据文件 文件名称:evotingall.xlsx 文件格式:XLSX...
-
Sammlung_GPT3_5_数据文档集合
2026年2月1日 30 194 180
数据集概述 本数据集为GPT3.5相关的数据文档集合,包含四十七份文档文件,涵盖化学、生物、地理、历史、艺术、体育等学科信息,以及短篇故事、问题讨论、语言学习等内容,所有文件均为DOCX格式。 文件详解 文档文件(Document files)...
-
GPT_4_Turbo_沙特法律文件翻译数据
2026年2月1日 30 119 113
数据集概述 本数据集包含由GPT-4 Turbo翻译的14份沙特阿拉伯法律文件,均为Excel格式。涵盖基础治理法、司法法、诉讼程序法、专利法等多个法律领域,无目录结构,文件直接存储,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称与格式:14个文件均为.xlsx格式,包括《Basic Law of...



