-
基因序列Kmer特征训练与测试数据集
2026年3月11日 30 166 48
基因序列Kmer特征训练与测试数据集_Gene_Sequence_Kmer_Feature_Training_and_Testing_Dataset 数据来源:互联网公开数据 标签:基因组学, Kmer分析, 序列比对, 生物信息学, 机器学习, 文本挖掘, 数据集, 序列特征 数据概述:...
-
产品评论情感分析数据集-aslemimolu
2025年4月26日 60 107 10
产品评论情感分析数据集-aslemimolu 数据来源:互联网公开数据 标签:产品评论,情感分析,自然语言处理,文本挖掘,机器学习,情感分类,用户反馈,舆情分析 数据概述:该数据集包含来自各种来源的产品评论数据,记录了用户对不同产品的评价和反馈。主要特征如下: 时间跨度:数据记录的时间范围不固定,涵盖了不同时间段的产品评论。...
-
学术论文引用关系分析数据集
2026年3月5日 30 62 14
学术论文引用关系分析数据集_Academic_Paper_Citation_Analysis 数据来源:互联网公开数据 标签:学术论文, 引文分析, 论文引用, 学术研究, 文本挖掘, 数据分析, 科研评价, 知识图谱 数据概述: 该数据集包含来自学术论文的数据,记录了论文的引用关系。主要特征如下:...
-
社交媒体药品情感分析数据集
2026年3月2日 30 201 2
社交媒体药品情感分析数据集_Social_Media_Drug_Sentiment_Analysis_Dataset 数据来源:互联网公开数据 标签:情感分析, 药品, Reddit, 社交媒体, 文本挖掘, 自然语言处理, 情感极性, 主观性 数据概述:...
-
医学论文主题分析与词向量模型数据集
2026年2月28日 30 186 183
医学论文主题分析与词向量模型数据集_Medical_Paper_Topic_Analysis_and_Word_Embedding_Model_Dataset 数据来源:互联网公开数据 标签:医学论文, 主题分析, 词向量模型, 自然语言处理, 文本挖掘, 机器学习, 论文摘要, 文本语料 数据概述:...
-
社交媒体舆情分析Reddit评论数据集
2026年2月26日 30 164 6
社交媒体舆情分析Reddit评论数据集_Social_Media_Sentiment_Analysis_Reddit_Comments 数据来源:互联网公开数据 标签:社交媒体, 舆情分析, 情感分析, 文本挖掘, Reddit, 自然语言处理, 数据标注, 用户评论 数据概述:...
-
文本分类TF_IDF特征数据集
2026年2月22日 30 60 35
文本分类TF_IDF特征数据集_Text_Classification_TF_IDF_Features 数据来源:互联网公开数据 标签:文本分类, TF-IDF, 机器学习, 特征工程, 自然语言处理, 情感分析, 文本挖掘, 数据集 数据概述: 该数据集包含经过TF-IDF(Term Frequency-Inverse Document...
-
电商平台商品评论情感分析数据集
2026年2月21日 30 181 32
电商平台商品评论情感分析数据集_E_commerce_Platform_Product_Review_Sentiment_Analysis 数据来源:互联网公开数据 标签:情感分析, 文本挖掘, 机器学习, 商品评论, 情感分类, 自然语言处理, 数据标注, 电商行业 数据概述:...
-
社交媒体图片内容分析数据集
2025年8月20日 60 89 18
社交媒体图片内容分析数据集_Social_Media_Image_Content_Analysis_Dataset 数据来源:互联网公开数据 标签:社交媒体, 图像分析, 文本挖掘, 数据挖掘, 图像识别, 机器学习, 文本分析, 数据可视化 数据概述:...
-
文本主题建模测试数据集
2026年2月21日 30 124 105
文本主题建模测试数据集_Text_Topic_Modeling_Test_Data 数据来源:互联网公开数据 标签:文本分析, 主题建模, 词频统计, TF-IDF, 数据预处理, 机器学习, 文本挖掘, 自然语言处理 数据概述: 该数据集包含预处理后的文本数据,主要用于测试主题建模算法的性能。主要特征如下:...
-
餐饮用户评价与评分数据集
2026年2月17日 30 164 50
餐饮用户评价与评分数据集_Restaurant_User_Ratings_and_Reviews 数据来源:互联网公开数据 标签:用户评价, 餐饮, 评分, 评论分析, 情感分析, 推荐系统, 消费者行为, 文本挖掘 数据概述: 该数据集包含来自餐饮平台的用户评价数据,记录了用户对餐厅的评分和评论。主要特征如下:...
-
多语种越狱数据集
2026年2月15日 30 79 40
数据集概述 本数据集为多语种越狱数据集,包含一个Excel文件,未进行训练/测试、数据/标签、原始/处理等数据拆分,未提供自述文件或内容预览,可用于多语种文本相关的研究与分析。 文件详解 文件名称:多语种越狱数据集.xlsx 文件格式:XLSX 字段映射介绍:未提供内容预览,具体字段信息暂不明确 适用场景 多语种文本数据挖掘:...
-
CLAO_全唐诗宋词自动标注补充数据
2026年2月15日 30 166 64
数据集概述 本数据集包含全唐诗和全宋词的完整诗歌内容,通过Community annotator工具进行自动标注,是论文“Leveraging graph algorithms to speed up the annotation of large rhymed corpora”的补充材料,可用于古典文学文本的标注研究与分析。 文件详解...
-
Papers_With_Code_Based_软件提及语料库数据
2026年2月12日 0 7 6
数据集概述 本数据集是从Papers With Code平台下载的出版物列表中构建的软件提及语料库,通过筛选包含GitHub仓库元数据的论文文本生成。数据集仅包含一个压缩文件,未划分训练/测试集、数据/标签集或原始/处理集,文件类型单一。 文件详解 文件名称:papers_with_code_corpus.zip 文件格式:ZIP(压缩包)...
-
通用新闻_基于赫恩胡特弟兄会历史档案的通讯转录数据
2026年1月31日 30 47 26
数据集概述 本数据集为Herrnhut联合档案馆(Unitätsarchiv Herrnhut)数字化的弟兄联盟(Unitäs Fratrum / Moravian Church)历史通讯《Gemein-Nachrichten》1807年第一部分第29号的转录数据,包含基于XML-...
-
VAW_Based暴力侵害妇女新闻文本挖掘研究数据
2026年2月9日 30 8 5
数据集概述 本数据集为暴力侵害妇女(VAW)相关研究的文本挖掘数据,包含从MongoDB数据库提取的真实VAW新闻内容,记录新闻的日期、标题及正文,用于通过文本挖掘技术开展主题建模研究,探索VAW相关社会问题。 文件详解 Noticias.metadata.json 文件格式:JSON...
-
p_hacking_Based科学文献偏倚研究数据集
2026年2月9日 30 87 55
数据集概述 本数据集围绕科学文献中的p-hacking现象展开,通过文本挖掘方法展示p-hacking在科学领域的普遍性,同时提供元分析中检测p-hacking的方法,验证其对实际效应量的影响程度。数据旨在揭示科研结果偏倚问题,为科研诚信研究提供支持。 文件详解 文件名称:FILES_FOR_DRYAD.zip 文件格式:ZIP...
-
TextGrid_CC_BY_3_0授权_XML格式语料库数据
2026年1月28日 30 191 88
数据集概述 本数据集为XML格式的文本语料库压缩包,所有文本源自TextGrid平台,由Katrin Dennerlein博士整理。语料库采用CC-BY 3.0协议授权,相关研究在《席勒-克莱斯特不确定性原理》中被提及,可用于计算机语言学或文本分析相关研究。 文件详解 文件名称:XML.zip 文件格式:ZIP(压缩包)...
-
COVID_19_Based_临床试验蛋白质与化学品提及列表数据
2026年1月28日 30 55 45
数据集概述 本数据集记录了COVID-19相关临床试验中提及的所有蛋白质、化学品和基因名称,数据来源于ClinicalTrials.gov数据库。通过自动化文本挖掘管道动态标注数据库条目,随数据库更新同步更新,为解锁临床试验数据中的潜在见解提供支持。 文件详解 文件名称:trial.json 文件格式:JSON...
-
cProt_Based_人类癌症类型文档数据
2026年2月1日 30 175 15
数据集概述 本数据集包含一份关于人类癌症类型的文档数据,核心内容围绕人类癌症的分类展开,为癌症相关研究提供基础参考资料。数据集仅包含一个文件,无目录结构,未进行训练/测试、数据/标签等划分。 文件详解 文件名称:Types of Cancer in Human-file from charli 02-04-2019.docx 文件格式:docx...



