数据集 - 海数据

数据集概述本数据集是论文《基于系统模型和人工智能的应用用户评论中非功能需求自动分类》的复现包，包含实验所用的1278条标注非功能需求用户评论数据及文件说明，用于支持其他研究者复现实验，核心内容为标注后的用户评论句子及对应非功能需求类别。文件详解 dataset文件夹文件名称：dataset_user_reviews.xlsx 文件格式：XLSX...

ZIP

HyperPhS_Based_文本嵌入数据与预训练模型_Processed

数据集概述本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型，核心为三类文本嵌入JSON文件与一个模型文件，总计4个文件，无目录层级，主要用于自然语言处理相关任务的模型应用与文本分析。文件详解文本嵌入数据文件（共3个）...

ZIP

数据20Newsgroup_Based_机器学习解释评估人工标注词权重数据

数据集概述本数据集是论文“Quantitative Evaluation of Machine Learning Explanations: A Human-Grounded...

ZIP

Siddham_待整合_IN02040昌古纳拉扬神庙梵语铭文草稿XML数据

数据集概述本数据集为昌古纳拉扬神庙前的IN02040铭文相关数据，包含一份无元数据的梵语XML文件，是拟纳入“Siddham”档案的EpiDoc格式草稿版本，可用于梵语铭文的数字化研究与文献存档。文件详解文件名称：IN02040.xml 文件格式：XML...

ZIP

Electric_car_Based_电动汽车社交媒体话语机器学习分析数据

数据集概述本数据集围绕“用机器学习分析电动汽车社交媒体话语”主题构建，包含1个文件，核心为电动汽车相关社交媒体话语的分析数据，可用于研究电动汽车在社交媒体中的讨论特征，支持机器学习相关分析应用。文件详解文件名称：Electric car.xlsx 文件格式：XLSX...

ZIP

TABR_BERT_Supplementary_Table_5模型补充数据

数据集概述本数据集为TABR-BERT相关的补充表格数据，包含1个文件，主要用于支持TABR-BERT模型相关研究或分析，提供模型相关的辅助信息，文件类型以xlsx格式为主，无训练测试、数据标签等划分。文件详解文件名称：Supplementary Table 5.xlsx 文件格式：xlsx...

ZIP

DH_RSE_2024年夏季学校研讨会第三组_莎士比亚作品文本分析数据压缩包

数据集概述本数据集为基于文本分析的莎士比亚作品语言特征研究相关数据，以压缩包形式提供，包含1个文件，无目录结构，未区分训练/测试、数据/标签或原始/处理数据，可用于莎士比亚作品语言特征的分析研究。文件详解文件名称：DH-RSE-Summer-School-2024-Workshop-Team3-main.zip 文件格式：ZIP...

ZIP

business_schools_dataset_全球顶尖商学院博客分析数据

数据集概述本数据集聚焦全球顶尖商学院博客内容分析，样本来源于三大2022年商学院排名（CEOWORLD、QS、FT）交叉筛选出的38所顶尖商学院，旨在为教育研究提供结构化的博客文本数据基础。文件详解文件名称：business_school_dataset.xlsx 文件格式：XLSX...

ZIP

IN02012_Siddham_Based梵语铭文Epidoc草稿XML数据

数据集概述本数据集为IN02012号Changunarayana神像基座铭文的梵语XML文件，是Epidoc格式的草稿版本，不含元数据，计划纳入Siddham档案。数据集仅包含一个文件，用于记录和保存该考古铭文的数字化内容。文件详解文件名称：IN02012.xml 文件格式：XML...

ZIP

Water_Resources_Research_州际河流流域治理评估分析数据

数据集概述本数据集包含经预处理的机构数据，用于州际水资源治理分析。数据通过研究论文支持信息中描述的步骤S1.1至S1.4处理，涉及科罗拉多河流域、黄河流域、墨累-达令河流域的治理文件，共10个文件。文件详解处理后的治理文件（Processed governance documents）...

ZIP

Jack_the_Ripper_Corpus_开膛手杰克信件语料库数据v1_0

数据集概述本数据集为开膛手杰克信件语料库v1.0，包含与开膛手杰克相关的信件文本集合，是用于历史研究和文本分析的语料资源。数据集以压缩包形式存储，未进行训练测试、数据标签或原始处理数据的拆分。文件详解文件名称：andreanini/jacktherippercorpus-v1.0.zip 文件格式：ZIP（压缩包）...

ZIP

BhashaHMPV_Based印度区域语言HMPV多语言新闻与事实核查数据集

数据集概述本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章，覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章，利用Google Fact-Check API获取事实核查文章，经预处理和词干提取后整理为结构化文件，可用于多语言医疗文本分析研究。文件详解...

ZIP

Shared_Research_Repository_BL报纸样本纯文本数据集

数据集概述本数据集包含Shared Research Repository发布的报纸文章纯文本数据，以压缩包形式提供，可用于自然语言处理相关的文本分析任务，总计包含一个文件。文件详解压缩文件文件名称：newspaper_text.zip 文件格式：ZIP...

ZIP

IN02069_Draft_Epidoc_Tebahal石刻铭文梵语XML数据

数据集概述本数据集包含IN02069 Tebahal石刻铭文的梵语XML文件，为Epidoc格式的草稿版本，无元数据，将纳入"Siddham"档案。数据集仅含1个文件，用于石刻铭文的数字化保存与研究。文件详解文件名称：IN02069.xml 文件格式：XML...

ZIP

IN02055_Sanskrit_EpiDoc格式Thimi铭文残片XML草稿

数据集概述本数据集为IN02055 Thimi铭文残片的梵语XML文件，采用EpiDoc格式的草稿版本，不含元数据，计划纳入“Siddham”档案。数据集仅包含1个XML文件，无目录层级，未进行训练/测试、数据/标签或原始/处理数据的拆分。文件详解文件名称：IN02055.xml 文件格式：XML...

ZIP

DIPROMATS_2024_Shared_Task_2_叙事识别小样本训练数据

数据集概述本数据集是DIPROMATS 2024共享任务2的小样本训练数据，用于叙事识别任务。叙事是指有因果联系的事件序列，在国际关系领域，国际行为体通过战略叙事构建国际政治的过去、现在和未来的共同意义。数据集包含英文和西班牙文两种语言的训练数据，共2个文件。文件详解文件名称：dipromats24_t2_train_en_ids.json...

ZIP

IN02085_EpiDoc_梵语铭文XML草稿版_Siddham档案待整合数据