-
文本脚本分析代码与自动视频生成资源集
数据集概述 本数据集包含用于文本脚本分析及自动视频生成的研究代码与资源,提供文本预处理、角色/关系/情感/时空信息提取等功能,辅助从文本生成计算场景,适用于自然语言处理、信息检索等领域。 文件详解 该数据集包含代码、文档与数据文件,具体说明如下: - 代码文件(.ipynb格式,共5个): -...
-
生物医学论文中机器人实验室方法应用潜力数据集
数据集概述 本数据集为研究“基础生物医学研究中机器人实验室使用指标”的文章配套数据,包含论文标注统计结果、期刊列表、方法频率统计等文件,采用2015年医学主题词表(MeSH)进行标注,支持机器人实验室方法在生物医学领域应用潜力的分析。 文件详解 该数据集包含15个文件,按类型分组说明如下: - 数据文件(10个): -...
-
Reddit跨主题作者身份验证语料库
数据集概述 该数据集包含2010至2016年间1000名Reddit用户的评论内容,每个问题包含1篇未知文档和4篇已知文档(每篇约7KB),文档由同一子版块评论聚合而成,且问题内文档子版块不重叠,覆盖1388个不同主题,格式与PAN作者身份识别语料库一致。 文件详解 文件名称: Reddit_Cross-Topic-AV-...
-
Elsevier生物CADDIE2016数据集检索挑战赛数据与代码
数据集概述 本数据集包含Elsevier DataSearch团队参与2016年生物CADDIE数据集检索挑战赛的相关数据与代码,涵盖检索系统构建、查询处理、词典创建等模块的实现文件,支持生物医学数据集检索任务的复现与分析。 文件详解 该数据集包含多个文件和压缩包,具体说明如下: - 参赛提交文件: - elsevier-...
-
互联网基础设施数据库
数据集概述 该数据集为互联网基础设施数据库(IIDB),包含三个子数据库,分别为iidb.rfc、iidb.person和iidb.acronym,所有数据均以JSON格式存储,便于多编程语言访问。 文件详解 数据文件(JSON格式): iidb.acronym20190316.json:存储与RFC相关的缩写词数据,源自RFC...
-
推特对话中的讽刺语料库
数据集概述 该数据集为包含两部分作者-受众推特对话的语料库,附带人工标注的讽刺极性标签,可用于研究推特对话中的讽刺识别,以CSV格式存储核心数据。 文件详解 文件名称:sarcasm_corpus.csv 文件格式:CSV 字段映射: author:目标推文的ID编号 audience:对话中另一推文的ID编号...
-
维基百科双语单标签语料库
数据集概述 该数据集是一个西班牙语-英语双语单标签语料库,包含英文文档3019篇、西班牙文文档832篇,覆盖文化艺术、地理与地点、数学与逻辑三类主题,可用于自然语言处理相关研究。 文件详解 文件名称: wikipedia_corpus.zip 文件格式: ZIP (.zip) 内容说明: 可能包含语料库的核心数据文件,如文本数据及分类标签等 文件名称:...
-
印度泰米尔纳德邦土地资产文档图像数据集
数据集概述 该数据集包含八百四十七份土地资产文档图像及对应文本数据样本,基于印度泰米尔纳德邦主要使用的土地资产文档构建,文本样本仅保留研究所需列,含虚构人名,无实际关联。 文件详解 主目录文件(Land Asset Document Images/): 格式:JPG(.jpg)...
-
孟加拉语时态语料库
数据集概述 该数据集是一个全面的孟加拉语文本语料库,按现在时、过去时、将来时三类时态分类。包含13500个孟加拉语句子,三类时态句子数量分布均衡,覆盖当代语言使用场景,为孟加拉语时态相关研究提供数据支持。 文件详解 文件名称: BengaliTenseCorpus.xlsx 文件格式: XLSX (.xlsx) 内容说明:...
-
CATCH孟加拉语翻译支持文档集
数据集概述 该数据集为Chedoke-McMaster残障儿童态度量表(CATCH)的英文问卷翻译成孟加拉语版本的支持文档集,包含正向翻译、反向翻译、合成文档及原始量表等文件。 文件详解 文件名称:CATCH Bangla/Forward translation 1.docx、CATCH Bangla/Forward translation...
-
DFD转PseInt伪代码T5模型训练数据集
数据集概述 该数据集用于训练T5 transformer模型,实现从DFD图代码到PseInt伪代码的转换。包含两千三百五十条训练数据,每条数据对应DFD图代码输入与PseInt伪代码输出的映射关系。 文件详解 文件名称: Dataset_DFD2PSEINT/DFD2PSEINT.csv 文件格式: CSV (.csv) 字段映射:...
-
印尼语_英语混合语料数据集
数据集概述 该数据集包含印尼语与英语混合的双语文本,用于支持情感分析和词性标注任务。数据来源包括Google Play Store应用评论、印尼维基百科及英语维基百科,分预训练语料库、情感分析语料库和词性标注语料库三部分,覆盖真实场景下的混合语言表达。 文件详解 情感分析语料库文件(位于Code Mixed Dataset/Sentiment...
-
词汇整体加工半球不对称性反应时数据集
数据集概述 该数据集为关于词汇整体加工半球不对称性研究的反应时(RT)数据,聚焦大脑左右半球在词汇整体加工过程中的差异,以Excel格式存储,为探究语言认知的半球偏侧化机制提供数据支持。 文件详解 文件名称: Hemisphere asymmetry in holistic processing of words-RTs.xlsx 文件格式:...
-
金融新闻标题情感标注数据集
数据集概述 该数据集包含通过BeautifulSoup从新闻网站提取的金融新闻标题数据,附带“积极”“消极”“中性”三类情感标签,共约一万八千行记录,可用于大语言模型的情感分析任务微调。 文件详解 数据文件 final_sent_headline_df_Balanced.xlsx:...
-
中小企业TikTok联盟营销消费者反馈数据集
数据集概述 该数据集收集了TikTok平台上中小企业(MSMEs)推广麻辣通心粉产品的消费者评论,包含社交媒体特有的非正式语言、俚语等。通过LDA主题建模分析,聚焦产品口感、消费动机、定价及价值感知等主题,支持数字营销、消费者行为及自然语言处理研究。 文件详解 该数据集包含一个CSV格式的数据文件,具体说明如下: - 文件名称: Exploring...
-
项目与上下文信息延迟依赖遗忘数据集
数据集概述 该数据集围绕项目与上下文信息的延迟依赖遗忘研究,包含三个实验的原始数据、希伯来语词汇词典及词汇语义距离矩阵,为探究时间延迟对记忆信息遗忘的影响提供数据支持。 文件详解 实验数据文件(CSV格式):...
-
圣保罗城市交通映射数据集
数据集概述 本数据集围绕圣保罗城市交通映射主题,包含SPTrans脸书页面评论数据,涉及词性标注、情感词典列表等内容,通过三种不同格式文件呈现原始或处理后的文本数据,为研究城市交通相关公众反馈提供支持。 文件详解...
-
欧洲议会文件在线调查数据集2015
数据集概述 本数据集是2015年Alastair Dunning和Martin Schaller在Europeana Cloud项目中生成的,围绕欧洲议会文件数字化及发布情况展开的调查数据,包含调查数据文件和配套说明文档。 文件详解 文件名称:Survey of European Parliamentary Papers Online (public)...
-
波利尼西亚语境下哲学实践分析_转型与变革主题案例
数据集概述 该数据集为波利尼西亚语境下哲学实践的分析案例,围绕转型与变革主题展开,包含法国波利尼西亚大学博士论文相关的哲学讨论转录文本及半结构化访谈内容,涉及学校场景的哲学讨论与事后对参与实验母亲的访谈。 文件详解 文件名称: Deprez, S. (2022) Corpus du thème de la transformation, du...
-
生物医学信息本体概念嵌入语义相关性测量数据集
数据集概述 本数据集围绕生物医学信息本体的概念嵌入与语义相关性测量展开,通过扩展UMLS2015AB中CUI术语的维基百科定义信息,采用文档嵌入技术生成术语向量表示,为生物医学领域语义相似性模型研究提供数据支持。 文件详解 文件名称: MRDEF_WIKI_DOC_LABEL_PATH.csv 文件格式: CSV 字段示例:...



