-
DRIP_Based_软件需求文档段落需求提取数据集
2026年1月31日 30 92 18
数据集概述 本数据集为DRIP项目相关的软件需求文档数据集,包含近五年RE、ICSE、REFSQ、REJ会议及期刊的软件需求文档数据,共4个归档文件,用于从软件需求文档段落中提取单个需求的任务。 文件详解 训练数据文件 文件名称:trainData.gz 文件格式:.gz 字段映射介绍:未提供具体字段信息 标注数据文件 文件名称:annotation...
-
漫画非约束文本检测数据集
2025年12月13日 30 23 2
数据集概述 该数据集为漫画非约束文本检测研究提供支持,包含四百五十张图像的文本分割数据,图像源自Manga109数据集(需单独申请访问)。数据分为预处理和后处理两个版本,文本标注采用黑色(易识别文本)和粉色(难检测文本)两种颜色区分。 文件详解 文件名称:post-processed.zip 文件格式:ZIP压缩包...
-
CVL_Ruling_Database_Based_基于ICDAR2013手写分割ruling数据集
2025年12月9日 30 207 161
数据集概述 该数据集为合成生成的CVL ruling数据集,用于比较不同的ruling去除方法。基于ICDAR 2013手写分割数据库,通过添加四种不同ruling图像生成六百张测试图像,包含背景、ruling、文本及重叠区域的像素值定义。 文件详解 文件名称: cvl-ruling-database.zip 文件格式: ZIP (.zip)...
-
学术论文写作文本结构分析数据集
2025年9月22日 30 66 42
学术论文写作文本结构分析数据集_Academic_Paper_Writing_Text_Structure_Analysis 数据来源:互联网公开数据 标签:文本分析, 自然语言处理, 论文写作, 结构化文本, 文本标注, 机器学习, 实体识别, 文本分割 数据概述:...
-
孟加拉语文本分割数据集BengaliTextSplitDataset-tushartalukder
2025年5月30日 30 173 37
孟加拉语文本分割数据集BengaliTextSplitDataset-tushartalukder 数据来源:互联网公开数据 标签:文本分割, 孟加拉语, 自然语言处理, 语料库, 文本分析, 机器翻译, 数据标注, 语言学 数据概述: 该数据集包含孟加拉语文本,记录了用于训练和评估文本分割模型的数据。主要特征如下:...
-
歌词分割数据集SplitLyricDataset-lehoanglonglong
2025年5月28日 30 117 43
歌词分割数据集SplitLyricDataset-lehoanglonglong 数据来源:互联网公开数据 标签:歌词,文本处理,数据集,自然语言处理,机器学习,文本分割,音乐分析,歌词识别 数据概述: 该数据集包含来自多种来源的歌词文本,记录了不同歌曲的歌词内容,并将其分割成单词或短语。主要特征如下:...
-
孟加拉语文本分句与分割数据集BengaliTextSentenceSegmentationandSplitDataset-jjleesunny
2025年5月21日 30 129 44
孟加拉语文本分句与分割数据集BengaliTextSentenceSegmentationandSplitDataset-jjleesunny 数据来源:互联网公开数据 标签:孟加拉语, 文本处理, 分句, 文本分割, 自然语言处理, 语料库, 机器学习, 语言学 数据概述:...
-
越南语水利工程管理专业问答数据集VietnameseWaterConservancyEngineeringManagementQADataset-ictunivers
2025年4月29日 30 122 6
越南语水利工程管理专业问答数据集VietnameseWaterConservancyEngineeringManagementQADataset-ictunivers 数据来源:互联网公开数据 标签:越南语, 问答系统, 水利工程, 文本分割, 语义理解, 知识图谱, 专业教育, 数据标注 数据概述:...
-
越南语用户评论情感分析数据集VietnameseUserReviewsSentimentAnalysis-phngnguynvit
2025年4月29日 30 99 22
越南语用户评论情感分析数据集VietnameseUserReviewsSentimentAnalysis-phngnguynvit 数据来源:互联网公开数据 标签:情感分析, 越南语, 自然语言处理, 文本分类, 用户评论, 数据标注, 机器学习, 文本分割 数据概述:...
-
大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl
2025年4月24日 30 183 137
大规模语言模型LLM生成文本分割数据集GSM-DataSplit-magnusgarl 数据来源:互联网公开数据 标签:自然语言处理,文本分割,数据集,大规模语言模型,文本处理,机器学习,数据增强,语言模型训练 数据概述: 该数据集包含用于评估和改进大规模语言模型(LLM)生成文本分割能力的数据。主要特征如下:...
-
拉丁语分割数据数据集LatinSplitDataDataset-nerdofdot
2025年4月24日 30 99 8
拉丁语分割数据数据集LatinSplitDataDataset-nerdofdot 数据来源:互联网公开数据 标签:拉丁语,数据集,文本分割,语言处理,数据挖掘,历史文献,自然语言处理,语言学研究 数据概述: 该数据集包含拉丁语的文本分割数据,记录了拉丁语文本的分割和标注信息。主要特征如下:...
-
TED演讲文本主题分析与文本分割数据集-2020年5月1日
2025年4月18日 30 52 12
TED演讲文本主题分析与文本分割数据集-2020年5月1日 数据来源:互联网公开数据 标签:TED演讲,文本,演讲,文本分割,自然语言处理,机器学习,主题分析,演讲稿,NLP 数据概述: 本数据集包含了从TED.com网站抓取的TED演讲稿文本,每个演讲稿被分割成段落。演讲视频列表来源于“TED Talks Transcripts for...



