找到109个数据集

标签: 文本检测

过滤结果
  • Amazon_Based_移动设备用户评论数据集

    2026年2月1日 30 19 17

    数据集概述 本数据集包含亚马逊平台上移动设备的用户评论数据,以单一文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据集,主要用于分析移动设备用户的反馈内容。 文件详解 文件名称:Amazon_Unlocked_Mobile.xlsx 文件格式:XLSX...
    packageimg
  • SBL_2020_撒母耳记下拉丁旁注文本案例完整数据

    2026年1月31日 30 115 68

    数据集概述 本数据集是为2020年SBL会议论文《撒母耳记下的拉丁旁注(LaM)文本案例》收集的结构化数据,包含撒母耳记下卷中所有拉丁旁注文本案例的整理结果,为圣经文本批评与拉丁旁注研究提供标准化参考资料。数据集仅包含一个文件。 文件详解 文件名称:Marginal_Latin_cases_1.0.xlsx 文件格式:XLSX 字段映射介绍:作为SBL...
    packageimg
  • Transcrição_访谈转录_半结构化访谈完整数据

    2026年1月30日 30 11 9

    数据集概述 本数据集包含半结构化访谈的转录内容,以文档形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型单一为文档格式,是获取访谈原始转录信息的基础资料。 文件详解 文件名称:TRANSCRIÇÃO DAS ENTREVISTAS COMPARTILHADA.docx 文件格式:DOCX...
    packageimg
  • Oupoco_Based_法语十四行诗库_文学创作数据

    2026年1月30日 30 81 49

    数据集概述 本数据集是Oupoco项目框架下开发的法语十四行诗库,包含四千八百七十首十四行诗,主要来自十九世纪至二十世纪初。涵盖七百六十七位作者,其中男性作者六百六十位(四千四百一十二首)、女性作者一百零七位(四百三十九首),另有十九首作者性别未明确。数据可免费复用,支持文学研究、语料库分析等多场景应用。 文件详解 文件名称:oupoco.dtd...
    packageimg
  • PAN16_Based_作者身份识别文档聚类测试训练数据

    2026年1月30日 30 130 55

    数据集概述 本数据集为PAN16作者身份识别聚类任务的文档集合,包含至多一百篇单作者文档,所有文档语言与体裁一致,但主题或文本长度可能不同。数据集未明确说明包含的不同作者数量,旨在用于识别文档间的作者身份关联及同一作者的文档分组。 文件详解 文件名称:pan16-author-clustering-test-and-training.zip...
    packageimg
  • IGN_ICDAR_25_历史地图文本识别竞赛训练及验证数据集

    2026年1月28日 30 138 49

    数据集概述 本数据集为ICDAR'25历史地图文本竞赛提供训练与验证数据,包含从Val de Marne档案馆拿破仑地籍地图裁剪的2K×2K图像切片,含训练集228张切片、验证集25张切片及对应标注文件,是2024版数据集的扩展与优化版本。 文件详解 训练集文件 文件名称:ign25_train.zip、ign25_train.json...
    packageimg
  • NARRATIVAS_DE_ENTERRO_墓葬叙事转录文档数据

    2026年1月28日 30 178 153

    数据集概述 本数据集包含一份转录的墓葬叙事文档,聚焦于墓葬相关的叙事内容转录,为文化研究领域提供结构化的文本资料,可用于分析墓葬叙事的文化内涵与表达形式。 文件详解 文件名称:NARRATIVAS DE ENTERRO (1) (1).docx 文件格式:DOCX...
    packageimg
  • Biblical_Quotations_GT_圣经引文标注研究数据集

    2026年1月25日 30 111 44

    数据集概述 本数据集为“Aggadic文献中复杂引文模式自动检测”项目的研究数据,包含标注的圣经引文及相关模式数据,由海法大学团队构建。总计56个文件,含TSV格式的标注数据、JSON格式的关系层与标签集定义文件,用于支持宗教文本中圣经引文的自动识别与分析研究。 文件详解 TSV数据文件(50个)...
    packageimg
  • 剪切与粘贴项目_基于19世纪英国报纸转载与文本复用研究的数据_v1_0

    2026年1月23日 30 156 5

    数据集概述 本数据集记录1800-1837年英国报纸中的转载与文本复用(剪刀式新闻)现象,基于大英图书馆19世纪报纸数字化馆藏,通过 plagiarism detection software 识别高度相似文本。包含共享内容实例、复制方向及无后续转载的"进化死胡同"等三类清单,是剪刀与粘贴项目的组成部分。 文件详解 主文件...
    packageimg
  • Office_Suit_Based_办公软件信息集合_2019_2022

    2026年1月22日 30 54 16

    数据集概述 本数据集收集了2019至2022年与办公软件相关的信息,包含4个文件,无目录结构。主要涵盖Microsoft Office、Zoom、Webex等办公软件的版本更新、功能说明等内容,文件类型以文本文档为主,辅以压缩文件。 文件详解 文件名称:Microsoft_Office_2019.txt 文件格式:TXT...
    packageimg
  • Hatemedia_PID2020_西班牙数字媒体仇恨词汇强度与类型分类库

    2026年1月21日 30 34 4

    数据集概述 本数据集来自Hatemedia项目(PID2020-114584GB-I00),包含西班牙数字媒体中按强度和类型分类的仇恨词汇库。数据从项目算法训练数据库提取,经去重、人工审核后,形成按仇恨强度(4级)和仇恨类型(5类)划分的词汇集合,总计2813个单/复合词汇,用于数字媒体仇恨言论分析。 文件详解 文件名称:Librería final...
    packageimg
  • SMOKING2025LMSU_YouTube_吸烟相关评论多维度分类数据

    2026年1月21日 30 209 100

    数据集概述 本数据集包含2024年3-8月从俄语YouTube吸烟主题热门视频收集的评论数据,通过情感、论点类型、作者性别和年龄等维度分类。数据涵盖16.5万条原始评论、5.8万条论点分类评论及5.5万条性别年龄分类评论,为吸烟相关社会讨论研究提供结构化数据支持。 文件详解 文件名称:Database SMOKING2025LMSU.xlsx...
    packageimg
  • PAN13_Text_Alignment_原创性检测_文本复用识别训练语料

    2026年1月21日 30 123 84

    数据集概述 本数据集为PAN13项目的文本对齐原创性检测训练语料,包含成对文档数据,其中一方可能复用另一方文本,且复用文本经自动混淆处理以隐藏复用痕迹。数据集用于支持自然语言处理领域的文本原创性检测研究,仅含一个压缩文件。 文件详解 文件名称:pan13-text-alignment-test-and-training.zip 文件格式:ZIP...
    packageimg
  • COVID_19_Fake_News_Detection_虚假新闻识别数据集

    2026年1月20日 30 150 86

    数据集概述 本数据集为COVID-19相关的虚假新闻检测数据,由Patwa等人于2021年发布,用于识别和分析新冠疫情期间的虚假信息内容,支持虚假新闻检测模型的训练与验证。 文件详解 文件名称:Data.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,推测包含新闻文本内容及对应的真实性标签(真实/虚假)等核心检测字段。 数据来源...
    packageimg
  • Oxford_Merton_MS_249_Bestiaire抄写缩写研究数据集

    2026年1月19日 30 195 19

    数据集概述 本数据集为牛津默顿学院图书馆MS 249号手稿(《Bestiaire》)1r至10v页的抄写缩写研究配套数据,包含3个文件,涵盖缩写判定标准、文本转写编码及缩写统计分析,用于中世纪手稿抄写缩写模式的学术研究。 文件详解...
    packageimg
  • IN01001_Based_Bhavattavarman的Rithapur宪章梵语XML文本数据

    2026年1月7日 30 36 3

    数据集概述 本数据集包含IN01001编号的《Bhavattavarman的Rithapur宪章》梵语文本数据,以XML格式存储,无元数据。数据集仅含一个文件,文件结构扁平化,无目录层级划分,未进行训练/测试、数据/标签或原始/处理数据的拆分。 文件详解 文件名称:IN01001.xml 文件格式:XML...
    packageimg
  • South_African_Disinformation_Based_南非虚假新闻网站数据集2020

    2026年1月5日 30 48 31

    数据集概述 本数据集收录2020年南非虚假新闻网站相关数据,基于MyBroadband和News24 2018年调查的疑似虚假新闻网站列表,经人工整理和清洗后形成,包含5个Excel文件,涉及不同标注类别的南非虚假新闻网站内容,用于虚假新闻检测研究。 文件详解 文件名称:Fake News (sa-news.com) Fake.xlsx...
    packageimg
  • 媒体偏见标注专家数据集

    2025年12月22日 30 206 172

    数据集概述 本数据集聚焦媒体偏见检测,通过对比众包标注与专家标注的差异,验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南,旨在为偏见检测模型提供更可靠的基准数据,解决现有偏见语料库标注一致性低的问题。 文件详解 专家标注文件: annotations_expert1.xlsx:...
    packageimg
  • 情感分析与情绪挖掘实验数据集_情绪挖掘工具包EMTk

    2025年12月21日 30 91 43

    数据集概述 本数据集为情感分析与情绪挖掘领域的实验数据,随情绪挖掘工具包(EMTk)Docker容器分发。包含Stack Overflow的4000余篇标注帖子及Jira的约4000个标注议题,均为人工标注的情绪与极性数据,可直接用于相关算法训练与验证。 文件详解 文件名称:collab-uniba/EMTK_datasets-v1.0.zip...
    packageimg
  • 罗马格拉韦萨诺祭坛摄影测量设置数据集

    2025年12月20日 30 39 16

    数据集概述 本数据集为一份PDF文档,详细记录了针对瑞士提契诺州罗马格拉韦萨诺祭坛的摄影测量与3D建模技术应用方案,重点说明石质文物表面记录的布光、相机设置及拍摄方法,旨在通过斜射光投影阴影提升铭文识读效果。 文件详解 文件名称: GravesanoSetup.pdf 文件格式: PDF (.pdf) 文件内容: 共4页,具体内容包括:...
    packageimg