找到12个数据集

标签: 文本数据集

过滤结果
  • Telugu_Suicide_Based心理健康检测泰卢固语文本数据集

    2026年2月6日 30 81 74

    数据集概述 本数据集是Kaggle英文自杀检测数据集前5万行的泰卢固语翻译版,使用IndicTrans2翻译模型生成。核心内容为含自杀倾向标注的泰卢固语文本,每条数据包含文本内容及“自杀倾向”或“非自杀倾向”的分类标签,旨在支持泰卢固语心理健康检测相关研究,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • Egyptological_Based_埃及学数据库与数据集书目数据_2024

    2026年1月19日 30 122 20

    数据集概述 本数据集为埃及学数据库与数据集书目,旨在提供传统埃及学书目未涵盖的数字出版物注释列表,包括在线/离线数据库、文本/图像/3D数据集等数字资产,仅收录曾公开可获取的资源,不含私人或项目内部数据库。数据集支持通过Zotero库浏览,也可下载为多种格式复用。 文件详解 文件名称:readme.txt 文件格式:TXT...
    packageimg
  • 英文维基百科文本数据集

    2025年12月23日 30 181 70

    数据集概述 本数据集包含英文维基百科文本的转储文件,以及相关的测试数据说明文档和压缩工具。数据文件类型多样,涵盖PMD格式文本、压缩包、可执行文件和网页文档,为英文维基百科文本相关的实验或测试提供数据支持。 文件详解 该数据集包含7个文件,具体说明如下: - 文本文件: - enwik8.pmd: PMD格式文件,可能为英文维基百科文本数据 -...
    packageimg
  • 现代标准斯拉夫语支平行文本数据集

    2025年12月22日 30 114 41

    数据集概述 本数据集包含克罗地亚语、斯洛伐克语、斯洛文尼亚语三种现代标准斯拉夫语支的平行文本,以《约翰福音》为内容,通过平行文本设计抵消体裁影响,为语言比较研究提供基础数据。 文件详解 文件名称:Gospel.Croatian.txt;格式:TXT;内容:克罗地亚语版《约翰福音》文本,基于伊万·沙里奇的新约译本...
    packageimg
  • 印地语文本宣传数据集2023_Prop_HiT

    2025年12月21日 30 86 69

    数据集概述 本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。 文件详解 该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip:...
    packageimg
  • 布纳克语文本数据集_Schapper_2010

    2025年12月11日 30 62 13

    数据集概述 该数据集包含用于Schapper 2010年博士论文的布纳克语文本及相关说话人信息,布纳克语是帝汶中部的一种巴布亚语言,为研究该语言提供基础文本资料。 文件详解 文件名称: BunaqTextsSchapper2010.pdf 文件格式: PDF (.pdf) 文件内容: 记录了布纳克语的文本内容及其说话人信息,是Schapper...
    packageimg
  • 撤回文章定性定量引用分析方法论数据集

    2025年12月8日 30 93 51

    数据集概述 本数据集是《撤回文章的定性定量引用分析:案例研究》方法论应用的成果,包含数据收集阶段的引用实体特征与文本数据集,以及基于引用摘要和上下文的主题建模结果,为撤回文章引用行为研究提供支持。 文件详解 数据集包含一个压缩文件及解压后的子文件,具体说明如下: - 主压缩文件: - method_data.zip:...
    packageimg
  • DBpedia语义分类数据集-14类-2014年-thedevastator

    2025年5月31日 30 114 25

    DBpedia语义分类数据集-14类-2014年-thedevastator 数据来源:互联网公开数据 标签:DBpedia,语义分类,文本数据集,自然语言处理,机器学习,数据科学,知识图谱,文本分类,分类模型,研究数据集 数据概述:...
    packageimg
  • 数据20倍增强38k样本从270k语境数据集时间阈值0-820xEnhanced38kSamplesfrom270kContextDatasetwithT...

    2025年5月29日 30 113 11

    20倍增强38k样本从270k语境数据集时间阈值0-820xEnhanced38kSamplesfrom270kContextDatasetwithTimeThreshold0-8-enddl22 数据来源:互联网公开数据 标签:文本数据集,增强学习,自然语言处理,机器学习,数据集,时间序列,上下文分析,文本挖掘...
    packageimg
  • 冰与火之歌人物关系网络数据集ASongofIceandFireCharacterNetwork-manonclavelier

    2025年5月19日 30 51 22

    冰与火之歌人物关系网络数据集ASongofIceandFireCharacterNetwork-manonclavelier 数据来源:互联网公开数据 标签:社交网络, 人物关系, 图分析, 文本挖掘, 关联分析, 知识图谱, 关系抽取, 文本数据集 数据概述:...
    packageimg
  • TensorFlow官方文本数据集概览-imoore

    2025年4月22日 30 181 130

    TensorFlow官方文本数据集概览-imoore 数据来源:互联网公开数据 标签:TensorFlow, TFDS, 文本数据集, 机器学习, 数据集, 深度学习, 自然语言处理, 预处理 数据概述: 本数据集描述了TensorFlow官方提供的文本数据集集合,这些数据集通过TensorFlow Datasets (TFDS) 接口提供。...
    packageimg
  • 孟加拉语抑郁检测文本数据集3

    2025年4月15日 30 70 19

    孟加拉语抑郁检测文本数据集3 数据来源:互联网公开数据 标签:抑郁检测,孟加拉语,情感分析,心理健康监测,NLP研究,文本数据集 数据概述:...
    packageimg