找到988个数据集

格式: ZIP 标签: 文本数据

过滤结果
  • 多语种越狱数据集

    2026年2月15日 30 45 17

    数据集概述 本数据集为多语种越狱数据集,包含一个Excel文件,未进行训练/测试、数据/标签、原始/处理等数据拆分,未提供自述文件或内容预览,可用于多语种文本相关的研究与分析。 文件详解 文件名称:多语种越狱数据集.xlsx 文件格式:XLSX 字段映射介绍:未提供内容预览,具体字段信息暂不明确 适用场景 多语种文本数据挖掘:...
    packageimg
  • 监督式匹配与实体解析的清洗数据集

    2026年2月12日 30 88 61

    数据集概述 本数据集包含13个已确立的基准数据集和5个新基准数据集,用于评估基于机器学习(ML)和深度学习(DL)的实体匹配算法。数据集涵盖结构化和文本类型,涉及学术、产品、企业等领域的实体对,支持多种匹配算法的测试与比较。 文件详解 压缩文件(Compressed Files)...
    packageimg
  • Malwa_GIS_Source_SRTM地形数据_2009

    2026年2月8日 30 11 6

    数据集概述 本数据集为2009年Malwa区域的SRTM(航天飞机雷达地形测绘任务)GIS调查数据,包含10个相关文件,涵盖地形数据文件、元数据及日志等,用于提供该区域的地理空间信息支持。 文件详解 .adf格式文件(共8个)...
    packageimg
  • Ge_ez_Based_文本抽取式摘要任务数据集

    2026年2月1日 30 133 124

    数据集概述 本数据集为Ge'ez语言文本的抽取式摘要任务专用数据,包含一份Ge'ez语言的文本文件,主要用于自然语言处理领域的文本摘要算法训练与测试,支持对Ge'ez文本内容的结构化分析需求。 文件详解 文件名称:Geez_Text_120.xlsx 文件格式:XLSX...
    packageimg
  • INCITE_Based煽动性言论标注研究数据集

    2026年2月1日 30 194 135

    数据集概述 本数据集为标注的煽动性言论数据集,与论文“Understanding Inciting Speech As New Malice”相关,该论文已被IEEE Transactions on Computational Social Systems接收。数据集用于支持煽动性言论的研究与分析,包含一份文件。 文件详解 文件名称:INCITE-...
    packageimg
  • CAT_Q_Based_北欧自闭症患者语言伪装文本数据

    2026年1月30日 30 43 8

    数据集概述 本数据集包含北欧地区113名自闭症参与者的语言伪装相关文本数据,基于CAT-Q调查(Hull et al, 2020)收集。为保护隐私,CAT-Q评分、健康数据及性别、年龄等变量已排除,仅保留语言能力伪装饱和度的文本内容,排除纯行为描述类回答。 文件详解 瑞典数据文件 文件名称:sweden.docx 文件格式:DOCX...
    packageimg
  • 腺苷与阿尔茨海默病小鼠KI模型中的突触过度兴奋性研究数据

    2026年1月30日 30 71 68

    数据集概述 本数据集包含论文“Adenosine deficiency facilitates CA1 synaptic hyperexcitability in the presymptomatic phase of a mouse KI model of Alzheimer...
    packageimg
  • S6_Data_Swahili焦点小组讨论转录本匿名化数据

    2026年1月29日 30 197 165

    数据集概述 本数据集包含匿名化处理的斯瓦希里语焦点小组讨论(FGD)转录本,基于S4 Data分析并选择性翻译用于结果部分引用。数据为单一文档文件,用于社会科学或语言研究场景下的定性分析参考。 文件详解 文件名称:S6 Data. FGDs transcripts.docx 文件格式:DOCX...
    packageimg
  • Deepseek_Source_Deepseek情感分析数据集

    2026年1月29日 30 27 7

    数据集概述 本数据集为Deepseek情感分析数据集,包含2个文件,无目录结构,无训练/测试、数据/标签或原始/处理数据的拆分。文件类型包括.xlsx和.csv,主要涉及文本情感分析相关数据,可用于自然语言处理领域的情感分析研究。 文件详解 Combined_Deepseek.xlsx 文件格式:.xlsx...
    packageimg
  • Turkey_X_Based_土耳其足球球迷评论情感分析数据集

    2026年1月28日 30 48 39

    数据集概述 本数据集聚焦土耳其足球球迷在X平台的评论内容,通过情感分析与机器学习方法进行评估。数据集包含一个文件,主要记录相关评论数据,用于研究足球球迷的社交媒体言论情感特征。 文件详解 文件名称:dataset.xlsx 文件格式:XLSX...
    packageimg
  • NCN_Horizon2020_裂变配对平均场与集体惯性研究数据

    2026年1月28日 30 46 19

    数据集概述 本数据集源自裂变配对相关研究,包含三个核心目录(delta、dn2、qf),分别对应配对能隙、粒子数涨落、猝灭因子三类微观量对裂变描述的影响数据。各目录下按同位素划分子目录,存储D1S参数化下的集体惯性与HFB能量文本数据,文件列内容由表头说明。 文件详解 压缩包文件:static.zip 文件格式:ZIP...
    packageimg
  • Contexts_Retrieved_Based_NLP文本数据

    2026年1月28日 30 128 18

    数据集概述 本数据集包含通过DuckDuckGo检索的上下文文本数据,主要用于自然语言处理(NLP)相关实验。数据集共2个JSON文件,未划分训练/测试、数据/标签或原始/处理数据,所有文件直接存储于根目录,无子目录结构。 文件详解 contexts_train.json 文件格式:JSON...
    packageimg
  • FuseCap_Based_COCO测试集图像描述文本数据_测试版

    2026年1月27日 30 42 16

    数据集概述 本数据集包含由FuseCap生成的COCO测试集图像描述文本,核心内容为针对COCO测试集图像的自动生成描述。数据集结构简单,仅含一个JSON格式文件,用于图像描述生成任务的测试场景验证。 文件详解 文件名称:coco_karpathy_test.json 文件格式:JSON...
    packageimg
  • WMT16_Based_Medline生物医学翻译任务平行语料数据集

    2026年1月25日 30 8 3

    数据集概述 本数据集为WMT'16生物医学翻译任务提供的平行语料,源自Medline/PubMed数据库,包含西班牙语-英语、法语-英语、葡萄牙语-英语三种语言对的平行文本数据,支持生物医学领域的机器翻译模型训练与评估。 文件详解 文件名称:pubmed_en_pt.txt.zip 文件格式:ZIP 字段映射介绍:包含英语-葡萄牙语生物医学平行文本数据...
    packageimg
  • LiDAR_Source_罗纳河夜莺栖息地植被结构与选择模式补充数据

    2026年1月23日 30 22 0

    数据集概述 本数据集为“LiDAR-derived high resolution vegetation structure and selection patterns of the Common Nightingale in riparian...
    packageimg
  • X_MK_Hasil_Pemilu_Source_X平台情感分析数据集

    2026年1月22日 30 27 21

    数据集概述 本数据集用于X平台上关于“MK Hasil Pemilu”的情感分析,包含1个文件,无目录结构,未划分训练/测试集、数据/标签集及原始/处理集,文件格式为.xlsx。 文件详解 文件名称:datasetX-MK Hasil Pemilu.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,推测包含X平台上与“MK Hasil...
    packageimg
  • Weverse_Source_BTS粉丝社区用户与文本互动数据_2024

    2026年1月21日 30 122 76

    数据集概述 本数据集包含从Weverse平台BTS频道获取的用户信息及文本数据(帖子和评论)。2024年3月3日首次爬取获得16020条帖子和14223个用户ID,5月24日回访获取3410个活跃用户在3-5月的167456条帖子和484437条评论,包含时间戳、文本、昵称及URL等信息,经英文过滤和LIWC-22分析形成两个数据集文件。 文件详解...
    packageimg
  • Multi_CAST_Arta_Based多语言口语标注文本数据集2311

    2026年1月21日 30 154 145

    数据集概述 本数据集为Multi-CAST Arta多语言口语标注文本语料库,是Multi-CAST项目的一部分,收录于《Multi-CAST: Multilingual corpus of annotated spoken texts》第2311版本中。数据以压缩包形式提供,包含多语言口语文本的标注内容,适用于语言学领域的多语言口语研究。 文件详解...
    packageimg
  • Topic_Modeling_Based_女性图书馆员相关文献主题分析数据集

    2026年1月20日 30 35 7

    数据集概述 本数据集围绕女性图书馆员相关文章的主题建模展开,包含用于NLP分析的代码文件、数据文件及文献检索查询文件,共4个文件,覆盖主题建模的核心过程与数据基础。 文件详解 代码文件 文件名称:Bertopic_Female_Lib.ipynb、scattertext.ipynb 文件格式:.ipynb...
    packageimg
  • IN02042_Sanskrit_Epidoc梵语铭文XML数据_Draft

    2026年1月20日 30 117 44

    数据集概述 本数据集包含IN02042号Harigaon铭文(Amsuvarma 2)的梵语XML文件,为Epidoc格式的草稿版本,无元数据,拟纳入Siddham档案。数据集仅含一个文件,用于铭文文献的数字化整理与存档。 文件详解 文件名称:IN02042.xml 文件格式:XML...
    packageimg