找到212个数据集

分类: 公开数据 标签: 语料库

过滤结果
  • 数据集_100个中印尼商务词汇条目

    2026年2月15日 30 209 36

    数据集概述 本数据集包含一百个汉印尼商务领域的双语词汇条目,以单一Excel文件形式呈现,未划分训练测试集、数据标签集或原始处理集,旨在为商务场景下的汉印尼词汇翻译与学习提供结构化参考。 文件详解 文件名称:100 Chinese–Indonesian Business Vocabulary Items Dataset.xlsx 文件格式:XLSX...
    packageimg
  • ACA_多语言核心论元标注数据库

    2026年2月12日 30 79 55

    数据集概述 本数据集包含英语、老挝语和俄语三种语言的及物从句语料库示例,标注了作为句法主语和宾语(A和P)的核心论元。数据集采用与Alena Witzlack-Makarevich共同开发的编码方案,包含数据库描述文档和三种语言的标注文本文件,总计四个文件,为跨语言句法结构研究提供结构化标注资源。 文件详解 数据库描述文档...
    packageimg
  • Amazon_MT_Based手机多语言评论数据

    2026年2月9日 30 123 13

    数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
    packageimg
  • FOR2828_TP2_Based_英语文学诗篇集分析结果数据

    2026年2月8日 30 83 57

    数据集概述 本数据集为FOR 2828研究单元“文本中的去神圣化与神圣化”框架下,TP2项目“英语文学中灵感、授权与神圣化的构型”对诗篇集语料库的分析结果,包含分析结果表格与说明文档,共2个文件。 文件详解 readme.txt 文件格式:TXT 字段映射介绍:说明数据集背景,包括所属研究单元、项目名称及分析内容概述。 TABLE Results P2...
    packageimg
  • BMSatire_Based语料库语言学分析数据_附文档

    2026年1月30日 30 51 14

    数据集概述 本数据集包含BMSatire Descriptions语料库的分析数据及相关文档,属于英国学术院资助项目“Curatorial Voice: legacy descriptions of art objects and their contemporary uses”的成果。语料库源自M. Dorothy...
    packageimg
  • 文献语料库软件项目管理教学方法系统性文献综述

    2026年2月1日 30 63 53

    数据集概述 本数据集是关于软件项目管理教学方法的系统文献综述语料库,包含1个文档文件,记录了综述中纳入的相关研究文献的参考文献信息,为软件工程教育领域的研究提供结构化的文献参考资料。 文件详解 文件名称:Referências dos Artigos da RSL.docx 文件格式:DOCX...
    packageimg
  • 数字化语言学词形变化标注框架研究数据_2020

    2026年2月1日 30 135 37

    数据集概述 本数据集是研究“Developing an annotation framework for word formation processes in comparative linguistics”的配套数据与代码,包含一个压缩文件,用于支持比较语言学领域词形变化过程标注框架的开发与应用,为相关语言学研究提供结构化的数据资源。 文件详解...
    packageimg
  • ROCOPOT_Dataset_罗马陶器图像与元数据

    2026年1月31日 30 182 78

    数据集概述 本数据集包含来自32个语料库的5000余张罗马陶器轮廓黑白图像,以及一份包含元数据的.xls文件。数据集以压缩包形式提供,未划分训练/测试集或数据/标签集,无原始/处理数据拆分,主要用于罗马陶器的考古研究与图像分析。 文件详解 文件名称:ROCOPOTv1.zip 文件格式:ZIP...
    packageimg
  • Bangla_Based_孟加拉语信息检索测试集数据

    2026年1月31日 30 175 38

    数据集概述 本数据集为孟加拉语信息检索测试集,包含1182份文档(182份泰戈尔的短篇故事、小说、散文,1000份2013年《普罗托姆·阿洛》报纸文章)、94条不同复杂度的查询及查询-文档相关性判断,填补了孟加拉语信息检索标准数据集的空白。 文件详解 文件名称:README.txt 文件格式:TXT...
    packageimg
  • 用于流行病学事件提取的多语言数据集_LREC_2020

    2026年1月30日 30 185 143

    数据集概述 本数据集是LREC 2020论文《A Dataset for Multi-lingual Epidemiological Event Extraction》配套数据,包含多语言流行病学事件抽取语料,支持自然语言处理领域相关研究,以压缩包形式提供,仅含一个文件。 文件详解...
    packageimg
  • ANR_PICCH_殖民时期马赛媒体呈现语料库2022

    2026年1月30日 30 171 77

    数据集概述 本数据集是2022年在ANR PICCH项目框架下由Pauline Savéant构建的语料库,由Sophie Gebeil(法国项目负责人)负责。语料库收录了法国视听媒体及网络(含互联网档案馆)中与马赛殖民历史相关的资料,旨在为批判性研究殖民时期马赛的媒体呈现提供结构化数据,包含1个文件。 文件详解...
    packageimg
  • TuReV_Corpus_突尼斯革命在线新闻报道语料库

    2026年1月30日 30 28 14

    数据集概述 本数据集为TuReV语料库,收录了关于突尼斯革命的在线新闻报道文本,是用于自然语言处理(NLP)研究的单文件语料库资源,可支持对突尼斯革命相关新闻内容的文本分析任务。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX...
    packageimg
  • La_Pola_Siero_西班牙地图第三问方言语料数据

    2026年1月30日 30 132 56

    数据集概述 本数据集包含与“西班牙地图:第三问”相关的La Pola Siero方言语料,核心为1个docx格式文件,无目录结构及数据拆分,聚焦方言相关内容的记录与呈现。 文件详解 文件名称:Mapa de España.Pregunta3.docx 文件格式:docx 字段映射介绍:无明确字段划分,为单一文档文件,内容围绕“西班牙地图:第三问”的La...
    packageimg
  • LAGT_Based_多源整合古希腊文本语料库_v4_1

    2026年1月30日 30 23 4

    数据集概述 本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of...
    packageimg
  • Reddit_Based_平台工人在线讨论语料库_研究用

    2026年1月30日 30 77 16

    数据集概述 本数据集包含从Reddit平台的/r/youtubers和/r/uberdrivers子版块采集的两个讨论语料库,用于研究平台工人的话语表达。数据集通过抓取各子版块排名前一千的讨论帖及每个帖子的五条评论构建,共六千条内容,旨在直接探究平台工人的审议状态、声音表达及实用主义视角下的探究与持续学习特征。 文件详解 文件名称:youtube-...
    packageimg
  • Pyu_Based骠铭文语料库XML数据20180326

    2026年1月30日 30 151 112

    数据集概述 本数据集为骠铭文语料库的XML压缩文件,包含由Arlo Griffiths、Marc Miyake和Julian K. Wheatley完成的骠铭文转写内容,语料库通过指定网址持续更新。每个XML文件对应一份骠铭文,转写中用C表示未知辅音、V表示未知元音,为骠铭文研究提供结构化文本资源。 文件详解 文件名称:Corpus of Pyu...
    packageimg
  • OWL_2_RL_Based_本体推理器基准测试语料库数据

    2026年1月30日 30 117 79

    数据集概述 本数据集是用于OWL 2 RL推理器基准测试的语料库,整合了Oxford Ontology、BioPortal、MOWLCorp三个来源的符合OWL 2 RL标准且TBox公理数≥100的本体数据,包含筛选后的本体及相关指标,支持语义网推理器性能评估。 文件详解 文件名称:owl2_rl_benchmark_corpus.zip...
    packageimg
  • ELTeC_gsw_Based_瑞士德语小说集_公开数据集

    2026年1月30日 30 85 17

    数据集概述 本数据集是欧洲文学文本集合(ELTeC)的瑞士德语小说子集,由COST Action "Distant Reading for European Literary History"项目生成,包含100部符合语料库构成标准的瑞士德语小说,采用TEI编码,支持欧洲文学远程阅读研究,总计102个文件。 文件详解 核心数据文件...
    packageimg
  • CLEF_2024_议会辩论_意识形态与权力识别_训练数据

    2026年1月29日 30 136 116

    数据集概述 本数据集是CLEF 2024“议会辩论意识形态与权力识别”共享任务的训练集,源自ParlaMint语料库4.0版本,包含奥地利、比利时等20余个国家及地区议会的辩论演讲文本,标注有意识形态倾向(左/右)和权力属性(执政联盟/反对党)等信息。 文件详解 文件名称:trainingset-ideology-power.zip 文件格式:ZIP...
    packageimg