找到197个数据集

标签: 计算语言学

过滤结果
  • Anirudh_Prabhu博士论文文本转规则转换完整结果数据集

    2025年12月13日   

    数据集概述 本数据集为Anirudh Prabhu博士论文的组成部分,包含其论文第五章所述“文本转规则转换工作流”的运行结果。数据集预览及描述可参考论文附录E,为相关研究提供文本规则转换的实证数据支持。 文件详解 该数据集包含2个文件,具体说明如下: - 文件名称: MBR_SitCalcRules.pdf - 文件格式: PDF (.pdf) -...
    packageimg
  • 社交媒体语言语域转化分析_博主与普通用户言语研究

    2025年12月13日   

    数据集概述 本数据集为一篇PDF文档,聚焦社交媒体环境下语言语域的变化,核心分析博主与普通用户的言语特征差异,探讨语域转化的表现形式与潜在机制,为语言使用与社会交互研究提供定性分析素材。 文件详解 文件名称: Mardieva Habiba.pdf 文件格式: PDF 文件内容:...
    packageimg
  • 论证一词多义性与跨社区连接数据集

    2025年12月13日   

    数据集概述 本数据集围绕“论证”一词的多义性展开,包含研究论文终稿及原始分析数据。核心内容为通过Scopus文献分析,揭示该词在不同学科、期刊和社区中的语义分层与共享机制,为理解科学语言如何促进跨领域合作提供数据支持。 文件详解 数据文件: word_frequencies.csv:...
    packageimg
  • 俄语动词体貌分类与完成体语义成分附录数据集2019

    2025年12月13日   

    数据集概述 本数据集是关于俄语动词体貌分类与完成体语义成分研究文章的附录,包含45个俄语完成体和未完成体动词的分析表格,通过文章所述测试系统为动词赋予体貌特征,支持俄语动词体貌研究。 文件详解 文件名称:Fedotov_2019_Completive_and_actionality_APPENDIX_1.0.doc,文件格式:DOC...
    packageimg
  • Alor_Pantar语言家族内部分类CLDF数据集2012

    2025年12月12日   

    数据集概述 本数据集是基于Robinson和Holton 2012年发表的研究,采用计算方法对Alor-Pantar语言家族词汇进行内部分类的CLDF格式数据集,为语言家族分类研究提供标准化数据支持。 文件详解 该数据集包含一个压缩文件,具体说明如下: - 文件名称: lexibank/robinsonap-v4.1.zip - 文件格式:...
    packageimg
  • 印欧语同源关系数据库衍生CLDF数据集2019

    2025年12月12日   

    数据集概述 该数据集是基于Heggarty等人2019年发布的“印欧语同源关系数据库(IE-CoR版本1.0)”衍生的CLDF格式数据集,包含印欧语系语言的同源词关系数据,为历史语言学研究提供结构化数据支持。 文件详解 文件名称:lexibank/iecor-v1.2.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 形态句法祖先状态重建的贝叶斯方法补充文件

    2025年12月12日   

    数据集概述 本数据集是期刊投稿的补充文件,围绕形态句法祖先状态重建的贝叶斯方法展开,包含用于说明、编码、树结构及来源参考的多类型文件,为相关研究提供辅助数据支持。 文件详解 tree.pdf: PDF格式,共识树文件,用于研究结果的可视化说明 data.txt: TXT格式,编码文件,包含语言编码数据(预览示例:AghuTharrnggala...
    packageimg
  • WiLI_2018_Wikipedia_Based_多语言文本识别基准数据集

    2025年12月12日   

    数据集概述 该数据集是Wikipedia语言识别基准数据集,包含235种语言的235000个段落,数据分布均衡,并提供训练集和测试集的划分。 文件详解 文件名称: wili-2018.zip 文件格式: ZIP压缩包(.zip) 内容说明: 压缩包内包含数据集的完整内容,具体字段及结构需解压后查看原始文件 适用场景 自然语言处理研究:...
    packageimg
  • CLDF格式扎格拉根马当比较词表数据集1980

    2025年12月12日   

    数据集概述 该数据集为CLDF格式,基于扎格拉根1980年发表的《巴布亚新几内亚马当省北阿德伯特山脉语言比较词表》,包含巴布亚新几内亚特定区域语言的比较词汇数据,支持语言比较研究。 文件详解...
    packageimg
  • 班图语族词汇多样性个体视角研究论文补充材料

    2025年12月12日   

    数据集概述 本数据集为论文《Bantoid lexical diversity from an individual-based perspective》的补充材料,包含支持该研究的相关数据与代码,以压缩包形式提供,为理解班图语族词汇多样性的个体视角分析提供辅助资料。 文件详解 文件名称: GoodEtAl-...
    packageimg
  • 六种缅语族语言自动计算对应模式数据集_基于黄1992年500个概念

    2025年12月12日   

    数据集概述 本数据集是六种缅语族语言(古缅甸语、龙川阿昌语、仙岛语、阿济语、波拉语、马鲁语)对应模式的自动计算结果打印文档,基于黄1992年的500个概念构建,为语言比较研究提供结构化数据支持。 文件详解 文件名称: 20190213 burmish-patterns.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 新闻媒体Facebook页面数字新闻批评粗俗化数据集

    2025年12月12日   

    数据集概述 本数据集是支撑《从批评到愤怒与仇恨:新闻媒体Facebook页面数字新闻批评的粗俗化》研究的评论数据集合,包含相关研究的文档内容,为分析数字新闻批评的粗俗化趋势提供数据基础。 文件详解 文件名称: Dataset for From criticism to anger and hate.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • disco_5_0_Praxis_Based_现代主义诗歌格律分析完整数据

    2025年12月12日   

    数据集概述 该数据集为disco诗歌语料库5.0版,聚焦拉美与菲律宾现代主义文学比较,新增鲁文·达里奥140首十四行诗,何塞·桑托斯·乔卡诺十四行诗增至130首(新增80首),含自动标注及人工修订的韵律、押韵等信息。 文件详解 文件名称:pruizf/disco-v5.0.zip 文件格式:ZIP压缩包...
    packageimg
  • PAN19跨领域作者分析数据集2019

    2025年12月11日   

    数据集概述 该数据集为PAN19评测任务的训练数据,聚焦跨领域作者归属问题,核心场景为粉丝小说(Fanfiction)的跨 fandom 作者识别。数据集包含已知作者的多 fandom 粉丝小说样本与未知作者的目标 fandom 样本,支持开放集归属任务(真实作者可能不在候选列表中)。 文件详解 数据集为单个压缩包文件,具体说明如下: - 文件名称:...
    packageimg
  • Wichmann_2025_ASJP_Database_Based_语言比较研究CLDF完整数据

    2025年12月11日   

    数据集概述 本数据集是基于Wichmann等人2025年发布的"ASJP Database"第21版转换而来的CLDF格式数据集,为语言比较研究提供标准化数据支持。 文件详解 文件名称: lexibank/asjp-v21.zip 文件格式: ZIP压缩包(.zip) 内容说明: 包含ASJP...
    packageimg
  • 荷兰维基百科Palmetto位置存储Lucene索引数据集

    2025年12月11日   

    数据集概述 本数据集是基于2015年11月2日荷兰维基百科数据生成的位置存储Lucene索引,用于配合Palmetto工具计算主题连贯性。包含索引文件、说明文档及案例研究报告,支持荷兰语资源的主题分析研究。 文件详解 文件名称: README.md 文件格式: Markdown (.md) 内容说明:...
    packageimg
  • Webis_Argument_Framing_19_Based_论证框架建模完整数据

    2025年12月11日   

    数据集概述 该数据集包含12,326条标注的论点数据,覆盖465个主题和1623个框架,每条论点存储结论、前提、框架、主题、立场等字段,用于研究论证中的框架建模。 文件详解 文件名称: Webis-argument-framing.zip 文件格式: ZIP压缩包 字段映射: conclusion: 论点结论 premise: 论点前提 frame:...
    packageimg
  • 英语到乌兹别克语翻译中多成分复合句的转换研究

    2025年12月11日   

    数据集概述 本数据集包含一篇关于英语到乌兹别克语翻译中多成分复合句转换研究的PDF文档,聚焦多成分复合句在跨语言翻译中的结构变化与处理方式。 文件详解 文件名称: A.A.Latibjonov.pdf 文件格式: PDF (.pdf) 文件内容: 该文档为研究论文,主题围绕英语多成分复合句在乌兹别克语翻译中的转换规律展开。 适用场景 翻译理论研究:...
    packageimg
  • 跨语言人称代词信息论研究附录G互动图数据集

    2025年12月11日   

    数据集概述 该数据集为“跨语言人称代词信息论研究”的附录G内容,包含一个互动图文件,展示样本中各语言人称代词的意外值与频率之间的交互关系,可通过浏览器打开查看。 文件详解 文件名称:appendixG_surprisal_7_vs_log_rel_frequency.html 文件格式:HTML...
    packageimg
  • 叙事小说中的评价结构数据集

    2025年12月10日   

    数据集概述 本数据集包含基于共识标注的21篇德语虚构叙事文本的黄金标准注释,涵盖文学评价、语义编码和对立关系三类核心现象,为研究叙事文本中的评价结构提供标注数据支持。 文件详解 文件名称:evaluative-structures-annotation-public-domain.zip 文件格式:ZIP压缩包(.zip)...
    packageimg