-
IN01009_Source_Sudevaraja的Sarangarh宪章梵语XML数据
数据集概述 本数据集包含一份Sudevaraja的Sarangarh宪章梵语文献的XML文件,文件无元数据,仅记录核心文献内容。数据集结构简单,无目录层级,文件类型单一,总计1个文件,可用于梵语铭文文献的数字化研究与文本分析。 文件详解 文件名称:IN01009.xml 文件格式:XML...
-
Costa_Rican_News_Sources_Based_假新闻检测数据集_Beta
数据集概述 本数据集为哥斯达黎加新闻源假新闻检测Beta版数据集,包含预处理后的西班牙语和英语新闻文本,以及通过LIWC词典分析的结果。数据用于评估数据挖掘模型对哥斯达黎加新闻网站生成的真实或潜在假新闻的分类能力,以验证模型可靠性并为后续研究扩展奠定基础。 文件详解 数据源文件(datasource_clasificado_webhose.xls)...
-
Geospatiality_Study_Based_英文文本地理位置与主题关系研究数据集
数据集概述 本数据集包含复现Geospatiality研究所需的代码与数据,核心研究英文文本中主题对地理位置信息出现频率的影响。数据覆盖Twitter、Reddit等六个来源,含匿名化文本数据压缩包、R分析脚本及主题分类表,支持研究结果的验证与可视化。 文件详解 数据压缩包(.zip)...
-
Blauwe_Schuit_Hs_75H57_荷兰皇家图书馆中古荷兰语手稿原始XML数据
数据集概述 本数据集包含荷兰皇家图书馆藏75 H 57号Blauwe Schuit手稿的原始XML数据,该手稿为中古荷兰语杂集。数据遵循MVN编辑指南,由荷兰皇家艺术与科学院Huygens研究所主导发布,用于支持该手稿的外交版本研究与数字化展示。 文件详解 文件名称:bs.xml 文件格式:XML...
-
IN01032_Kasipura_Grant_of_Ravivarman梵语XML数据文件
数据集概述 本数据集包含IN01032号《拉维瓦尔曼的卡西普拉特许状》梵语文献的XML文件,无元数据。文件数量为1,无目录层级结构,主要文件类型为XML,占比百分之百。数据可用于梵语铭文数字化研究与历史文献分析。 文件详解 文件名称:IN01032.xml 文件格式:XML...
-
Unitas_Fratrum_Based_利夫兰教区教会报告数字化档案数据_1805_1806
数据集概述 本数据集包含爱沙尼亚多帕特地区弟兄会团体1805年8月至1806年5月的教区报告转录文件,源自赫恩胡特合一档案馆的《弟兄会消息》(Gemein-Nachrichten)手稿。数据集提供XML-TEI格式的转录文件及标准化文本,用于支持宗教历史研究与文本分析。 文件详解 文件名称:00407_01.xml 文件格式:XML-TEI...
-
Hans_Christian_Andersen_Based_安徒生作品精选数据集_V1_0_1
数据集概述 本数据集为汉斯·克里斯蒂安·安徒生的印刷作品精选,包含163篇童话、6部小说及1个元数据JSON文件,总计171个文件。多数为UTF-8编码的TXT文本文件,含丹麦语特殊字符,另有1个JSON元数据文件及1个包含所有170个文件的ZIP压缩包,适用于文学文本分析场景。 文件详解 文本文件(TXT) 文件名称:如Anne...
-
IN02003_Sanskrit_Based_昌古纳拉扬石柱西轴铭文梵语XML数据_draft
数据集概述 本数据集包含IN02003昌古纳拉扬石柱西轴铭文的梵语文本数据,以XML格式存储,为Epidoc标准的草稿版本,计划纳入Siddham档案。数据无元数据,仅包含一份核心XML文件,用于铭文文本的数字化保存与研究。 文件详解 文件名称:IN02003.xml 文件格式:XML...
-
Alpenwort_Corpus_奥地利阿尔卑斯俱乐部年鉴数字化标注语料库数据1869_1998
数据集概述 本数据集为奥地利阿尔卑斯俱乐部1869-1998年年鉴(Zeitschrift des Deutschen und Österreichischen Alpenvereins,ZAV)的数字化标注语料库,覆盖阿尔卑斯山脉探索、全球山地研究、环境保护等主题,遵循CLARIN-DARIAH标准添加元数据,助力学术研究。 文件详解...
-
Mpox_Instagram_Based_猴痘社交媒体叙事多语言标注分析数据集2022_2024
数据集概述 本数据集包含2022年7月23日至2024年9月5日期间的60,127条Instagram猴痘相关帖子,覆盖52种语言。每条帖子标注了Post ID、原始描述、发布日期、语言、英文翻译版,以及情感(细粒度7类)、仇恨言论、焦虑/压力检测结果,可用于社交媒体文本分析与公共卫生研究。 文件详解 文件名称:Dataset.xlsx...
-
Siddham_Based_IN02080_Yengu_Bahaltole梵语碑文XML草稿数据
数据集概述 本数据集包含IN02080 Yengu Bahaltole碑铭的梵语XML文件,为Epidoc格式草稿版本,无元数据,计划纳入"Siddham"档案。数据集仅含一个文件,可用于碑铭文献数字化研究与梵语碑文文本分析。 文件详解 文件名称:IN02080.xml 文件格式:XML...
-
IN02022_Sanskrit_XML_Chowkitar铭文梵语文本数据_Epidoc草案版
数据集概述 本数据集包含IN02022 Chowkitar铭文的梵语XML文件,为Epidoc格式草案版,不含元数据,待整合至“Siddham”档案。数据集仅包含一个XML文件,无目录层级划分,未进行训练/测试、数据/标签或原始/处理的文件拆分,文件类型单一。 文件详解 文件名称:IN02022.xml 文件格式:XML...
-
LAGOOS_FWF资助_Karl_Benedikt_Hase1825年希腊语秘密日记XML数据
数据集概述 本数据集是Karl Benedikt Hase1825年秘密日记在线版本的XML文件,Hase作为19世纪巴黎学者以古希腊语撰写日记。数据由LAGOOS项目团队协作整理,包含日记转录、实体标记等编辑内容,仅含一个XML文件,用于支持历史文献研究与数字化分析。 文件详解...
-
Media_narratives_discipline_rage_西班牙平等部政策合法性研究数据
数据集概述 本数据集围绕“Media narratives to discipline rage: delegitimizing the policies of Spain's Ministry of Equality”主题,包含一份媒体叙事语料库文件,主要涉及媒体叙事对西班牙平等部政策的影响分析,是研究媒体叙事与政策合法性关系的基础数据。 文件详解...
-
Gemein_Nachrichten_Josephs_Rede_亨纳斯多夫圣诞夜讲道文本转录数据
数据集概述 本数据集包含约瑟夫于圣诞夜在亨纳斯多夫晚间集会的讲道文本转录数据,源自Herrnhut Unitätsarchiv提供的《Gemein-Nachrichten》数字化内容。数据以XML-TEI格式的转录文件、增强元数据的转录文件、标准化文本文件及带注释的转录文件呈现,支持宗教文献研究与文本分析。 文件详解 文件名称:00885_01.xml...
-
Tiefo_D_Lexicon_Based语言词汇表_Daramandugu地区_2021年4月
数据集概述 本数据集为Daramandugu地区Tiefo-D语言的词汇表,需与同作者的《Tiefo-D语法》(DOI:10.5281/zenodo.4715103)及《Tiefo-D文本集》(DOI:10.5281/zenodo.4715132)配合使用,使用说明见语法附录及文本集附录。后续将在密歇根大学图书馆Deep...
-
Morte_Darthur_Based_托马斯_马洛里_亚瑟王之死_卡克斯顿版原始与标准化文本数据
数据集概述 本数据集包含托马斯·马洛里《亚瑟王之死》卡克斯顿版的原始文本与标准化处理文本,是研究论文“A Computational Approach to Source Adaptation in Thomas Malory’s Morte Darthur”所用语料库。数据源于密歇根大学人文文本计划,支持文学计算分析与版本对比研究,仅含一个文件。...
-
Salience_In_News_And_Tweets_Based_新闻与推文显著性数据集v2_0
数据集概述 本数据集为“Salience in News and Tweets”的新版本,聚焦新闻与推文内容中的显著性分析,包含一份压缩文件,可用于文本显著性相关的研究与分析。 文件详解 文件名称:Salience-In-News-And-Tweets-v2.0.zip 文件格式:ZIP...
-
IN00612_Grant_of_Dharasena_IV_year_330_XML数字化文书数据
数据集概述 本数据集为Dharasena IV统治时期第330年的授权文书(Grant)数字化版本,以XML格式存储,包含1个文件。文书内容记录了特定历史时期的授权事件,是研究古代行政制度、历史文献数字化的基础资料。 文件详解 文件名称:IN00612 XML.xml 文件格式:XML...
-
数据7PartidasDigital_XML_TEI_Siete_Partidas法律文本编码数据
数据集概述 本数据集是对阿方索十世《七章律》(Siete Partidas)法律文本的XML-TEI编码数据,包含7个XML格式的法律文本文件和1个说明文档。《七章律》是13世纪卡斯蒂利亚王国的核心立法著作,数据集通过标准化编码保存其文本内容,支持数字人文领域的文本分析与研究。 文件详解 XML数据文件(共7个) 文件名称:SP-VA1.xml、SP-...



