找到6,175个数据集

标签: 文本分析

过滤结果
  • RePAST_Oral_history_research_数据集

    2026年1月28日   

    数据集概述 本数据集为RePAST口述历史研究相关的数据集,包含2个压缩文件,未划分训练/测试集、数据/标签集或原始/处理集,主要用于支持口述历史领域的研究工作。 文件详解 RePAST02_Oral-history1.zip 文件格式:ZIP 字段映射介绍:无公开内容预览,推测包含口述历史研究相关的原始或整理资料 RePAST02_Oral-...
    packageimg
  • AshLI_Based_阿什莫尔拉丁铭文项目EpiDoc归档数据

    2026年1月28日   

    数据集概述 本数据集为阿什莫尔拉丁铭文项目(AshLI)的EpiDoc格式文件归档,包含该项目相关的拉丁铭文数字化文档。数据以压缩包形式提供,可用于古典学领域对拉丁铭文的文本研究与数字化分析。 文件详解 文件名称:AshLI.zip 文件格式:ZIP...
    packageimg
  • TripAdvisor_Based_TripAdvisor基础数据

    2026年1月27日   

    数据集概述 本数据集为TripAdvisor基础数据,包含六个文件,涉及关键词频率、词聚类、出现"day"的短语及结果文档等内容,主要用于文本相关的分析研究,涵盖Excel、Word、CSV三种格式,以Excel文件为主。 文件详解 body_tablafrecuencias_palabras_clave.xlsx 文件格式:XLSX...
    packageimg
  • Rantanplan_Source_西班牙语文本韵律分析工具开发包

    2026年1月27日   

    数据集概述 本数据集为西班牙语文本韵律分析工具Rantanplan的开发包,包含一个压缩文件,可用于西班牙语文本的韵律分析相关研究与工具开发。 文件详解 文件名称:rantanplan-develop.zip 文件格式:ZIP 字段映射介绍:压缩包内包含西班牙语文本韵律分析工具Rantanplan的开发相关文件,具体内容需解压后查看。 适用场景...
    packageimg
  • EDCS_Based_古代地中海社会动力学研究_铭文数据_2022

    2026年1月27日   

    数据集概述 本数据集是2022年版EDCS铭文数据,包含经清洗和精简的537,262条拉丁铭文记录,由古地中海社会动力学项目(SDAM)为铭文趋势定量研究创建。相比2021版,新增36,726条铭文,优化属性结构后保留27个属性,文件大小约465.5MB,存储为JSON格式。 文件详解...
    packageimg
  • IN02038_Based_Chapagaon铭文梵语XML草案数据

    2026年1月27日   

    数据集概述 本数据集为Chapagaon铭文(编号IN02038)的梵语XML文件,是待整合至“Siddham”档案的Epidoc格式草案版本,不含元数据。数据集仅包含1个XML文件,无目录层级划分,可用于古铭文数字化研究与文本分析。 文件详解 文件名称:IN02038.xml 文件格式:XML...
    packageimg
  • IN02060_凯瓦尔普尔碑文_梵语_XML_草稿_Epidoc版本

    2026年1月27日   

    数据集概述 本数据集包含IN02060 Kevalpur铭文的梵语XML文件,为Epidoc格式的草稿版本,计划纳入"Siddham"档案。数据聚焦于该铭文的数字化文本内容,未包含元数据,仅提供一份核心文件用于铭文研究与文本分析。 文件详解 文件名称:IN02060.xml 文件格式:XML...
    packageimg
  • ELTeC_pol_Based_波兰小说语料库_2021年4月发布版

    2026年1月26日   

    数据集概述 本数据集是ELTeC(欧洲文学文本集合)的波兰语小说语料库2021年4月发布版,包含100部波兰语小说。数据集支持欧洲文学远程阅读研究,由COST Action CA16204项目产出,所有文本均属于公有领域,可用于文学文本分析、语言研究等场景。 文件详解 文件名称:README.md 文件格式:MD...
    packageimg
  • SISU_2021_Based巴西联邦大学配额法与平权行动分析补充材料

    2026年1月26日   

    数据集概述 本数据集是分析巴西联邦大学配额法与SISU 2021平权行动的论文补充材料,包含SISU 2021-1公告、相关立法文件、图表、大学分类表格及公告摘录等6份文件,用于支持论文关于配额生竞争普通名额的研究,为巴西高等教育公平性分析提供原始资料。 文件详解 压缩文件(Archive files) 文件名称:Editais SISU...
    packageimg
  • Data_rhetoric_Based_中俄美干预相关中文修辞研究数据

    2026年1月26日   

    数据集概述 本数据集为研究中俄美干预相关中文修辞的文章提供支持,核心内容围绕中文语境下对俄罗斯和美国干预行为的修辞表达展开,包含一个结构化文件,可用于分析相关文本中的修辞特征与倾向。 文件详解 文件名称:Article_data_rhetoric.xlsx 文件格式:XLSX...
    packageimg
  • 推特上的_黑人的命也是命_运动及相关反抗议活动_2013年至2021年

    2026年1月26日   

    数据集概述 本数据集包含2013年至2021年#BlackLivesMatter运动及反抗议相关的Twitter数据,涵盖6390万条推文,来自1300万用户,涉及超100个国家。数据基于关键词(如BlackLivesMatter、AllLivesMatter、BlueLivesMatter及其变体)筛选,反映该时期相关社会运动的社交媒体舆论动态。...
    packageimg
  • CGU_Website_Based_巴西联邦审计法院审计报告原始文本数据集_2020

    2026年1月18日   

    数据集概述 本数据集包含巴西联邦审计法院(CGU)网站发布的审计报告原始文本,2020年通过脚本scrape_pdfs.py抓取,用于论文“机器学习在反腐败政策分析与支持中的应用”研究。现CGU网站结构变更导致爬虫失效,但报告仍可手动获取,含2个文件。 文件详解 scrape_pdfs.py 文件格式:.py...
    packageimg
  • Top_100_collected_丹麦经典作家作品高频评论词汇数据

    2026年1月25日   

    数据集概述 本数据集包含丹麦五部经典文学作品数字版本中评论最多的一百个词汇,涉及作家包括Georg Brandes、Grundtvig、Henrik Ibsen、Ludvig Holberg、Søren Kierkegaard和Zacharias Topelius。数据存储于单个Excel文件中,可用于分析丹麦文学作品的评论热点词汇及文本特征。...
    packageimg
  • IC_ac_uk_Based_rzepa博客文章完整导出数据2020

    2026年1月25日   

    数据集概述 本数据集为WordPress博客文章的XML归档文件,包含2008年至2020年3月7日期间发布于https://www.ch.ic.ac.uk/rzepa/blog的所有博客文章内容,可用于学术博客内容分析、文本挖掘等研究场景,仅包含一个文件。 文件详解...
    packageimg
  • KOnPoTe_Based_法语房产领域文本知识图谱构建实验评估数据

    2026年1月23日   

    数据集概述 本数据集包含用于评估KOnPoTe(从文本中填充知识图谱/本体)方法的11个文件,覆盖法语房产销售领域。内容分为输入数据、黄金标准和输出结果三类,支持分析不同词形还原工具与方法对知识图谱构建的影响。 文件详解 输入文件(Inputs) 文件名称:biens_immobiliers.owl 文件格式:OWL...
    packageimg
  • ELTeC_ukr_Based_乌克兰小说语料库2021年4月发布数据

    2026年1月23日   

    数据集概述 本数据集为ELTeC-ukr乌克兰小说语料库2021年4月发布版本,包含50部编码为1级的乌克兰小说。数据集共2个文件,无目录结构,主要文件类型为压缩包和说明文档,用于支持欧洲文学远程阅读研究。 文件详解 文件名称:README.md 文件格式:MD 字段映射介绍:包含语料库基本信息、贡献者列表、项目背景(COST Action...
    packageimg
  • Stāmerienas_Based_2025年技术沙龙访客访谈转录数据

    2026年1月23日   

    数据集概述 本数据集包含2025年6月28日在Stāmerienas城堡举办的技术沙龙活动中,对访客进行的步行访谈转录内容,共11份文档,记录了访客参与活动的相关反馈与交流信息。 文件详解 访谈转录文档...
    packageimg
  • EDH_Based_SDAM项目古代地中海拉丁铭文清洗数据集_2022

    2026年1月22日   

    数据集概述 本数据集包含来自海德堡铭文数据库(EDH)的81,883条清洗精简后的拉丁铭文数据,由古代地中海社会动力学项目(SDAM)于2022年11月3日聚合生成,用于铭文趋势量化研究。数据转换全流程通过Python和R脚本记录,存储为JSON文件以兼容主流分析工具,共包含2个文件。 文件详解...
    packageimg
  • Stamatatos06_Based_作者识别C10文本数据集_2015

    2026年1月22日   

    数据集概述 本数据集包含来自十位不同作者(C10)的五百篇文本,用于作者识别研究。数据以压缩包形式提供,内部包含一个JSON文件记录真实标签(ground truth),无训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:stamatatos06-authorship-attribution-...
    packageimg
  • VADER_Based科技媒体文章情感与共现分析数据集2016_2019

    2026年1月22日   

    数据集概述 本数据集包含2016年1月至2019年4月期间多源科技媒体文章的情感分析结果,采用VADER工具和共现分析方法完成。数据基于14个来源的科技媒体文章,针对社会议题与高频共现词的组合进行段落级情感评分,最终生成情感复合得分及趋势分析结果。 文件详解 文件名称:sentiments.zip 文件格式:ZIP...
    packageimg