找到5个数据集

标签: 文本相似度分析

过滤结果
  • 多语言新闻文章相似度数据集

    2025年12月9日 30 9 5

    数据集概述 该数据集是作者早期工作的扩展版本,包含2020年上半年的新闻文章对及其相似度标注。标注涵盖地理焦点、命名实体、时间相关性、叙事模式、整体内容、写作风格、语气及框架观点共八个维度,为多语言新闻文本的相似度分析提供结构化标注数据。 文件详解 文档文件: Codebook for text similarity annotations -...
    packageimg
  • Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据

    2025年12月9日 30 20 3

    数据集概述 该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本,其中4067条为接受的释义,3792条为拒绝的非释义,同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛,但此前未单独发布。 文件详解 文件名称: Webis-CPC-11.zip 文件格式: ZIP压缩包 内部文件结构:...
    packageimg
  • 学术_小说与歌曲语言数据集

    2025年12月5日 30 66 35

    数据集概述 该数据集为研究项目“学术、小说与歌曲中的语言”的数据管理计划(DMP)。核心内容围绕学术写作、小说文本与歌曲歌词中的动词使用差异展开,对比不同体裁及文本内的动词多样性,分析各体裁高频动词特征。 文件详解 文件名称:DMP_Language in academics fiction and song.pdf 文件格式:PDF (.pdf)...
    packageimg
  • 欧洲宽带与电视观看行为文本相似度分析数据集EuropeanBroadbandandTVViewingBehaviorTextSimilarityAnaly...

    2025年5月1日 30 174 82

    欧洲宽带与电视观看行为文本相似度分析数据集EuropeanBroadbandandTVViewingBehaviorTextSimilarityAnalysisDataset-saneh29 数据来源:互联网公开数据 标签:文本相似度, 宽带, 电视观看, 数据分析, 自然语言处理, 欧洲, 市场调研, 文本匹配 数据概述:...
    packageimg
  • 新冠疫情相似句对判定数据集

    2025年4月14日 30 133 72

    新冠疫情相似句对判定数据集 数据来源:互联网公开数据 标签:新冠疫情,相似句对,文本分析,自然语言处理,疫情信息,语义分析 数据概述:...
    packageimg