孟加拉语文本复述语料库

数据集概述

该数据集为孟加拉语复述句对数据集(BPDS),包含被标记为复述(含义相同)或非复述(含义不同)的孟加拉语句子对。数据来源于书籍、报纸、文学文章等多种孟加拉语资源,覆盖广泛主题与写作风格,适用于自然语言处理相关研究。

文件详解

  • 文件名称: Bangla Text Paraphrase.xlsx(位于Bangla Text Paraphrase Corpus for Natural Language/目录下)
  • 文件格式: XLSX(Excel表格)
  • 字段说明:
  • Sentence1: 第一句孟加拉语句子
  • Sentence2: 第二句孟加拉语句子
  • Label: 句子对是否为复述的标记(未明确具体标签值,推测为二元分类标记)

适用场景

  • 自然语言处理研究: 用于训练和评估孟加拉语复述检测模型
  • 语义文本相似度分析: 探究孟加拉语句子间的语义关联程度
  • 文本生成任务: 辅助开发孟加拉语复述生成系统
  • plagiarism检测: 识别孟加拉语文本中的抄袭或复述现象
  • 语言模型训练: 增强孟加拉语模型对语义等价性的理解能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.3 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。