Open-Assistant多轮对话波斯语翻译数据集

Open-Assistant多轮对话波斯语翻译数据集 数据来源:互联网公开数据
数据集简介: 本数据集为 Open-Assistant 项目的多轮对话语料库的波斯语翻译版本,旨在支持自然语言处理(NLP)任务中多语言模型的训练与评估。原始数据集包含以英文撰写的人机对话样本,内容涵盖问答、建议、闲聊、任务指令等多种交互形式。该翻译版将对话内容完整转写为波斯语,有助于构建或优化支持波斯语的人机交互系统与语言模型。

字段定义:(以下字段基于 Open-Assistant 原始结构,具体字段可能因版本有所不同)

id:对话样本的唯一标识符

parent_id:上一轮对话的ID(用于重建多轮上下文)

text:波斯语翻译后的对话内容

role:对话角色(如 user 或 assistant)

lang:语言标识,此版本应为 "fa"(波斯语)

rank(如有):对话质量或偏好评分

synthetic(如有):是否为合成内容标识

数据特征:

数据来源:基于 Open-Assistant 项目语料翻译而成

原始语言:英语;目标语言:波斯语(fa)

数据类型:多轮对话文本,结构化JSON或表格格式

数据内容:泛化型指令对话,适合开放域任务

翻译方式:可能为人工翻译、自动翻译或混合方式(视数据说明而定)

适用场景:

波斯语对话系统构建与训练

多语言大模型(LLM)精调与对齐训练

自然语言理解(NLU)与生成(NLG)模型跨语言评估

多语言问答系统、虚拟助手与客服机器人开发

翻译质量评价与多语种语料扩充研究

更新频率: 视原始 Open-Assistant 数据更新与翻译进度而定,可能为一次性数据或阶段性更新。

标签:Open-Assistant,波斯语,NLP,多语言,对话数据,人机交互,自然语言生成,开源数据集,语言模型训练,问答系统,翻译语料,波斯语AI

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 23.3 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。