多语言软件缺陷报告及其翻译数据集1963-2025
数据来源:互联网公开数据
标签:多语言,软件缺陷报告,翻译,自然语言处理,机器翻译,跨语言分析
数据概述:
本数据集包含了从开源代码仓库中提取的多语言软件缺陷报告,并提供了使用多种机器翻译模型生成的翻译版本。数据集旨在支持自然语言处理研究、缺陷分类以及跨语言分析。数据集包含缺陷报告的唯一标识符、标签、创建时间戳、缺陷描述正文、状态原因、标题、状态以及不同翻译版本及其源语言信息。
数据用途概述:
该数据集适用于多语言自然语言处理研究、机器翻译质量评估、软件缺陷分类自动化以及跨语言信息检索等多个场景。研究者可以利用此数据集分析不同语言的缺陷报告,比较GPT、DeepL和AWS Translate等机器翻译模型的翻译质量,自动化缺陷报告的分类和优先级排序,以及改进非英语缺陷报告的搜索和检索功能。
举例:
数据集包含如下字段:
- number: 每个缺陷报告的唯一标识符
- labels: 分配给缺陷报告的标签,包括缺陷状态
- created_at: 缺陷报告的创建时间戳
- body: 描述缺陷的正文内容
- state_reason: 缺陷报告的状态原因(例如:已完成、未计划)
- title: 缺陷报告的标题
- state: 缺陷报告是否为打开状态或关闭状态
- translation: 缺陷报告正文的翻译版本
- src_lang: 检测到的原始缺陷报告的源语言
- gpt_translation: 使用GPT模型生成的翻译
- gpt_src_lang: GPT检测到的源语言
- deepL_translation: DeepL提供的翻译
- deepL_src_lang: DeepL检测到的源语言
- aws_translation: AWS Translate提供的翻译
- aws_src_lang: AWS Translate检测到的源语言