航空旅行信息系统的飞行预订对话数据集-2011-renanaferreira
数据来源:互联网公开数据
标签:航空旅行,自然语言处理,NLU,对话系统,航班预订,意图识别,实体提取,数据集
数据概述:
本数据集包含来自航空旅行信息系统的对话数据,旨在用于自然语言处理和对话系统的训练与研究。数据集分为两种格式:Python pickle格式和Rasa NLU JSON格式。其中,Python pickle格式包含了原始的对话数据及其对应的标签信息;Rasa NLU JSON格式则包含了对话文本、意图识别和实体提取的结果。
数据集分为训练集和测试集两个部分,共计5871个样本(其中训练集4978个样本,测试集893个样本)。数据集中词汇量为943,涉及129个槽位和26个意图。每个样本包含用户查询文本及其对应的标签信息,包括源地城市、目的地城市、出发时间、到达时间等实体信息。
数据用途概述:
该数据集适用于自然语言处理、对话系统设计、意图识别、实体提取等多个研究领域。研究人员可以通过使用该数据集训练与评估对话系统模型,以提高对用户意图的理解和对话交互的质量。此外,该数据集还适合用于教育和培训,帮助学生和研究人员学习如何处理和分析对话文本数据。
示例:
原始格式示例:
0: flight: BOS i want to fly from boston at 838 am and arrive in denver at 1110 in the morning EOS
BOS O
i O
want O
to O
fly O
from O
boston B-fromloc.city_name
at O
838 B-depart_time.time
am I-depart_time.time
and O
arrive O
in O
denver B-toloc.city_name
at O
1110 B-arrive_time.time
in O
the O
morning B-arrive_time.period_of_day
EOS O
Rasa NLU JSON格式示例:
{
"rasa_nlu_data": {
"common_examples": [
{
"text": "i would like to find a flight from charlotte to las vegas that makes a stop in st. louis",
"intent": "flight",
"entities": [
{
"start": 35,
"end": 44,
"value": "charlotte",
"entity": "fromloc.city_name"
},
{
"start": 48,
"end": 57,
"value": "las vegas",
"entity": "toloc.city_name"
},
{
"start": 79,
"end": 88,
"value": "st. louis",
"entity": "stoploc.city_name"
}
]
},
...
]
}
}
数据格式:
训练集文件名:atis.train.pkl(Python 3 Pickle格式)
测试集文件名:atis.test.pkl(Python 3 Pickle格式)
训练集文件名:train.json(Rasa NLU JSON格式)
测试集文件名:test.json(Rasa NLU JSON格式)
说明:
该原始数据集来自于siddhadev提供的ATIS数据集,部分代码也参考了该数据集的实现。原始数据集由微软CNTK示例提供。此外,https://github.com/mesnilgr/is13 也提供了ATIS数据集,但仅包含槽位数据而未包含意图信息。