莫里哀戏剧台词数据集-guillaumegrosjean

莫里哀戏剧台词数据集-guillaumegrosjean

数据来源:互联网公开数据

标签:戏剧,文学,莫里哀,台词,表演,语言模型,文本分析,法国古典主义,剧本

数据概述: 本数据集收录了莫里哀创作的32部戏剧作品中的所有台词提示(cue)。数据集以.csv文件形式存储,包含6个字段,详细描述了每句台词的上下文信息。

数据结构: play_name:剧名 act:幕数,用罗马数字表示("A"值表示幕间休息) scene:场景号 character:说话的角色名称 cue_num:台词在所属场景中的编号(用于恢复原始台词顺序) cue:台词文本

数据用途概述: 该数据集可用于多种用途,包括:

构建对话式人工智能:训练一个以莫里哀风格说话的对话机器人。 表演训练:为表演课程提供即兴创作练习的素材。 戏剧创作:尝试自动创作场景、幕或整部剧,或进行风格迁移(例如,将现代法语转换为古法语)。 文本分析:进行语言学研究,分析莫里哀作品中的语言风格、人物性格等。 模型训练:作为训练法语自然语言处理模型的语料库。

其他说明: 该数据集最初是为了实现一个以莫里哀风格对话的对话代理而创建。

推荐的法语预训练模型(Hugging Face Transformers 库):

BERT类模型:CamemBERT (https://camembert-model.fr/),FlauBERT (https://github.com/getalp/Flaubert) GPT类模型:GPT-fr (https://github.com/AntoineSimoulin/gpt-fr)

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.84 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。