数据集概述
本数据集为Languages期刊投稿论文的补充材料,包含欧洲议会英文演讲及其德语笔译、口译文本的句法研究相关文件,涵盖转录文本、词性频率数据、口译员识别数据、统计分析脚本及可视化图表,以压缩包形式提供。
文件详解
- 压缩包文件
- 文件名称:SupMat.zip
- 文件格式:ZIP
- 包含内容:
- 转录文本文件:sample_df.tsv(原始及标记化文本)
- 词性频率数据文件:pos_freqs_PART_split.tsv(含德语PART拆分)、pos_freqs.tsv(不含德语PART拆分)
- 口译员识别数据文件:voice_embeddings.csv
- 统计分析脚本:stats.R(用于统计分析及图表生成)
- 可视化图表文件夹:plots
数据来源
Languages期刊投稿论文“Nominal and verbal syntax in translation and interpreting. Evidence from English speeches made in the European Parliament and their German translations and interpretations”
适用场景
- 翻译句法对比研究:分析欧洲议会英德笔译、口译文本中名词和动词句法特征的差异与规律
- 词性频率分析:基于词性频率数据探究翻译场景下的语言使用偏好
- 口译员识别研究:利用语音嵌入数据开展口译员身份识别相关分析
- 翻译语言学统计建模:通过R脚本复现或扩展论文中的统计分析与可视化工作