印度次大陆嘻哈歌曲创作与语言应用数据集
数据来源:互联网公开数据
标签:嘻哈,歌词,创意写作,自然语言处理,机器翻译,情感分析,转录,印度,DHH,Desi Hip Hop
数据概述:
本数据集包含两部分精心整理的歌曲歌词,专为自然语言处理、机器学习和创意人工智能等应用而设计。数据集收录了歌曲段落、描述性提示语和罗马化歌词,为文本生成、情感分析、转录等任务提供了丰富的资源。所有歌曲均来自印度次大陆的嘻哈音乐,也被称为Desi Hip Hop (DHH)。
数据集1:lyrics_described.csv
该数据集包含歌曲段落及其对应的描述性提示语,可用于人工智能创作、歌词分析或逆向提示工程等应用。
数据条目数:[请在此处添加总条目数]
字段:
artist: 艺术家姓名。
title: 歌曲标题。
verse: 歌曲中的特定段落。
reverse_prompt: 与段落相关的描述或创意提示。
数据集2:lyrics_romanised.csv
该数据集包含原始脚本和罗马化脚本的完整歌词,适用于转录研究和多语言自然语言处理任务。
数据条目数:[请在此处添加总条目数]
字段:
title: 歌曲标题。
lyrics: 原始脚本的完整歌词。
artist: 艺术家姓名。
romanized_lyrics: 转录为罗马脚本的歌词。
数据用途概述:
该数据集适用于多种应用场景,包括:
创意人工智能:训练模型生成受现有歌曲启发的全新歌词。
文本到文本生成:微调模型,根据现有段落或提示生成新歌词。
情感分析:分析不同歌曲和艺术家的情感基调和情感。
转录模型:使用romanized_lyrics列开发和基准测试转录系统。
文化分析:研究不同艺术家和流派的歌词主题和趋势。