-
乌尔都语罗马字符文本数据集RomanUrduDatasets-sameedrazi
乌尔都语罗马字符文本数据集RomanUrduDatasets-sameedrazi 数据来源:互联网公开数据 标签:乌尔都语,罗马字符,文本数据,自然语言处理,NLP,语言学,数据集,文本分析 数据概述: 该数据集包含使用罗马字符书写的乌尔都语文本数据,旨在促进乌尔都语的自然语言处理研究。主要特征如下:... -
社交媒体仇恨言论与冒犯性语言数据集-suchindrakumar057
社交媒体仇恨言论与冒犯性语言数据集-suchindrakumar057 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体,文本分析,自然语言处理,情感分析,机器学习,语言学 数据概述: 该数据集包含来自社交媒体平台的文本数据,记录了用户发布的仇恨言论和冒犯性语言。主要特征如下: 时间跨度:数据记录的时间范围不定,取决于数据抓取的时间段。... -
文本摘要数据集TextSummarizationDataset-cuitengfeui
文本摘要数据集TextSummarizationDataset-cuitengfeui 数据来源:互联网公开数据 标签:文本摘要,数据集,自然语言处理,机器学习,人工智能,语言学,信息提取,文本分析 数据概述:该数据集包含来自多个来源的文本摘要数据,记录了原文本及其对应的摘要。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2022年。... -
英印双语词汇数据集2023英印双语词汇数据集2023-tihsrahly
英印双语词汇数据集2023英印双语词汇数据集2023-tihsrahly 数据来源:互联网公开数据 标签:英印双语,词汇,数据集,语言学,自然语言处理,机器翻译,教育,多语言学习 数据概述:该数据集包含英印双语词汇数据,记录了英语和印地语词汇的对应关系及相关信息。主要特征如下: 时间跨度:数据记录的时间范围从2023年。... -
印度姓名数据集SixtyThousandUniqueIndianNamesDataset-surajpratap
印度姓名数据集SixtyThousandUniqueIndianNamesDataset-surajpratap 数据来源:互联网公开数据 标签:印度姓名,数据集,文化研究,文本分析,语言学,人口统计,机器学习,数据科学 数据概述:该数据集包含来自互联网的6万个独特的印度姓名数据,记录了不同地区和文化背景下的印度人姓名。主要特征如下:... -
秘鲁手语静态字母数据集PeruvianSignLanguageStaticAlphabetDataset-kito12
秘鲁手语静态字母数据集PeruvianSignLanguageStaticAlphabetDataset-kito12 数据来源:互联网公开数据 标签:手语,数据集,图像识别,计算机视觉,机器学习,教育,语言学,秘鲁文化 数据概述:该数据集包含秘鲁手语的静态字母图像数据,记录了秘鲁手语中各个字母的图像信息。主要特征如下:... -
葡萄牙语词频列表数据集15000PortugueseFrequencyListDataset-jacobgifford
葡萄牙语词频列表数据集15000PortugueseFrequencyListDataset-jacobgifford 数据来源:互联网公开数据 标签:葡萄牙语,词频,语言学,自然语言处理,数据集,文本分析,语言学习,词汇研究 数据概述:... -
泰米尔语短篇故事机器阅读理解数据集TamilShortStoryMRCDataset-charlesey
泰米尔语短篇故事机器阅读理解数据集TamilShortStoryMRCDataset-charlesey 数据来源:互联网公开数据 标签:泰米尔语,短篇故事,机器阅读理解,自然语言处理,数据集,文本分析,语言学,人工智能 数据概述: 该数据集包含泰米尔语短篇故事数据,旨在用于机器阅读理解(MRC)任务。主要特征如下:... -
英语缩写与全称对照数据集EnglishContractionsDataset-hadimotamedi
英语缩写与全称对照数据集EnglishContractionsDataset-hadimotamedi 数据来源:互联网公开数据 标签:语言学,数据集,文本分析,自然语言处理,英语学习,词法研究,教育工具,词典编纂 数据概述: 该数据集包含英语中常见的缩写形式及其对应的全称,记录了英语语言中的缩写用法及其原词。主要特征如下:... -
乌尔都语文本词频统计数据集-乌尔都语文本语料库
乌尔都语文本词频统计数据集-乌尔都语文本语料库 数据来源:互联网公开数据 标签:乌尔都语,文本分析,自然语言处理,词频统计,语料库,语言学,N-gram 数据概述: 本数据集基于在线报纸和书籍的抓取构建的乌尔都语语料库,包含了不同长度的N-gram及其对应的出现频率。数据文件包括:... -
星际迷航剧本数据集StarTrekScriptsDataset-tamarafingerlin
星际迷航剧本数据集StarTrekScriptsDataset-tamarafingerlin 数据来源:互联网公开数据 标签:科幻,剧本,数据集,文本分析,自然语言处理,影视剧,文化研究,语言学 数据概述: 该数据集包含了《星际迷航》系列电视剧和电影的剧本,记录了各个剧集和电影的对话,场景描述等内容。主要特征如下:... -
比喻性名词短语数据集BNFigurativeNPDataset-ghazalismydaughter
比喻性名词短语数据集BNFigurativeNPDataset-ghazalismydaughter 数据来源:互联网公开数据 标签:语言学,自然语言处理,数据集,比喻性语言,名词短语,语义分析,文本挖掘,机器学习 数据概述: 该数据集包含来自语言学研究和自然语言处理领域的比喻性名词短语数据,记录了各类比喻性表达和其语义特征。主要特征如下:... -
英语语言文本数据集LanguageDataDataset-danruan
英语语言文本数据集LanguageDataDataset-danruan 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,语言学,机器学习,文本挖掘,英语,语料库 数据概述: 该数据集包含来自多种来源的英语文本数据,记录了不同类型的英语文本内容。主要特征如下:... -
英文翻译矛盾数据集EnglishTranslationContradictionDataset-sadiq18
英文翻译矛盾数据集EnglishTranslationContradictionDataset-sadiq18 数据来源:互联网公开数据 标签:翻译,机器翻译,数据集,自然语言处理,文本分析,矛盾检测,语言学,英语 数据概述: 该数据集包含了英语文本及其对应的翻译,旨在研究翻译中的矛盾和不一致性。主要特征如下:... -
孟加拉语书籍词形还原数据集BanglaBookLemmatizedCSV-nirajmahi
孟加拉语书籍词形还原数据集BanglaBookLemmatizedCSV-nirajmahi 数据来源:互联网公开数据 标签:孟加拉语,词形还原,数据集,自然语言处理,文本分析,机器学习,语言学,学术资源 数据概述:该数据集包含来自孟加拉语书籍的词形还原数据,记录了孟加拉语文本中单词的词形还原结果。主要特征如下:... -
英语高频词汇统计数据集-sudosharma
英语高频词汇统计数据集-sudosharma 数据来源:互联网公开数据 标签:英语,词汇,数据集,语言学,频率分析,自然语言处理,文本分析,词频统计 数据概述:该数据集包含了英语中出现频率最高的一批词汇,记录了这些词汇及其对应的出现频率。主要特征如下: 时间跨度:数据记录的时间范围不定,取决于语料库的更新。 地理范围:数据覆盖范围为英语通用语料库。... -
拉丁与西里尔字母数据集LatinandCyrillicLettersDataset-oleksiichornyi
拉丁与西里尔字母数据集LatinandCyrillicLettersDataset-oleksiichornyi 数据来源:互联网公开数据 标签:拉丁字母, 西里尔字母, 数据集, 字母识别, 机器学习, 文字处理, 文化研究, 语言学 数据概述: 该数据集包含拉丁字母和西里尔字母的数据,记录了两种字母系统中的字母及其相关特征。主要特征如下:... -
印地语语流中断数据集HindiDisfluencyDataset-daspinaki
印地语语流中断数据集HindiDisfluencyDataset-daspinaki 数据来源:互联网公开数据 标签:语言处理,语料库,数据分析,语音识别,自然语言处理,机器学习,语言学,印地语 数据概述: 该数据集包含来自印地语的语流中断语音和文本数据,记录了印地语语音中的中断,重复,修正等非流畅现象。主要特征如下:... -
美国婴儿姓名统计数据集NationalNamesDataset-solarfury
美国婴儿姓名统计数据集NationalNamesDataset-solarfury 数据来源:互联网公开数据 标签:姓名,统计,人口,数据集,性别,文化研究,社会科学,语言学 数据概述: 该数据集包含来自美国社会保障局的婴儿姓名数据,记录了自1880年以来美国新生儿的姓名,性别及年度统计数量。主要特征如下:... -
姓氏数据库BaseofSurnames-vakhrameevsergey
姓氏数据库BaseofSurnames-vakhrameevsergey 数据来源:互联网公开数据 标签:姓氏,人口统计,数据集,社会学,语言学,文化研究,数据分析,姓名学 数据概述: 该数据集包含姓氏相关信息,记录了不同国家和地区的姓氏数据。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于各数据源的更新频率。...