-
阿拉伯语仇恨言论检测数据集-42k
阿拉伯语仇恨言论检测数据集-42k 数据来源:互联网公开数据 标签:阿拉伯语,仇恨言论,社交媒体,文本分析,自然语言处理,情感分析,语言学,机器学习 数据概述: 本数据集包含超过42,000条阿拉伯语文本数据,主要来源于社交媒体平台。 数据集旨在为研究和开发阿拉伯语仇恨言论检测模型提供支持。... -
德语词汇列表数据集
德语词汇列表数据集 数据来源:互联网公开数据 标签:德语词汇,语言学,语料库,书籍,文本分析,教育,研究 数据概述: 本数据集收录了11本德语书籍的文本内容,总计超过3000页。数据集中只包含一个字段,为德语词汇列表。这些书籍来源于互联网资源,包括DOABooks和USP E-Disciplinas平台上的相关文档。 数据用途概述:... -
-
-
贝叶斯网络自然语言解释文本数据集
贝叶斯网络自然语言解释文本数据集 数据来源:互联网公开数据 标签:贝叶斯网络,自然语言解释,可解释AI,文本分析,机器学习,语料库,语言学,解释生成 数据概述: 本数据集,即ExBAN语料库(Explanations for BAyesian... -
孟加拉语文本噪声标注数据集-情感分析应用-2024
孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'... -
词语难度评估数据集
词语难度评估数据集 数据来源:互联网公开数据 标签:词语难度,语言学,文本简化,深度学习,特征工程,自然语言处理,词频分析,二分类问题 数据概述 本数据集包含40,481条数据记录,主要用于评估词语的难度。数据集的每个实例包含多个特征,包括词语本身、词长、词频、词频的对数变换、平均反应时间(Mean... -
印度及其他国家姓氏国籍分类数据集
印度及其他国家姓氏国籍分类数据集 数据来源:互联网公开数据 标签:姓氏,国籍分类,数据集,文化研究,人口统计,语言学,机器学习 数据概述:... -
巴西亚克语新约圣经文本数据集
巴西亚克语新约圣经文本数据集 数据来源:互联网公开数据 标签:巴西亚克语,新约圣经,文本数据,宗教研究,语言学 数据概述: 本数据集收录了27本巴西亚克语新约圣经的文本数据,以CSV格式呈现。这些文本涵盖了新约圣经的所有章节,为宗教研究、语言学分析以及文化研究提供了丰富的资源。 数据用途概述:... -
尼泊尔事实性问题意图分类数据集
尼泊尔事实性问题意图分类数据集 数据来源:互联网公开数据 标签:尼泊尔,自然语言处理,问题分类,问答系统,知识库,教育,语言学 数据概述: 本数据集收录了从尼泊尔一般知识书籍中收集的事实性问题,并根据开发的分类体系进行了标注。数据集包括了不同类别和意图的问题,旨在为尼泊尔自然语言处理领域的问答系统提供基础数据支持。 数据用途概述:... -
世界语言结构数据库语言特征与分布数据集
世界语言结构数据库语言特征与分布数据集 数据来源:互联网公开数据 标签:语言学,语言结构,语言特征,全球语言,WALS,语言分布,语言多样性,数据分析,地图可视化 数据概述: 本数据集基于《世界语言结构数据库》(WALS, World Atlas of Language... -
阿拉伯语日常对话数据集-涵盖5000个对话-多主题-AI生成
阿拉伯语日常对话数据集-涵盖5000个对话-多主题-AI生成 数据来源:互联网公开数据 标签:阿拉伯语,对话,语言学,自然语言处理,AI生成,文本数据,文化交流,语言学习 数据概述:... -
孟加拉语词形还原数据集
孟加拉语词形还原数据集 数据来源:互联网公开数据 标签:孟加拉语,词形还原,自然语言处理,文本分析,语言学,数据集 数据概述: “孟加拉语词形还原数据集”收录了来自不同文本来源的词形还原词,特别 focus 在泰戈尔短篇小说和涵盖多个领域的新闻文章。该数据集为孟加拉语自然语言处理任务提供了宝贵的资源。 数据用途概述:... -
Hinglish印地语-英语混合语机器翻译数据集
Hinglish印地语-英语混合语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,文本生成,代码混合语言,Hinglish,印地语,英语,自然语言处理,语言学,数据集 数据概述: 本数据集(HinGE)旨在促进代码混合语言,特别是 Hinglish(印地语和英语的混合)的自然语言生成研究。数据集包含由人类生成的 Hinglish... -
英德阿拉伯文本翻译数据集
英德阿拉伯文本翻译数据集 数据来源:互联网公开数据 标签:文本翻译,语言学,英语,德语,阿拉伯语,多语言数据集,语言对比 数据概述: 本数据集包含从英语翻译到德语和阿拉伯语的多语言文本内容。数据集涵盖了广泛的文本类型,适用于语言学研究、机器翻译模型训练以及跨语言信息处理等领域。其中,阿拉伯语翻译部分来源于特定的数据集。 数据用途概述:... -
-
-
WordNet词汇下位词关系数据集
WordNet词汇下位词关系数据集 数据来源:互联网公开数据 标签:WordNet,词汇语义,下位词,语言学,词典,自然语言处理,知识图谱 数据概述: 本数据集包含了从WordNet... -
梵名数据集
梵名数据集 数据来源:互联网公开数据 标签:梵名,名字,意义,印度文化,宗教,学习资源,语言学 数据概述: 本数据集收录了来自不同梵文经典和文献中的神祇名字及其在梵文中的含义,并翻译成英文以便更好地理解。数据集旨在为研究印度文化和宗教、学习梵文及其意义提供资源。未来将不断增加新的名字和解释。 数据用途概述:... -
荷马奥德赛双语数据集
荷马奥德赛双语数据集 数据来源:互联网公开数据 标签:荷马,奥德赛,双语文本,文学研究,翻译分析,语言学,比较文学 数据概述: 本数据集包含荷马史诗《奥德赛》的双语文本,包括希腊原文和英文翻译。数据集由三个表格组成,每个表格提供了分析和研究文本所需的必要信息。 希腊文本表: 包含荷马《奥德赛》的原始希腊文本。 分为三列:卷号、行号和希腊文本。...