-
英语-达里贾双语数据集
英语-达里贾双语数据集 数据来源:互联网公开数据 标签:机器翻译,双语语料库,摩洛哥阿拉伯语,达里贾,自然语言处理,翻译模型,语言学习 数据概述: 本数据集是一个社区驱动的双语语料库,由MAD-... -
英语-泰语平行语料库
英语-泰语平行语料库 数据来源:互联网公开数据 标签:平行语料库,机器翻译,自然语言处理,英语,泰语,跨语言分析,文本对齐,翻译模型训练 数据概述: 本数据集是一个大型的英语-... -
BERT嵌入垃圾邮件数据集
BERT嵌入垃圾邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,短信分类,BERT嵌入,机器学习,文本分析,自然语言处理,ROC-AUC指标 数据概述... -
Jigsaw毒性评论标注数据集-评论毒性评估与分析
Jigsaw毒性评论标注数据集-评论毒性评估与分析 数据来源:互联网公开数据 标签:毒性评论,自然语言处理,文本分类,情感分析,仇恨言论,冒犯性语言,标注数据,社交媒体,机器学习 数据概述:... -
GPT-4精细评价数据集
GPT-4精细评价数据集 数据来源:互联网公开数据 标签:GPT-4, AI模型评价, 反馈数据, 评分标准, 自然语言处理, 模型评估, 机器学习, 数据分析, 人工智能 数据概述:... -
巴西葡萄牙语文学语料库
巴西葡萄牙语文学语料库 数据来源:互联网公开数据 标签:文学,葡萄牙语,巴西,文学主题,风格分析,作者识别,历史文本,自然语言处理 数据概述 本数据集收录了1840年至1908年间巴西葡萄牙语文学作品的语料,总字数超过370万字。数据集包含81部独立的文学作品,由多位知名巴西作家创作,包括阿道夫·坎尼亚(Adolfo... -
人工智能研究指令与输出数据集
人工智能研究指令与输出数据集 数据来源:互联网公开数据 标签:人工智能,机器学习,指令输出,研究资源,自然语言处理,机器人技术,对话系统 数据概述:... -
StackOverflow开发者问答数据分析与标签分类数据集
StackOverflow开发者问答数据分析与标签分类数据集 数据来源:互联网公开数据 标签:Stack Overflow, 开发者问答, 编程, 技术, 标签, 数据分析, 自然语言处理, 信息检索 数据概述: 本数据集包含了从Stack Overflow网站抓取的大量问题数据,数据内容涵盖了开发者在Stack... -
阿塞拜疆Interpress新闻网站新闻文章数据集-2014年12月31日至2024年3月24日
阿塞拜疆Interpress新闻网站新闻文章数据集-2014年12月31日至2024年3月24日 数据来源:互联网公开数据 标签:新闻文章,阿塞拜疆,Interpress,新闻,媒体,内容分析,文本挖掘,自然语言处理,新闻报道 数据概述:... -
英语单词与定义扩展词典数据集
英语单词与定义扩展词典数据集 数据来源:互联网公开数据 标签:英语单词,定义,词汇表,自然语言处理,NLP,词义解释,教育工具,语言学习,学术研究 数据概述:... -
情绪分类葡萄牙语数据集
情绪分类葡萄牙语数据集 数据来源:互联网公开数据 标签:情绪分析,自然语言处理,葡萄牙语,情感分类,社交媒体,文本数据,深度学习,情感识别 数据概述... -
阿拉伯语增强型开放海豚数据集-用于自动化作文评分-多语言应用
阿拉伯语增强型开放海豚数据集-用于自动化作文评分-多语言应用 数据来源:互联网公开数据 标签:阿拉伯语,作文评分,自然语言处理,机器学习,数据集,文本分类,多语言,Open Orca, GPT-3.5, GPT-4, RAG, 翻译 数据概述:... -
检测LLM生成文本数据集
检测LLM生成文本数据集 数据来源:互联网公开数据 标签:LLM,生成文本检测,文本分类,自然语言处理,数据集合并,文本生成评估 数据概述: 本数据集是一个整合了多个数据集的综合集合,主要用于“LLM - Detect AI Generated... -
维基百科电影剧情摘要数据集
维基百科电影剧情摘要数据集 数据来源:互联网公开数据 标签:电影,剧情,摘要,自然语言处理,文本分析,电影推荐,文化研究 数据概述: 本数据集基于JustinR在Kaggle发布的维基百科电影剧情数据集,包含了数以千计的电影及其完整剧情。在此基础上,我们使用DistilBART-... -
毒评分类挑战训练与测试数据集带标签
毒评分类挑战训练与测试数据集带标签 数据来源:互联网公开数据 标签:毒评分类,机器学习,文本分析,自然语言处理 数据概述: 本数据集来源于毒评分类挑战,包含了合并的训练数据和带标签的测试数据。数据集中的每条评论都被标记为包含或不包含毒评,未标记的测试数据已从数据集中移除。该数据集旨在用于机器学习模型的训练和评估,特别是针对文本分类任务中的毒评检测。... -
Twitter用户情感分析数据集-2009年
Twitter用户情感分析数据集-2009年 数据来源:互联网公开数据 标签:情感分析,社交媒体,Twitter,文本数据,情绪识别,自然语言处理,机器学习,用户行为 数据概述:... -
印度维基百科文章数据集
印度维基百科文章数据集 数据来源:互联网公开数据 标签:维基百科,印度,自然语言处理,文本挖掘,语言模型,文本数据,机器学习 数据概述: 本数据集包含172,000篇经过清洗的印度维基百科文章,已转换为CSV格式,便于直接作为Pandas... -
-
StackExchange园艺与景观问答社区主题数据集-2023年12月
StackExchange园艺与景观问答社区主题数据集-2023年12月 数据来源:互联网公开数据 标签:园艺,景观,问答,Stack Exchange,社区,问题,答案,标签,文本嵌入,自然语言处理 数据概述: 本数据集收录了截至2023年12月31日,来自Stack... -
标准对话日志数据集
标准对话日志数据集 数据来源:互联网公开数据 标签:对话日志,自然语言处理,机器学习,聊天机器人,情感分析,文本分类,对话分析,OpenAI 数据概述:...