-
IMDB电影评论数据集1963-2021
IMDB电影评论数据集1963-2021 数据来源:互联网公开数据 标签:IMDB,电影评论,自然语言处理,情感分析,文本数据 数据概述:... -
-
性别主义内容检测数据集
性别主义内容检测数据集 数据来源:互联网公开数据 标签:性别主义,社交媒体,内容分类,细粒度分析,自然语言处理,社会正义,在线行为 数据概述: 本数据集旨在支持开发更准确且可解释的性别主义内容检测模型,特别针对来自 Gab 和 Reddit 的细粒度性别主义内容分类。数据集包含三个层次化的子任务: 1.... -
伦巴第语命名实体识别与语言训练数据集
伦巴第语命名实体识别与语言训练数据集 数据来源:互联网公开数据 标签:伦巴第语,命名实体识别,NER,语言模型,文本处理,自然语言处理,维基百科,WikiANN,语言训练,文本标注 数据概述: 本数据集是基于WikiANN项目构建的伦巴第语(Lombard)文本数据集,用于命名实体识别(NER)和语言模型训练。... -
AI4Privacy个人身份信息PII掩蔽数据集-200K样本
AI4Privacy个人身份信息PII掩蔽数据集-200K样本 数据来源:互联网公开数据 标签:AI4Privacy, PII, 个人身份信息, 数据掩蔽, 隐私保护, 自然语言处理, 人工智能, 合成数据, 多语言, Hugging Face 数据概述: 本数据集由 AI4Privacy 开发,是隐私保护与人工智能领域的一项开创性工作。该数据集托管于... -
-
KaggleLLM科学考试-GPT辅助作答数据集
KaggleLLM科学考试-GPT辅助作答数据集 数据来源:互联网公开数据 标签:大型语言模型,LLM,科学考试,自然语言处理,NLP,数据集,Kaggle,考试,竞赛,GPT,人工智能 数据概述: 本数据集专为Kaggle... -
IMDb电影与电视节目用户评论数据集
IMDb电影与电视节目用户评论数据集 数据来源:互联网公开数据 标签:电影,电视节目,评论,用户评价,情感分析,自然语言处理,推荐系统,IMDb,影视数据 数据概述:... -
-
患者医生问答土耳其语数据集
患者医生问答土耳其语数据集 数据来源:互联网公开数据 标签:患者医生问答,土耳其语,医学研究,自然语言处理,NLP,医学教育,医疗沟通 数据概述:... -
疾病提取黑客马拉松数据集
疾病提取黑客马拉松数据集 数据来源:互联网公开数据 标签:疾病提取,自然语言处理,临床文本,医疗实体识别,机器学习,健康数据分析,医疗信息抽取 数据概述:... -
-
-
-
维基百科页面数据集
维基百科页面数据集 数据来源:互联网公开数据 标签:维基百科,文本内容,自然语言处理,嵌入模型,信息检索,知识图谱,数据挖掘 数据概述: 本数据集基于Wikipedia页面内容构建,包含从原始竞赛数据集中提取的问答数据。数据集主要字段包括问题ID、维基百科页面建议、页面内容等。此外,数据集中还包含了通过Sentence-... -
泰卢固语新闻文本数据集-语言模型训练-合并数据集
泰卢固语新闻文本数据集-语言模型训练-合并数据集 数据来源:互联网公开数据 标签:泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据 数据概述: 本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成,整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容,涵盖了各种主题和风格。 数据用途概述:... -
-
法国新冠疫情相关推文数据集
法国新冠疫情相关推文数据集 数据来源:互联网公开数据 标签:法国,新冠疫情,社交媒体,推文,疫情标签,公众情绪,时间序列,自然语言处理 数据概述:... -
英语-印地语句子翻译数据集
英语-印地语句子翻译数据集 数据来源:互联网公开数据 标签:语言翻译,英语,印地语,机器翻译,自然语言处理,双语句对,文本对齐 数据概述: 本数据集来自Helsinki NLP Opus... -
Metacritic游戏主题分析数据集
Metacritic游戏主题分析数据集 数据来源:互联网公开数据 标签:游戏, Metacritic, 用户评价, 媒体评分, 主题分析, 自然语言处理, 聚类分析, 游戏行业, 数据挖掘 数据概述:...