找到16,243个数据集

标签: 自然语言处理

过滤结果
  • 斯里兰卡科伦坡必胜客餐厅客户评价数据集

    2025年4月15日   

    斯里兰卡科伦坡必胜客餐厅客户评价数据集 数据来源:互联网公开数据 标签:餐饮,评价,客户反馈,必胜客,斯里兰卡,科伦坡,消费者行为,情感分析 数据概述: 本数据集收录了斯里兰卡科伦坡Union Place必胜客餐厅的客户评价信息。该餐厅是斯里兰卡最早的必胜客门店之一。数据集包含客户的评分和文字评论,全面反映了客户的用餐体验。 数据用途概述:...
    packageimg
  • 症状-疾病-TF-IDF数据集

    2025年4月15日   

    症状-疾病-TF-IDF数据集 数据来源:互联网公开数据 标签:症状,疾病,TF-IDF,生物医学,研究关系,诊断引擎 数据概述: 本数据集收录了4,216种独特的诊断和321种独特的症状之间的所有TF-IDF分数。数据源自XueZhong...
    packageimg
  • 学术论文实体匹配研究数据集-DBLP与Scholar对比分析数据集

    2025年4月15日   

    学术论文实体匹配研究数据集-DBLP与Scholar对比分析数据集 数据来源:互联网公开数据 标签:实体匹配,学术论文,数据库,数据清洗,数据质量,机器学习,数据库,论文,DBLP,Scholar 数据概述:...
    packageimg
  • 薄伽梵歌数据集

    2025年4月15日   

    薄伽梵歌数据集 数据来源:互联网公开数据 标签:薄伽梵歌,梵文,印度史诗,吠陀文献,哲学,神学,自然语言处理,数据科学 数据概述:...
    packageimg
  • Steam游戏平台用户评论文本情感分析数据集-2020年

    2025年4月15日   

    Steam游戏平台用户评论文本情感分析数据集-2020年 数据来源:互联网公开数据 标签:Steam,游戏评论,文本情感分析,自然语言处理,NLP,用户评价,数据清洗,机器学习 数据概述: 本数据集包含了Steam游戏平台的用户评论数据,旨在用于文本情感分析任务。数据集中包含用户针对游戏发表的各种评论,这些评论构成了数据集的核心内容。 数据用途概述:...
    packageimg
  • 伊斯兰教圣训文本分析与研究数据集

    2025年4月15日   

    伊斯兰教圣训文本分析与研究数据集 数据来源:互联网公开数据 标签:圣训, Sunnah, 伊斯兰教, NLP, 自然语言处理, 文本分析, 机器学习, 阿拉伯语, 印尼语, 宗教研究, 文本翻译 数据概述: 本数据集旨在促进使用自然语言处理 (NLP)...
    packageimg
  • 玻利维亚政治人物推特数据集

    2025年4月15日   

    玻利维亚政治人物推特数据集 数据来源:互联网公开数据 标签:玻利维亚,政治人物,推特,NLP,情感分析,选举,政治生态,社交媒体分析 数据概述:...
    packageimg
  • 纽约住房数据集

    2025年4月14日   

    纽约住房数据集 数据来源:互联网公开数据 标签:住房市场,纽约,房地产,房价,疫情,美国,城市分析,房地产价格预测,数据挖掘 数据概述: 本数据集记录了2021年1月20日从Zillow.com收集的75,629条纽约市住房 listings 数据,使用Zillow...
    packageimg
  • 豪斯医生剧集字幕数据集

    2025年4月14日   

    豪斯医生剧集字幕数据集 数据来源:互联网公开数据 标签:电视剧,字幕,对话内容,角色分析,剧情研究,影视分析 数据概述: 本数据集收录了美剧《豪斯医生》(House M.D.)全部8个季度的剧集字幕内容,包含72,286行数据,分为2个字段,分别记录对话内容及其对应的角色或说话者。该剧讲述了主角格里高利·豪斯博士及其团队在普林斯顿-...
    packageimg
  • 网站元素数据集

    2025年4月14日   

    网站元素数据集 数据来源:互联网公开数据 标签:网站抓取,机器学习,标题,段落,广告密度,前端监控,数据分析 数据概述: 本数据集通过使用Google Puppeteer工具抓取自互联网,包含了从网页中提取的标题、段落以及广告密度大于200的广告元素。该数据集旨在为开发能够自动抓取和处理网页元素的机器学习模型提供数据支持。 数据用途概述:...
    packageimg
  • 缅甸新闻分类数据集

    2025年4月14日   

    缅甸新闻分类数据集 数据来源:互联网公开数据 标签:缅甸新闻,新闻分类,政治,犯罪,健康,国际,社会,商业,环境,体育,劳工,教育与技术,农民 数据概述: 本数据集收录了2019年至2024年间来自DVB(Democratic Voice of...
    packageimg
  • 皮埃罗格数据集-英语短文本主题相关性评估数据集

    2025年4月14日   

    皮埃罗格数据集-英语短文本主题相关性评估数据集 数据来源:互联网公开数据 标签:文本,主题,相关性,评测,机器学习,教育,英语,自然语言处理,ChatGPT,GPT-4 数据概述: 皮埃罗格数据集是一个小型、开放许可的、机器生成的数据集,包含十五篇短篇英语文本,涵盖五个主题,并附带相关性判断(qrels),专为教育目的设计。...
    packageimg
  • 五大人气卡通角色谷歌搜索结果数据集-2023

    2025年4月14日   

    五大人气卡通角色谷歌搜索结果数据集-2023 数据来源:互联网公开数据 标签:谷歌搜索,卡通,数据分析,人气趋势,文本分析,自然语言处理,在线内容,娱乐研究 数据概述: 本数据集提供了5个广受欢迎的卡通角色——秦时宝(Shin-chan)、多啦A梦(Doraemon)、Ben 10、讨厌的亨利(Horrid Henry)和憨豆先生(Mr....
    packageimg
  • Twitter金融话题文本数据印度Nifty502017-2022

    2025年4月14日   

    Twitter金融话题文本数据印度Nifty502017-2022 数据来源:互联网公开数据 数据来源: 本数据集收集自社交媒体平台,包含带有话题标签 nifty50 的推文,时间范围从 2017年9月 至 2022年9月,适用于金融情绪分析、股市舆情研究和自然语言处理模型训练。 数据内容: 该数据集记录了五年内包含 nifty50...
    packageimg
  • 伦理与非伦理数据集

    2025年4月14日   

    伦理与非伦理数据集 数据来源:互联网公开数据 标签:伦理,非伦理,0shot-TC模型,友好性评估,基准测试 数据概述: 本数据集为《友好性基准》(The Friendliness Benchmark)所创建,旨在评估0shot-TC模型的友好性。数据集包含了用于测试模型在处理伦理和非伦理情境中表现的数据样本。 数据用途概述:...
    packageimg
  • COVID-19机器学习数据集

    2025年4月14日   

    COVID-19机器学习数据集 数据来源:互联网公开数据 标签:COVID-19,机器学习,预测模型,医院接纳,紧急程度,症状分析,数据限制 数据概述: 本数据集基于2019年COVID-19疫情的公开报告,涵盖了国际范围内报告的病例信息。原始数据来源于http://virological.org/t/epidemiological-data-...
    packageimg
  • 孟加拉语拼写检查数据集

    2025年4月14日   

    孟加拉语拼写检查数据集 数据来源:互联网公开数据 标签:孟加拉语,拼写检查,词表,语言处理,数据词典,研究工具,自然语言处理 数据概述:...
    packageimg
  • 荷兰首相记者会演讲记录数据集

    2025年4月14日   

    荷兰首相记者会演讲记录数据集 数据来源:互联网公开数据 标签:荷兰,记者会,COVID-19,演讲记录,文本挖掘,公共卫生,政府声明 数据概述: 本数据集收录了自荷兰首次发布有关新冠病毒情况的记者会演讲记录,包括电视讲话和荷兰国王关于COVID-19情况的演讲,持续到2020年5月1日。所有文件每周更新一次。请注意,所有演讲记录均以荷兰语提供。...
    packageimg
  • 英语-印地语句子数据集

    2025年4月14日   

    英语-印地语句子数据集 数据来源:互联网公开数据 标签:英语,印地语,句子翻译,语言学习,文本分析,机器翻译,双语数据集 数据概述: 本数据集包含2718条英语句子及其对应的印地语翻译,旨在为语言学习、文本分析和机器翻译研究提供高质量的双语数据。数据集中的每对句子均经过仔细校对,确保翻译的准确性和一致性。 数据用途概述:...
    packageimg
  • 机器学习准备数据集-化学领域机器学习与人工智能文章1963-2021

    2025年4月14日   

    机器学习准备数据集-化学领域机器学习与人工智能文章1963-2021 数据来源:互联网公开数据 标签:机器学习,人工智能,化学,数据准备,数据清洗,文本数据处理,特征选择,时间序列分析 数据概述:...
    packageimg