找到16,243个数据集

标签: 自然语言处理

过滤结果
  • Valorant VCT 电子竞技数据

    2024年12月24日   

    数据是从 YouTube 上保存的 VCT(2023)数据的视频帧中手动收集的。使用 Tesseract OCR 将字幕转换为文本,并使用经过标记的枪支/盾牌图像训练的 Tensorflow CNN 确定枪支/盾牌。
    packageimg
  • 焦虑症基因数据集

    2024年12月19日   

    惊恐障碍 (PD) 的终身患病率为 2-4%,遗传力估计为 40%。然而,PD 的遗传变异贡献仍然知之甚少,之前的研究报告的遗传位点较少且不一致。本研究旨在通过进行迄今为止最大规模的 PD GWAS,探索 PD 的潜在遗传变异。
    packageimg
  • 标准文件格式数据集media-types

    2024年12月17日   

    该数据集包含了一系列MIME类型(Multipurpose Internet Mail Extensions)的详细信息。MIME类型广泛应用于描述互联网数据格式,帮助浏览器、操作系统以及应用程序正确识别和处理文件内容。本数据集列出了多种与音频和字体格式相关的MIME类型、文件扩展名及相关链接。
    packageimg
  • 中华人民共和国教育部发布特殊语言规范

    2024年12月17日   

    数据来源中华人民共和国教育部官方网站,其中包含全面的公开信息并且进行了分类整理 数据集包含:特殊语言授予使用规范
    packageimg
  • 中华人民共和国拼音用规范

    2024年12月17日   

    数据来源中华人民共和国教育部官方网站,其中包含全面的公开信息并且进行了分类整理 数据集包含:拼音使用规范及使用规则
    packageimg
  • Glassdoor 工作评论

    2024年12月15日   

    数据名称:Glassdoor 工作评论 数据说明:这个大型数据集包含工作描述和各种标准(如工作与生活平衡、收入、文化等)的排名。数据涵盖了英国的各个行业。用于多维情绪分析的优秀数据集。 数据时间:更新于 2024年 数据来源:互联网数据
    packageimg
  • Go Emotions:Google 情绪数据集

    2024年12月15日   

    数据名称:Go Emotions:Google 情绪数据集 数据说明:Google AI GoEmotions 数据集由 Reddit 用户的评论组成,并附有情绪色彩标签。GoEmotions...
    packageimg
  • MedQuAD:医学问答数据集

    2024年12月15日   

    数据名称:MedQuAD:医学问答数据集 数据说明:MedQuAD 是释放医学领域 NLP 和 IR 潜力的强大工具。通过利用这一丰富的数据集,研究人员和开发人员正在为未来铺平道路,让个人能够更轻松、更高效地获取准确、全面的健康信息。 数据时间:截止 2024年 数据来源:互联网数据
    packageimg
  • 主题标签新闻数据集

    2024年12月15日   

    数据名称:主题标签新闻数据集 数据说明:108774 篇新闻文章,标有 8 个主题(平衡) 数据时间:更新于 2020年 数据来源:互联网数据
    packageimg
  • 印度手语转字符数据集

    2024年12月15日   

    数据名称:印度手语转字符数据集 数据说明:该数据集提供了详细的手势数据,用于识别印度手语 (ISL) 手势并将其翻译成相应的文本字符。它包含双手数据,并捕捉与手部动作和手指位置相关的关键特征,这些特征对于准确识别 ISL 手势至关重要。 数据时间:更新于 2024年 数据来源:互联网数据
    packageimg
  • 心理健康语料库

    2024年12月15日   

    数据名称:MedQuAD:医学问答数据集...
    packageimg
  • 法律引文文本分类

    2024年12月15日   

    数据名称:法律引文文本分类 数据说明:该数据集包含澳大利亚联邦法院 (FCA) 的澳大利亚法律案例。这些案例是从 AustLII 下载的。包括 2006、2007、2008 和 2009 年的所有案例。对于每份文件,都会捕获标语、引用句子、引用标语和引用类别。引用类别在文件中标明,并表明对本案例引用的案例的处理类型。 数据时间:更新于 2021年...
    packageimg
  • TripAdvisor酒店点评

    2024年12月13日   

    数据名称:TripAdvisor 酒店点评 数据说明:该数据集包含从 TripAdvisor 爬取的 4333 家酒店的 878561 条评论(1.3GB)。使用 json 会使数据更容易读取。请注意,一些评论是用法语写的。 数据时间:截止 2023年 数据来源:互联网数据
    packageimg
  • 亚马逊 Kindle情感分析图书评论

    2024年12月13日   

    数据名称:亚马逊 Kindle 情感分析图书评论 数据说明:1996 年 5 月至 2014 年 7 月期间亚马逊 Kindle 商店类别产品评论的 5 核数据集。共包含 982619 个条目。此数据集中每位评论者至少有 5 条评论,每件产品至少有 5 条评论。 数据时间:1996年~2014 年 数据来源:互联网数据
    packageimg
  • 心理健康情绪分析

    2024年12月13日   

    数据名称:心理健康情绪分析 数据说明:这个综合数据集是精心整理的心理健康状态集合,这些状态来自各种声明。该数据集整合了来自多个来源的原始数据,经过清理和编译,为开发聊天机器人和进行情绪分析创建了一个强大的资源。 数据时间:更新于 2024年 数据来源:互联网数据
    packageimg
  • 日本航空公司点评数据集

    2024年12月13日   

    数据名称:日本航空公司点评数据集 数据说明:该数据集提供了从 TripAdvisor 收集的日本航空 (JAL) 的大量客户评论。它有近 10,000 条条目,涵盖了客户对旅行体验各个方面的见解、反馈和满意度水平。每个条目都包含标题、详细评论文本、评分和其他相关元数据。该数据集旨在支持与情绪分析、客户满意度研究和旅游行业研究相关的数据科学应用。...
    packageimg
  • 社交媒体情绪分析数据集

    2024年12月13日   

    数据名称:社交媒体情绪分析数据集 数据说明:该数据集提供了用户生成内容的快照,包括文本、时间戳、主题标签、国家/地区、点赞和转发。每个条目都揭示了世界各地的个人分享的独特故事——惊喜、兴奋、钦佩、激动、满足等时刻。 数据时间:截止2023年 数据来源:互联网数据
    packageimg
  • 中国奥运健儿抖音相关数据(截止2024年)

    2024年11月26日   

    数据名称:中国奥运健儿抖音相关数据(截止2024年) 数据范围:截止2024年中国奥运健儿抖音相关数据 数据时间:截止 2024年 数据说明:数据维度包含入住房型、入住年月、出行类型、用户点评数、评分、评论有用数、评论日、发布地区、评论图片、评论长度、评论文本等信息。 数据来源:互联网数据
    packageimg
  • 亚马逊产品评论数据

    2024年11月26日   

    数据名称:亚马逊产品评论数据 数据范围:亚马逊精选产品的评级样本 数据时间:截止 2023年 数据说明:该数据集包含来自亚马逊精选产品的评级样本。评论是随机挑选的,语料库包含近 1.6k 条来自不同客户的评论。 数据来源:互联网数据
    packageimg
  • 海绵宝宝角色数据

    2024年11月26日   

    数据名称:海绵宝宝角色数据 数据范围:截止2023年海绵宝宝角色数据 数据时间:截止 2023年 数据说明:该数据集包含海绵宝宝世界中角色的详细信息。数据包括角色外貌、职业、关系等各种属性。 数据来源:互联网数据
    packageimg