数据集 - 海数据

酒店评论与地理位置数据集HotelReview-LocationDataset-nagasudhans

2025年5月28日

酒店评论与地理位置数据集HotelReview-LocationDataset-nagasudhans 数据来源：互联网公开数据标签：酒店评论，地理位置，文本分析，情感分析，数据集，旅游，推荐系统，自然语言处理数据概述：该数据集包含来自多个来源的酒店评论数据，记录了用户对酒店的评价以及酒店的地理位置信息。主要特征如下：...

ZIP

Reddit问答社区帖子分析数据集RedditAskRedditPostsAnalysis-camerinfigueroa

2025年5月28日

Reddit问答社区帖子分析数据集RedditAskRedditPostsAnalysis-camerinfigueroa 数据来源：互联网公开数据标签：社交媒体, 文本分析, 内容挖掘, 情感分析, 舆情分析, 话题趋势, 数据抓取, 自然语言处理数据概述：...

ZIP

非洲语音识别数据集Intron-AFriSpeech-CSVDataset-hasninasri

2025年5月28日

非洲语音识别数据集Intron-AFriSpeech-CSVDataset-hasninasri 数据来源：互联网公开数据标签：语音识别，非洲语言，数据集，语音处理，自然语言处理，机器学习，声学模型，语音信号数据概述：该数据集包含来自非洲地区的语音数据，旨在用于非洲语言的语音识别研究。主要特征如下：...

ZIP

恶意评论检测数据集-parthrupavatiya

2025年5月28日

恶意评论检测数据集-parthrupavatiya 数据来源：互联网公开数据标签：评论分析，自然语言处理，文本分类，情感分析，机器学习，数据集，恶意内容，社交媒体数据概述：该数据集包含来自社交媒体平台的大量评论文本，用于恶意评论的检测与分析。主要特征如下：时间跨度：数据记录的时间跨度不明确，但反映了社交媒体上评论的普遍存在。...

ZIP

商品成分信息文本分析数据集ProductIngredientTextAnalysis-vashalavenugopal75

2025年5月28日

商品成分信息文本分析数据集ProductIngredientTextAnalysis-vashalavenugopal75 数据来源：互联网公开数据标签：商品成分, 文本分析, 数据清洗, 机器学习, 自然语言处理, 成分提取, 文本分类, 数据标注数据概述：该数据集包含来自产品说明信息的数据，记录了商品的成分描述文本。主要特征如下：...

ZIP

C语言代码片段及其标签数据集CCodeSnippetsandTheirLabelsDataset-shirshaka

2025年5月28日

C语言代码片段及其标签数据集CCodeSnippetsandTheirLabelsDataset-shirshaka 数据来源：互联网公开数据标签：编程，代码分析，数据集，机器学习，自然语言处理，软件工程，代码标签，代码分类数据概述：该数据集包含来自多个开源项目和代码库的C语言代码片段及其对应的标签。主要特征如下：...

ZIP

韩语问答文本分类与语义向量数据集KoreanQuestion-AnswerTextClassificationandSemanticVectorDatas...

2025年5月28日

韩语问答文本分类与语义向量数据集KoreanQuestion-AnswerTextClassificationandSemanticVectorDataset-doxgxxn 数据来源：互联网公开数据标签：文本分类, 自然语言处理, 语义向量, 问答系统, 韩语, 机器学习, 数据标注, 深度学习数据概述：...

ZIP

印地语文本重复检测数据集Paraphrasedetection-hindiDataset-quicklearner

2025年5月28日

印地语文本重复检测数据集Paraphrasedetection-hindiDataset-quicklearner 数据来源：互联网公开数据标签：自然语言处理，文本分析，数据集，机器学习，重复检测，语言技术，印地语，文本相似度数据概述：该数据集包含印地语文本的重复检测数据，记录了印地语文本中的重复或改写文本对。主要特征如下：...

ZIP

人类与大型语言模型LLM文本交叉对比数据集-mohamedlotfy50

2025年5月28日

人类与大型语言模型LLM文本交叉对比数据集-mohamedlotfy50 数据来源：互联网公开数据标签：文本分析，大型语言模型，人类写作，数据集，自然语言处理，对比分析，机器学习，文本生成数据概述：该数据集包含人类创作的文本与大型语言模型生成的文本的对比数据，旨在研究人类写作风格与LLM生成文本的差异。主要特征如下：...

ZIP

网络评论毒性检测数据集JigsawToxicCommentTrainandTestDataset-ericmclachlan

2025年5月28日

网络评论毒性检测数据集JigsawToxicCommentTrainandTestDataset-ericmclachlan 数据来源：互联网公开数据标签：自然语言处理，文本分类，毒性检测，数据集，机器学习，情感分析，网络安全，在线评论数据概述：该数据集包含来自Jigsaw竞赛的公开数据，记录了网络评论的文本内容及其毒性标签。主要特征如下：...

ZIP

问答匹配越南语数据集QuestionAnsweringVietnameseDataset-ictworld

2025年5月28日

问答匹配越南语数据集QuestionAnsweringVietnameseDataset-ictworld 数据来源：互联网公开数据标签：问答匹配, 文本相似度, 越南语, 自然语言处理, 对话理解, 语义分析, 机器学习, 文本分类数据概述：该数据集包含用于训练和评估越南语问答匹配模型的文本数据，主要记录了问题、上下文和标签。主要特征如下：...

ZIP

讽刺识别全球数据集SarcasmGlobalDataset-nardinehanfi

2025年5月28日

讽刺识别全球数据集SarcasmGlobalDataset-nardinehanfi 数据来源：互联网公开数据标签：讽刺识别，数据集，自然语言处理，机器学习，文本分析，社交媒体分析，语言学，情感计算数据概述：该数据集来自全球多个社交媒体平台的文本数据，主要用于讽刺识别的研究和应用。主要特征如下：时间跨度：...

ZIP

自然语言处理与话题建模数据集NLPTopicModellingDataset-hj5992

2025年5月28日

自然语言处理与话题建模数据集NLPTopicModellingDataset-hj5992 数据来源：互联网公开数据标签：自然语言处理，话题建模，数据集，文本分析，机器学习，文本挖掘，语义分析，信息提取数据概述：该数据集包含自然语言处理领域的话题建模数据，记录了文本内容及其对应的话题标签。主要特征如下：...

ZIP

Reddit新闻帖子数据集RedditNewsPostsDataset-lowerlight

2025年5月28日

Reddit新闻帖子数据集RedditNewsPostsDataset-lowerlight 数据来源：互联网公开数据标签：社交媒体，新闻，文本分析，自然语言处理，数据集，情感分析，机器学习，舆情分析数据概述：该数据集包含来自Reddit平台r/news子版块的帖子数据，记录了用户发布的新闻帖子的详细信息。主要特征如下：...

ZIP

学术论文摘要分类数据集AcademicPaperAbstractClassification-nerdydhavak

2025年5月28日

学术论文摘要分类数据集AcademicPaperAbstractClassification-nerdydhavak 数据来源：互联网公开数据标签：论文摘要, 文本分类, 学术研究, 自然语言处理, 机器学习, 科研, 计算机科学, 数学数据概述：该数据集包含来自学术论文的摘要信息，记录了论文的标题、摘要以及所属学科分类。主要特征如下：...

ZIP

社交媒体评论毒性预测数据集SocialMediaCommentToxicityPrediction-vgodie

2025年5月28日

社交媒体评论毒性预测数据集SocialMediaCommentToxicityPrediction-vgodie 数据来源：互联网公开数据标签：毒性检测, 文本分类, 情感分析, 社交媒体, 自然语言处理, 机器学习, 风险评估, 数据挖掘数据概述：...

ZIP

电商评论情感分析训练数据集E-commerceReviewSentimentAnalysisTrainingDataset-samarthsarin

2025年5月28日

电商评论情感分析训练数据集E-commerceReviewSentimentAnalysisTrainingDataset-samarthsarin 数据来源：互联网公开数据标签：电商评论, 情感分析, 文本分类, 机器学习, 自然语言处理, 情感极性, 数据标注, 深度学习数据概述：...

ZIP

大规模语言模型训练数据集MasterModelData-stillcler

2025年5月28日

大规模语言模型训练数据集MasterModelData-stillcler 数据来源：互联网公开数据标签：自然语言处理，大规模语言模型，数据集，文本数据，机器学习，深度学习，预训练，数据清洗数据概述：该数据集包含用于训练大规模语言模型的海量文本数据，涵盖多种来源和语言。主要特征如下：时间跨度：...

ZIP

Transformer模型嵌入与偏移分割数据集-chaudharypriyanshu

2025年5月28日

Transformer模型嵌入与偏移分割数据集-chaudharypriyanshu 数据来源：互联网公开数据标签：自然语言处理，数据集，Transformer，词嵌入，偏移量，分割，文本分析，深度学习数据概述：该数据集包含用于训练和评估Transformer模型，特别是关注词嵌入、偏移量计算和序列分割的数据。主要特征如下：...