-
酒店评论与地理位置数据集HotelReview-LocationDataset-nagasudhans
酒店评论与地理位置数据集HotelReview-LocationDataset-nagasudhans 数据来源:互联网公开数据 标签:酒店评论,地理位置,文本分析,情感分析,数据集,旅游,推荐系统,自然语言处理 数据概述: 该数据集包含来自多个来源的酒店评论数据,记录了用户对酒店的评价以及酒店的地理位置信息。主要特征如下:... -
Reddit问答社区帖子分析数据集RedditAskRedditPostsAnalysis-camerinfigueroa
Reddit问答社区帖子分析数据集RedditAskRedditPostsAnalysis-camerinfigueroa 数据来源:互联网公开数据 标签:社交媒体, 文本分析, 内容挖掘, 情感分析, 舆情分析, 话题趋势, 数据抓取, 自然语言处理 数据概述:... -
非洲语音识别数据集Intron-AFriSpeech-CSVDataset-hasninasri
非洲语音识别数据集Intron-AFriSpeech-CSVDataset-hasninasri 数据来源:互联网公开数据 标签:语音识别,非洲语言,数据集,语音处理,自然语言处理,机器学习,声学模型,语音信号 数据概述: 该数据集包含来自非洲地区的语音数据,旨在用于非洲语言的语音识别研究。主要特征如下:... -
恶意评论检测数据集-parthrupavatiya
恶意评论检测数据集-parthrupavatiya 数据来源:互联网公开数据 标签:评论分析,自然语言处理,文本分类,情感分析,机器学习,数据集,恶意内容,社交媒体 数据概述: 该数据集包含来自社交媒体平台的大量评论文本,用于恶意评论的检测与分析。主要特征如下: 时间跨度:数据记录的时间跨度不明确,但反映了社交媒体上评论的普遍存在。... -
商品成分信息文本分析数据集ProductIngredientTextAnalysis-vashalavenugopal75
商品成分信息文本分析数据集ProductIngredientTextAnalysis-vashalavenugopal75 数据来源:互联网公开数据 标签:商品成分, 文本分析, 数据清洗, 机器学习, 自然语言处理, 成分提取, 文本分类, 数据标注 数据概述: 该数据集包含来自产品说明信息的数据,记录了商品的成分描述文本。主要特征如下:... -
C语言代码片段及其标签数据集CCodeSnippetsandTheirLabelsDataset-shirshaka
C语言代码片段及其标签数据集CCodeSnippetsandTheirLabelsDataset-shirshaka 数据来源:互联网公开数据 标签:编程,代码分析,数据集,机器学习,自然语言处理,软件工程,代码标签,代码分类 数据概述: 该数据集包含来自多个开源项目和代码库的C语言代码片段及其对应的标签。主要特征如下:... -
韩语问答文本分类与语义向量数据集KoreanQuestion-AnswerTextClassificationandSemanticVectorDatas...
韩语问答文本分类与语义向量数据集KoreanQuestion-AnswerTextClassificationandSemanticVectorDataset-doxgxxn 数据来源:互联网公开数据 标签:文本分类, 自然语言处理, 语义向量, 问答系统, 韩语, 机器学习, 数据标注, 深度学习 数据概述:... -
印地语文本重复检测数据集Paraphrasedetection-hindiDataset-quicklearner
印地语文本重复检测数据集Paraphrasedetection-hindiDataset-quicklearner 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,重复检测,语言技术,印地语,文本相似度 数据概述: 该数据集包含印地语文本的重复检测数据,记录了印地语文本中的重复或改写文本对。主要特征如下:... -
人类与大型语言模型LLM文本交叉对比数据集-mohamedlotfy50
人类与大型语言模型LLM文本交叉对比数据集-mohamedlotfy50 数据来源:互联网公开数据 标签:文本分析,大型语言模型,人类写作,数据集,自然语言处理,对比分析,机器学习,文本生成 数据概述: 该数据集包含人类创作的文本与大型语言模型生成的文本的对比数据,旨在研究人类写作风格与LLM生成文本的差异。主要特征如下:... -
网络评论毒性检测数据集JigsawToxicCommentTrainandTestDataset-ericmclachlan
网络评论毒性检测数据集JigsawToxicCommentTrainandTestDataset-ericmclachlan 数据来源:互联网公开数据 标签:自然语言处理,文本分类,毒性检测,数据集,机器学习,情感分析,网络安全,在线评论 数据概述: 该数据集包含来自Jigsaw竞赛的公开数据,记录了网络评论的文本内容及其毒性标签。主要特征如下:... -
问答匹配越南语数据集QuestionAnsweringVietnameseDataset-ictworld
问答匹配越南语数据集QuestionAnsweringVietnameseDataset-ictworld 数据来源:互联网公开数据 标签:问答匹配, 文本相似度, 越南语, 自然语言处理, 对话理解, 语义分析, 机器学习, 文本分类 数据概述: 该数据集包含用于训练和评估越南语问答匹配模型的文本数据,主要记录了问题、上下文和标签。主要特征如下:... -
讽刺识别全球数据集SarcasmGlobalDataset-nardinehanfi
讽刺识别全球数据集SarcasmGlobalDataset-nardinehanfi 数据来源:互联网公开数据 标签:讽刺识别,数据集,自然语言处理,机器学习,文本分析,社交媒体分析,语言学,情感计算 数据概述: 该数据集来自全球多个社交媒体平台的文本数据,主要用于讽刺识别的研究和应用。主要特征如下: 时间跨度:... -
自然语言处理与话题建模数据集NLPTopicModellingDataset-hj5992
自然语言处理与话题建模数据集NLPTopicModellingDataset-hj5992 数据来源:互联网公开数据 标签:自然语言处理,话题建模,数据集,文本分析,机器学习,文本挖掘,语义分析,信息提取 数据概述: 该数据集包含自然语言处理领域的话题建模数据,记录了文本内容及其对应的话题标签。主要特征如下:... -
Reddit新闻帖子数据集RedditNewsPostsDataset-lowerlight
Reddit新闻帖子数据集RedditNewsPostsDataset-lowerlight 数据来源:互联网公开数据 标签:社交媒体,新闻,文本分析,自然语言处理,数据集,情感分析,机器学习,舆情分析 数据概述: 该数据集包含来自Reddit平台r/news子版块的帖子数据,记录了用户发布的新闻帖子的详细信息。主要特征如下:... -
学术论文摘要分类数据集AcademicPaperAbstractClassification-nerdydhavak
学术论文摘要分类数据集AcademicPaperAbstractClassification-nerdydhavak 数据来源:互联网公开数据 标签:论文摘要, 文本分类, 学术研究, 自然语言处理, 机器学习, 科研, 计算机科学, 数学 数据概述: 该数据集包含来自学术论文的摘要信息,记录了论文的标题、摘要以及所属学科分类。主要特征如下:... -
社交媒体评论毒性预测数据集SocialMediaCommentToxicityPrediction-vgodie
社交媒体评论毒性预测数据集SocialMediaCommentToxicityPrediction-vgodie 数据来源:互联网公开数据 标签:毒性检测, 文本分类, 情感分析, 社交媒体, 自然语言处理, 机器学习, 风险评估, 数据挖掘 数据概述:... -
电商评论情感分析训练数据集E-commerceReviewSentimentAnalysisTrainingDataset-samarthsarin
电商评论情感分析训练数据集E-commerceReviewSentimentAnalysisTrainingDataset-samarthsarin 数据来源:互联网公开数据 标签:电商评论, 情感分析, 文本分类, 机器学习, 自然语言处理, 情感极性, 数据标注, 深度学习 数据概述:... -
大规模语言模型训练数据集MasterModelData-stillcler
大规模语言模型训练数据集MasterModelData-stillcler 数据来源:互联网公开数据 标签:自然语言处理,大规模语言模型,数据集,文本数据,机器学习,深度学习,预训练,数据清洗 数据概述: 该数据集包含用于训练大规模语言模型的海量文本数据,涵盖多种来源和语言。主要特征如下: 时间跨度:... -
Transformer模型嵌入与偏移分割数据集-chaudharypriyanshu
Transformer模型嵌入与偏移分割数据集-chaudharypriyanshu 数据来源:互联网公开数据 标签:自然语言处理,数据集,Transformer,词嵌入,偏移量,分割,文本分析,深度学习 数据概述: 该数据集包含用于训练和评估Transformer模型,特别是关注词嵌入、偏移量计算和序列分割的数据。主要特征如下:... -
医疗问答指令数据集MedicalQuestionAnsweringInstructionDataset-arungarimella
医疗问答指令数据集MedicalQuestionAnsweringInstructionDataset-arungarimella 数据来源:互联网公开数据 标签:医疗, 问答系统, 指令, 自然语言处理, 文本生成, 医疗健康, 大模型, 数据标注 数据概述:...