-
CNN新闻内容数据集CNNNewsContentDataset-interviewturabit
CNN新闻内容数据集CNNNewsContentDataset-interviewturabit 数据来源:互联网公开数据 标签:新闻媒体,数据集,文本分析,机器学习,自然语言处理,信息提取,新闻分类,媒体研究 数据概述: 该数据集包含来自CNN的新闻文章数据,记录了大量新闻文本的详细信息。主要特征如下:... -
论文摘要生成数据集PaperSummarizationDataset-mohammedserag
论文摘要生成数据集PaperSummarizationDataset-mohammedserag 数据来源:互联网公开数据 标签:自然语言处理,文本摘要,数据集,机器学习,信息提取,学术研究,深度学习,文本分析 数据概述: 该数据集包含来自学术文献和科技文章的论文摘要数据,记录了论文的原文与相应的摘要信息。主要特征如下:... -
新闻处理数据集NewsProcessedDataset-mario123475
新闻处理数据集NewsProcessedDataset-mario123475 数据来源:互联网公开数据 标签:新闻,数据处理,文本分析,自然语言处理,机器学习,数据挖掘,信息提取,情感分析 数据概述:该数据集包含来自互联网的新闻数据,经过预处理和清洗,适用于文本分析和自然语言处理任务。主要特征如下:... -
网络语义解析数据集第一部分-2023-swaroopnath6
网络语义解析数据集第一部分-2023-swaroopnath6 数据来源:互联网公开数据 标签:网络语义解析,数据集,网络爬虫,信息提取,文本处理,网站解析 数据概述: 本数据集旨在将网站上的相关信息解析为易于理解的文本格式,帮助用户从海量互联网信息中提取出重要数据。数据集包含了从多个信息网站中提取的各种HTML标签特征。... -
印度COVID-19研究文献信息提取三元组数据集
印度COVID-19研究文献信息提取三元组数据集 数据来源:互联网公开数据 标签:COVID-19,印度,文献研究,信息提取,三元组,自然语言处理,知识图谱 数据概述: 本数据集是针对COVID-19 Open Research Dataset Challenge... -
-
DatabricksDolly15k-基于指令的大型语言模型训练数据集
DatabricksDolly15k-基于指令的大型语言模型训练数据集 数据来源:互联网公开数据 标签:大型语言模型,指令遵循,数据增强,自然语言处理,文本生成,分类,问答,摘要,信息提取,创意写作,开源数据集 数据概述: Databricks Dolly... -
-
PDF数据分析数据集
PDF数据分析数据集 数据来源:互联网公开数据 标签:PDF分析,文本提取,数据处理,自然语言处理,机器学习,文档分析,信息提取 数据概述: 本数据集包含了一系列PDF文档,以及对这些文档进行分析后提取的数据。数据集涵盖了文档的基本信息、文本内容、关键词、结构化数据等关键要素,为研究PDF文档的内容和结构提供了基础。 数据用途概述:... -
孟加拉每日英语新闻文章数据集
孟加拉每日英语新闻文章数据集 数据来源:互联网公开数据 标签:孟加拉,新闻,自然语言处理,文本分析,时间序列,媒体研究,信息提取 数据概述: 本数据集收录了孟加拉每日英语新闻文章,数据来源包括五个主要的孟加拉英语新闻门户:The Daily Star、The Financial Express、New Age bd、Dhaka Tribune 和...