数据2022年哥伦比亚银行数据竞赛企业新闻推荐数据集
数据来源:互联网公开数据
标签:数据竞赛,企业新闻,推荐系统,自然语言处理,客户分析,银行,商业智能
数据概述:
本数据集来源于2022年哥伦比亚银行举办的数据竞赛,旨在帮助银行销售人员更好地了解企业客户,通过新闻推荐系统提供相关、及时且可靠的信息。数据集包含三部分:企业信息、企业与新闻的关系、新闻内容。企业信息部分涵盖了企业的唯一标识符、名称、经济活动描述及子行业分类;企业与新闻的关系部分记录了企业与新闻之间的关联,包括新闻的唯一标识符及新闻的发布时间区间;新闻内容部分提供了新闻的详细信息,包括标题和文本内容。
数据用途概述:
该数据集适用于自然语言处理、推荐系统开发、客户关系管理、数据分析等多种场景。银行可以利用此数据训练新闻推荐模型,提升客户服务质量;研究人员可利用新闻内容进行文本挖掘、情感分析等研究;企业也可以通过分析新闻数据了解行业动态和市场趋势。
举例:
数据集中的企业信息部分包括了企业ID、名称、CIIU分类等字段,具体如下:
- nit: 123456789
- nombre: 阿尔法科技有限公司
- desc_ciiu_división: 制造业
- desc_ciiu_grupo: 计算机、电子和光学产品
- desc_ciiu_clase: 计算机制造
- subsector: 计算机硬件
企业与新闻的关系部分包括了企业ID、新闻URL、新闻时间区间等字段,具体如下:
- new_id: 101
- news_url_absolute: http://www.example.com/news101
- news_init_date: 2022-01-01
- news_final_date: 2022-01-07
新闻内容部分包括了新闻ID、新闻URL、新闻时间区间、新闻标题和新闻文本等字段,具体如下:
- new_id: 101
- news_url_absolute: http://www.example.com/news101
- news_init_date: 2022-01-01
- news_final_date: 2022-01-07
- news_title: 阿尔法科技发布最新产品
- news__text__content: 阿尔法科技有限公司于2022年1月1日发布了其最新的计算机硬件产品,该产品具有高效能和低成本的特点,吸引了众多客户关注。