数据集概述
本数据集是一套完整的美国商业趋势调查数据,涵盖2023年9月至2025年5月期间(共约54个双周期),通过系统化的问卷调查收集全美企业对当前经营状况、收入变化、远程办公实践等核心议题的反馈。数据采用双周期采集方式,每个周期覆盖14天,为研究者提供高频率的商业信心指标变化轨迹。
数据集包含10个主文件,从国家、州、行业、企业规模、都市区、城乡分类等多个维度展开调查,并设有远程办公专项补充调查。每个文件均包含响应估计值、标准误差、综合指数、时间参考等标准数据表,部分文件额外提供样本量统计,确保数据可信度评估。
核心数据维度
数据集通过以下维度对企业样本进行分类统计:
企业规模分类:按员工数量划分为7个等级,从1至4人的微型企业到250人以上的大型企业,另有跨州多单位企业类别。
行业分类:采用北美行业分类系统二位代码,覆盖农林渔猎、制造、零售、金融、医疗、住宿餐饮等18个主要行业门类,部分文件提供三位代码的细分行业数据。
地理分类:包含50个州及华盛顿特区的州级数据,以及美国前25个大都市统计区的城市群数据,并提供城市与乡村地区的对比分类。
时间维度:所有时间列采用年份加双周期编号的格式编码,如202319代表2023年第19个双周期,每期对应具体的数据收集日期和企业回答参考时段。
主要数据表结构
响应估计值表:记录企业对各调查问题的回答分布百分比,字段包括分类维度代码、问题编号、问题内容、答案编号、答案内容以及各时期的百分比数值。数据中的S标记表示因样本量不足或保密要求被抑制的数据。
响应标准误差表:提供响应估计值的统计误差范围,结构与估计值表一致,用于判断数据可靠性和变化显著性。标准误差越小表示数据越可靠。
指数估计值表:基于多个相关问题综合计算的指数分数,范围为0至100分。核心指数包括当前表现指数、收入指数、就业指数等,50分为中性基准,高于50分表示积极态度,低于50分表示消极态度。
指数标准误差表:指数估计值对应的统计误差。
时间参考表:定义每个时间列对应的实际日期范围,包括样本日期代码、数据收集起止日期、企业回答时参考的两周期起止日期。
数据字典表:提供所有字段和代码的定义说明,包括时间编码规则、企业规模代码含义、行业代码映射等关键信息。
特殊文件说明
城乡分类文件包含12个数据表,是标准文件的两倍数量,除常规估计值表外增加了6个响应计数表,记录实际回复调查的企业样本数量,用于评估数据代表性。全国层面单期样本量通常接近3万家企业,各州和行业样本量差异较大。
远程办公专项问题文件包含9个数据表,针对企业远程办公实践展开详细调查,提供员工在家办公比例的分布统计,从0%、1至24%、25至49%直到100%共6个区间,帮助理解不同企业的远程办公采纳深度。
远程办公汇总表文件包含5个简化汇总表,仅提供企业是否有远程办公员工的总体百分比,无时间序列,为单期快照数据,适合快速概览分析。
数据质量标识
数据中包含两类特殊标记需要注意。S标记表示数据被抑制,原因可能是样本量不足、保密要求或数据质量不达标,使用时应标注为数据不可用,不能假设为零或其他特定值。NaN值表示非数字或无数据,可能因该时期调查尚未开始、该维度组合不适用或数据尚未发布。
标准误差数值越小表示数据越可靠。判断两个数值差异是否显著可使用统计公式:当两值之差的绝对值大于1.96倍两者标准误差平方和的平方根时,差异在95%置信度下显著。
响应计数数值反映实际样本量,通常500家以上企业回复表示数据可靠性高,100至500家企业数据可用但需注意误差,50至100家企业需谨慎使用,低于50家企业通常被标记为S。
适用场景
本数据集适用于以下研究和应用场景:
商业信心追踪:通过当前表现指数和收入指数的时间序列变化,分析全国或特定地区、行业的商业景气度波动趋势,识别经济周期拐点。
行业比较分析:对比不同行业在同一时期的表现差异,研究行业特征对企业信心的影响,如服务业与制造业、必需消费与可选消费的对比。
规模效应研究:分析企业规模与经营表现的关系,探讨小微企业与大型企业在市场环境变化中的不同反应模式。
地区经济活力评估:通过州级和都市区数据识别经济表现最佳的地理区域,支持投资决策和政策制定。
远程办公趋势分析:利用远程办公专项数据,研究不同行业、不同规模企业的远程办公采纳率及其分布特征,评估疫情后工作模式的持续变化。
城乡差异对比:通过城乡分类数据,分析城市与乡村企业在经营状况、资源获取、市场机会等方面的差距。
交叉维度深度分析:结合行业与规模、地区与行业等交叉数据表,挖掘特定细分市场的商业表现特征。
数据来源
数据来自美国官方商业趋势调查项目