附加器

将调查数据与其他数据源相结合的方法澎湃

发布时间:2023/4/20 0:37:54   
                            

原创谌迈丁、董海军定量群学

文章题目

CombiningSurveyDatawithOtherDataSources

作者

SharonL.Lohr,TrivelloreE.Raghunathan

文章导读

本期推送为一篇关于使用多源数据的文章。目前使用概率样本收集数据可能代价昂贵,而且许多住户调查的应答率正在下降。但是,越来越多的大数据来源为统计人员提供了新的机会:通过将调查数据与来自各种其他来源的信息组合起来,能够更有效地使用调查数据中的信息。传统的管理信息源仍然能够使用,包括美国十年一次的人口普查、税收记录以及社会服务受助人名单;道路摄像头和卫星提供了交通模式和道路流量信息;电子健康记录提供了大部分人群的病史和诊断情况;Facebook和Twitter等社交媒体可以捕捉用户所表达的情绪信息,互联网搜索引擎能够追踪热门搜索条目;移动电话记录提供了个人位置、通话地点和持续时间的详细信息;信用卡和购物卡记录了金融交易的信息。与从概率样本中收集数据相比,这类信息的收集速度更快,成本也更低。这些数据集的大样本容量可以提供比典型概率样本更详细的子群细节。Citro强调需要依赖多个数据源,而不仅仅是来自传统概率样本的数据来进行统计(Citro,)。

统计学领域也面临着机遇和挑战,即发展方法和框架来组合调查和非调查数据来源以进行估计,同时为得出高质量和严格的推论维持一个概率框架。由于数据来源的质量和所适用的研究问题不同,而且低成本的数据来源使得获取样本更为方便,所以这些发展十分重要。所得税记录提供了一个国家纳税实体的普查,然而,这些记录不包括未报告的收入或未申报的实体;税务记录也不包含研究人员可能感兴趣的行为变量信息;没有医疗保险的人在电子健康记录中所占比例不足;社交媒体捕捉了使用该平台的人表达的观点,但无法代表非用户。因此,某些管理记录和大型便利数据集可能并未包含研究目的所需要的信息。

作者回顾了一些统计方法,这些方法被提出用于组合多数据源信息,以回答和研究社会问题。这一目标与“整体抽样观”相一致(Deming,):“抽样不仅仅是用部分覆盖代替全部覆盖。抽样是一门科学和艺术,通过概率论控制和测量有用统计信息的可靠性。”作者还总结了每一种方法,阐述了各自潜在的优缺点,并根据以下目标对目前的工作进行了评价:(1)提高估计的精确度、及时性和粒度;(2)提供不确定性的准确估计。

1.多数据源的设计和校准

大多数概率样本在设计和估计中,使用来自多个数据源的信息作为标准调查实践的一部分。抽样框架可以使用普查信息来建立,框架中的变量可以用来对样本进行分层并确定选择概率。如果大学对学生进行调查,就会得到每个学生的人口统计学信息、专业信息和学习成绩信息。在设计中使用框架信息可以更好地控制样本,例如,从每个学科提前指定学生人数。

概率抽样设计将概率P(S)分配给从有限总体中选择的每个潜在样本S,这些概率作为推论的基础。样本中包含单位i的概率为πi=P(i∈S),设计加权为di=1/πi。样本中的i单位被认为代表总体中的di单位,因此特征y的总体总数可以被∑i∈Sdiyi估计。

Srndal()和Brick()回顾了校准和事后分层,在估计中使用了来自外部数据源的信息。对于样本中的每个单位i,辅助变量xi的向量是已知的,并且假设外部数据源提供这些变量的总体总数的准确值,表示为X。如果抽样框架对总体中每个单位的值为xi(如对大学生的调查),或者可以从独立的外部来源(如总体普查)获得这些控制总数。校准构造了满足校准限制条件的调整权值wi,∑i∈Swixi=X,同时最小化调整权值wi与设计权值di之间的距离函数。事后分层是一种校准的特殊情况,辅助变量是分层的指标,如年龄、种族和性别的组合。在事后分层后,强制每个年龄/种族/性别单元的调查估计人数与该单元的控制总数保持一致。

校准,或其他加权调整方法,如搜索(Deville,SrndalandSautory,)或逆倾向加权(RosenbaumandRubin,;LeeandValliant,;ValliantandDever,),通常用于对无应答或覆盖不足进行调整。校准限制条件要求使用调查对象的x个变量的估计总体总数等于外部控制总数X:校准消除了校准变量中的偏差。人们希望校准也能消除对其他变量的偏差,但这种希望有时是没有根据的。例如,Kohut等人()发现,低应答率调查对公民参与度的估计高于高质量调查的相应估计,这表明加权调整并没有消除低应答率调查中这些变量的偏差。校准和其他加权调整有时也用于试图调整来自方便样本的偏差(Bakeretal.,)。在这种情况下,在没有已知的包含概率的情况下,初始设计权值设为1,所有权值的变化都来自于校准。尽管有证据表明,校准在减少非概率样本的偏差方面可能不太成功,但人们还是希望校准能够消除自选择偏差(Yeageretal.,)。

2.记录链接(recordlinkage)

在某些情况下,个人的数据记录可以从不同的来源组合。这种做法可以减轻调查对象的负担,填补数据空白,或者提高检查信息的准确性。记录链接(recordlinkage),也称为数据匹配或实体解析,组合来自不同来源的记录,这些记录被认为属于同一实体,如个人、家庭或企业。本文给出了两个最近的例子。

加拿大收入调查告知受访者,加拿大统计局计划将家庭调查信息与税收数据相组合(StatisticsCanada,)。因此,调查问卷可以省略以前调查中出现的许多收入问题,从而缩短问卷的长度,并允许对就业、住房和残疾等其他主题进行更深入的探索。来自纳税申报单的信息也被用于校正无应答情况。这是精确或确定性记录链接(DRL)的一个例子,之所以这么叫,不是因为该方法总是不出错,而是因为链接记录在一组特征上是一致的(在本例中是税务识别号),这些特征被认为是确定唯一链接的。

Zolas等人()将大学管理记录中研究生接受研究资助的数据与总体普查局的机密调查信息组合起来。由于缺乏所有来源的唯一标识符,他们使用了概率记录链接(PRL,FellegiandSunter,)将大学数据库中的人与社会保障管理记录和总体普查局的信息按姓名、地址和出生日期联系起来。这种联系使得研究人员可以在大学数据库中研究研究生的就业结果。PRL方法通常使用连接中使用的变量之间的一致、不一致和接近一致的模式来计算预期匹配对的相似度评分。如果相似度评分超过预定阈值,则源A的记录与源B的记录相链接。对PRL方法的全面综述超出了本文的范围,可以参考Herzog,ScheurenandWinkler(),Christen()和Harron,GoldsteinandDibben()的书来了解如何计算相似度分数。

3.缺失值填补(imputation)

组合来自多个数据源的信息自然适合于缺失的数据框架,因为并不是每个数据集都测量所有变量。因此,当链接数据集时,将获得标准的缺失数据模式。此外,每个数据集中的许多变量也可能受到条目缺失数据的影响。在这种情况下,推断方法在基于多数据源信息的组合来产生估计量方面具有明显的优势。

在这种方法中,将填补或输入数据源中缺失的变量。有许多技术可以用来填补缺失的值(Durrant,;AndridgeandLittle,;CarpenterandKenward,),所有这些方法的目标是使用调查中可用的信息和其他来源,以准确预测缺失项目。大多数跨源信息组合的填补应用都依赖于多元模型来预测并填补缺失项。在一个数据源上开发的模型可以用来填补其他数据源中缺失的变量。或者,所有的记录可以连接到一个大的数据集,所有缺失的项目在连接的数据可以使用一个多元模型或一系列的回归模型。

能够填补缺失项目有很多好处。填补的主要优点是能够增加可供分析的信息量,并产生无漏洞的数据集。假设调查A提供关于x和y的数据,研究B提供关于y和z的数据,管理数据提供关于x和z的信息。一个使用从单个来源可估计的二元关系填补模型可以提供关于所有三个变量之间的关系的信息。显然,组合这些来源的数据提供了一种超出每个单独研究范围的推断方法。Raghunathan()和Schenker、Raghunathan和Bondarenko()使用多重填补法来纠正健康状况自我报告(如糖尿病、高血压或高脂血症),根据的是国家健康和营养检查调查(NHANES)的数据,该调查是通过自我报告和临床测量收集的数据。这种方法的另一个好处是,国家对未诊断健康状况的估计借鉴了两项调查的力量。He,Landrum和Zaslavsky()给出了另一个例子,结合了来自调查、医疗记录、医疗保险索赔数据和癌症登记处的数据来研究晚期癌症患者的临终关怀使用。所有数据源都存在缺失数据,多重填补法依赖于所有数据源的观测数据。

由于不可比性以及这些错误的建模问题,基于多数据源信息组合的估计容易产生错误。作者提出了五个需要考虑的不可比性的潜在来源。这些都是在缺失值填补情境下提出的,同时也适用于其他组合数据源的方法。

第一个来源是应答者类型和应答者信息来源的差异。例如,在住户调查中,受访者可能会面对面地接受采访,并根据记忆和回忆报告健康状况,来自其他来源的数据则可以由医生提供。

第二个来源是访谈的方式。例如,一个调查可能基于随机电话号码拨号,第二个调查可能基于面对面访谈,第三个调查可能以电话模式开始,但在某个子集上切换到面对面访谈。根据模式对结果测量的影响,如果有一种收集信息的首选黄金标准方法,汇集可能会引入偏差。在没有这种黄金标准的情况下,组合数据可能更好地反映总体数量,因为它解释了不同来源之间的差异。

第三个来源是由于调查的背景。例如,由知名和广为宣传的联邦机构收集的具有全国代表性的数据,可能与由知名机构进行的调查有不同的应答错误属性,而该机构不太为人所知。第四个来源来自调查设计的不同。例如,国家卫生信息系统在访谈环境中收集信息,而国家卫生信息系统在访谈环境中收集信息,但事先向被调查者提供了他/她可能被选择进行体检和标本收集的知识。在这两种调查环境中,受访者的回忆能力可能有所不同。

最后一个来源是询问相同信息的问题的不同措辞。其他问题与调查工具中问题的位置、采访者提示的礼节差异以及附加的问卷特征有关。不可比性影响了组合来自多个调查数据来源的信息。如果将非调查数据来源也纳入其中,则缺乏评估代表性的概率调查框架可能是不可比性的另一个来源。

4.多重框架方法(multipleframemethods)

在多重框架调查中,从每个F抽样框架中选择样本,并组合样本的估计。从每一框架中选择一个样本,并将不同样本的估计进行组合。不同的框架通常包括群体的不同子集。例如,框架A可能覆盖整个兴趣群体,如面对面的NHIS框架;框架B可能是一套电子医疗记录;框架C可能包含税务记录。有些框架可能事先没有很好地定义,就像框架D中的样本由回应网络调查的志愿者组成。对于某些框架,如电子医疗记录或税务记录,框架本身可能包含感兴趣的信息,因此可以使用整个数据集,而不是从中抽取数据。

多重框架调查方法有几个潜在的优点。如果每个数据源只包含感兴趣的总体的一部分,那么使用多个数据源作为框架可以更好地覆盖总体。电话调查通常从固定电话号码框中抽取一个样本,从移动电话号码框中抽取一个独立样本;仅使用固定电话(或移动电话)框架将把专门使用移动电话(或固定电话)服务的人排除在调查之外。如果对某些框架的数据收集是廉价的,那么多重框架调查可以增加精度,而不需要额外的成本。如果被研究的总体只占总体总体的一小部分,这尤其有益。电子医疗记录和税务记录的数据收集工作已经完成,使用它们可以提高它们所包含部分总体的准确性。来自这些来源的大量样本量也提供了关于子群体的更多信息,如罕见疾病患者或持有免税债券的纳税人。Lesser,Newton和Yang()在他们改善残疾人公共交通通道的研究中调查了使用残疾组织的个人名单作为抽样框架。虽然这些名单没有包括所有残疾人,但如果随机电话号码拨号调查的受访者被问及问题,以确定他们是否在感兴趣的总体中,这些名单将减少所需的筛查成本。然而,多重框架调查比单一框架调查更复杂,必须仔细分析,以发挥其能提高效率和避免偏差的潜在优势。

如果可行的话,使用多重框架最简单的方法是,在抽样前通过连接框架和删除重复框架来创建来自不同来源的单一框架。然而,这并不总是可能的:对于一个对偶框架移动电话/固定电话调查,典型的抽样框架将由固定电话和移动电话号码组成,并且在抽样之前,人们不会知道与移动电话号码相关的人是否也可以使用固定电话服务。如果单一框架不能使用框架信息构造,那么另一种方法是从不同的框架中提取独立的样本,然后在抽样后合并数据或估计。

5.小域估计(smallareaestimation)与层次模型(hierarchicalmodel)

小域估计方法是借用管理数据的强度来获得子群的估计,其来自概率样本的样本量太小,无法产生可靠的估计。许多小域方法将调查数据与回归模型的预测组合起来,回归模型使用来自管理数据的协变量,通常使用层次模型,其中面积均值与总体均值的偏差由随机效应表示。层次模型还用于组合数据源,其中来自每个数据源的单个记录嵌套在数据源中。

对许多决策者来说,一个急切的需求是在县或州等小地理水平上获得重要数量的估计,或者根据某些总体特征(如性别、年龄或种族)对一个子群体进行估计。许多国家调查不足以建立这样的估计,因为在许多相关领域的样本量太小,甚至可能为零。组合来自多个来源的数据提供了在小样本规模下对域或领域进行估计的唯一有意义的方法。美国人口普查局的美国小地区收入和贫困估计(SAIPE)项目(UnitedStatesCensusBureau,)使用这种方法的一种变形,提供州、县和学区的年度贫困统计数据。直接估计来自美国社区调查(ACS)的一年估计,回归预测使用来自十年人口普查的协变量,来自国内收入署收集的税收记录,来自补充营养援助计划和总体估计。利用管理数据来源,美国人口普查局每年都可以公布每个县和学区的贫困统计数据,即使这些地区的样本量太小,ACS估计无法公布。

在用于获取小域估计的层次模型中,随机效应项用于建模不同领域的平均值。层次模型也可用于综合来自多个来源的数据:在这种方法中,随机效应术语表示来自不同数据源的平均值,研究中的个人数据记录(如果可用)被嵌套在研究中。这个问题在结构上类似于用于元分析的随机效应模型(SuttonandHiggins,),在该模型中,从不同的研究总结统计假设来自一个平均θ的正态分布,不同研究的汇总统计数据的加权平均被用来估计处理潜在效应的大小。加权可与差异成反比,或可用专家判断评估研究的质量和减小质量较低的研究加权(UnitedStatesGeneralAccountingOffice,;Turneretal.,;Greenland,)。

6.如何设计使用多数据源

使用管理数据或传感器数据可以节省大量成本,且能够在调查设计中使用多个数据源。本文讨论了如何设计使用多数据源来改进抽样框架,使整个数据收集工作的设计更加高效。

首先,它们可以用于构建框架。可以将来自数据源的信息进行链接和整合,形成一个更好的、辅助信息丰富的抽样框架。这种辅助信息可以用来提高样本分层的效率,也可以与平衡抽样组合使用(Valliant,Dorfman和Royall,)。这也为特定子群的调查提供了更高质量的信息。

第二,为调查提供了情境变量。Nachman和Parker()将NHIS的受访者与美国环境保护局空气数据系统的信息联系起来,以研究暴露于污染物与哮喘和支气管炎等后果之间的关系。他们将调查对象的纬度和经度与该纬度和经度的细颗粒物克里格预测联系起来。这种联系为解释NHIS数据提供了重要的情境变量。

第三,管理数据可以为调查中无应答的处理提供信息。如果调查记录可以链接起来,管理数据可以用来推测非应答者的信息。例如,税务记录可以用来将未被调查者的收入信息的缺失填补到调查中。

第四,整个数据收集可以设计成利用多个数据源。如果可以在抽样前将不同来源的记录进行链接和组合,从而构建一个丰富的抽样框架,则可以采用分层或平衡抽样的方法对样本进行最优分配。因此,如果框架A几乎是完整的,但需要花费大量的抽样时间,那么框架B是不完整的,但需要花费较少的抽样时间,这些框架可以在抽样前进行组合,然后设计可以指定从框架B的重叠集b和ab中获取信息,并且只使用昂贵的框架A来收集重叠集a上的信息。

结语

文章讨论的信息组合方法各有优缺点。记录链接可以最有效地利用信息,但无法要求链接始终精确,而且链接会带来隐私问题。缺失值填补可以允许使用仅包含部分研究变量的数据来源,通过包含其他变量的来源确定的多元关系填补缺失的变量。但如果建立填充模型的数据源与应用填充的数据源之间的关系不同,那么填充的值可能会对研究者产生误导。多重框架方法允许合成来自多个源的信息,但需要抽样单元框架成员的准确信息。层次模型是整合调查信息的有力工具,但此方法面临的一大挑战是如何处理来自不同来源的偏差。除了确定性记录链接之外,所有的方法都依赖于模型,因此需要对结果进行更深入研究,从而确定模型的灵敏度。

目前使用的许多概率抽样设计,仅适合于在没有其他信息来源的时候。如果重新设计这些数据收集,很可能会利用目前从多个数据源获得的丰富信息。多数据源的可用性为以下的研究提供了机会:使用基于系统的方法设计数据收集;记录链接;建立缺失值填充模型、多重框架模型和分层模型来组合数据;开发不确定度测量方法,以反映来自不同数据源的非抽样误差;保护提供数据的个人隐私。多数据源的使用在扩大调查对象范围、节省获取信息成本、获得更多关于子群体信息以及提高用于研究公共政策的信息的时间和空间粒度方面具有巨大的潜力。

导读人

中南大学公共管理学院19级社会学硕士生谌迈丁;中南大学公共管理学院教授董海军

原标题:《将调查数据与其他数据源相结合的方法》

    

转载请注明:http://www.aideyishus.com/lkcf/4132.html
------分隔线----------------------------