近日,我校公共衛生學院衛生統計學教研室王彤教授團隊在生物信息學top期刊《Briefings in Bioinformatics》(IF=11.622)上發表了題為“High-dimensional generalized propensity score with application to omics data”的研究論文。該研究提出了高維自變量和連續型處理變量同時存在時的一種因果推斷方法,第一作者為王彤教授指導的博士高倩。
在非隨機化研究中,廣義傾向性評分方法(GeneralizedPropensityScore,GPS)常用于校正已測量的混雜變量,以期獲得連續型暴露因素與結局間的因果劑量反應關系。GPS方法得出因果結論需要滿足不存在未測量混雜假設,這一假設無法檢驗,一般認為考慮的協變量越多越合理。然而,因果參數的估計值對GPS模型中納入的協變量比較敏感,納入不必要的協變量會導致估計準確度和精度下降。隨著對組學數據和電子醫療病例數據等大數據的廣泛使用,不存在未測量混雜這一假設成立的可能性變大,但也引入了高維自變量。在這種情況下,如何使用GPS方法得到因果參數的無偏估計值是一個亟待解決的問題。為此,王彤教授課題組提出了廣義結局自適應LASSO(GeneralizedOutcome-adaptive LASSO,GOAL)方法。
GOAL方法通過雙重加權相關系數(dual-weight correlation,DWC)將結局自適應LASSO(Outcome-Adaptive LASSO,OAL)方法和非參數協變量均衡廣義傾向性評分方法(Nonparametric Covariate Balancing Generalized Propensity Score, npCBGPS)結合,分三步完成。首先借用OAL的思想構建新的目標函數實現變量選擇;隨后基于選出的變量使用npCBGPS方法計算權重和DWC,并使用最小DWC準則確定調整參數的最優值;最后使用邊際結構模型方法估計因果參數。模擬研究表明,GOAL方法各方面的表現與理想方法相近甚至在某些情況下表現略優。該方法一方面保留了OAL方法正確識別校正協變量的能力,另一方面繼承了npCBGPS方法對GPS模型誤設穩健的統計學性質,同時還克服了二者在實際應用中的局限性。最后,該研究使用GOAL方法利用多腦區多數據集探討了表觀衰老加速與阿爾茲海默病發病間的劑量反應關系,闡明了GOAL方法的應用步驟以及在實際研究中需要注意的問題。GOAL方法的提出為現實世界研究中高維自變量和連續型處理變量同時存在時的因果效應無偏估計提供了新思路。

文/圖 高倩