建構因果機器學習方法估計異質政策效果
雖然一些實質性的經濟問題可轉化成純粹的預測問題並透過現有的機器學習演算法進行分析,仍有許多經濟實證工作需對估計出的政策效果・因果參數建構出理論上有效的信賴區間。 這種改良既有機器學習方法以適用於因果推論的研究範疇稱為因果機器學習 (Causal Machine Learning); 有關因果推論與機器學習的融合的背景知識可參見本中心特約研究員陳釗而所撰寫的介紹性短文: Chen (2020)。 在經濟計量學的文獻中,目前有兩種廣被使用的因果機器學習方法可估計政策效果 (平均處置效果、分量處置效果等) 並提供估計式的信賴區間。 一是由 MIT 研究團隊 Chernozhukov et al. (2018) 所提出的雙重機器學習程序 (Double Machine Learning; DML),另一則是由 Stanford 研究團隊 Athey et al. (2019) 所開發的一般化隨機森林法 (Generalized Random Forest; GRF)。 DML 利用樣本拆分、交叉驗證與 Neyman正交等技術提升因果機器學習估計式的有效性並降低因為正則化 (Regularization) 而產生的偏誤。 此外、DML 也適用於具有高維度共變量的數據資料。 GRF 主要利用於估計異質政策效果,並得出解釋政策效果異質性的重要變數為何,這樣的資訊對於後續基於觀察個體的特徵變數決定最適政策 (Optimal Policy Assignment) 極為重要,請見 Athey and Imbens (2017)。 在此我們節錄陳釗而 (本中心特約研究員) 與項振緯 (國立臺灣大學行為與資料科學研究中心研究助理) 的共同研究成果 Chen and Hsiang (2019) 來說明因果機器學習方法的優勢。 依據工具變數的識別策略以及 GRF 的架構,Chen and Hsiang (2019) 利用他們所改良的計量方法重新檢視參加美國 401(k) 退休金計畫對淨金融資產的分量處置效果 (Quantile Treatment Effects)。 研究 401(k) 退休金計畫對累積財富的影響是經濟學界長期關注的實證問題。 使用的9,915個樣本來自1991年的「收入與計畫參與調查結果」。 結果變數為淨金融資產。 處置變數 (Treatment Variable) 是一個二元變數,代表參加 401(k) 計畫與否。 工具變數為受雇公司是否有提供 401(k) 方案的二元變數。 可觀察到的控制變數包括年齡、收入、家庭規模、教育程度、婚姻狀況、雙職狀況、確定福利的養老金狀況、個人退休帳戶參與狀況和房屋所有權狀況。 論文的估計結果顯示,對于儲蓄傾向較高 (高分量) 的人來說,參加 401(k) 對淨金融資產有較大的正向影響。 估計出的處置效果在淨金融資產的條件分佈中呈現單調上升的模式。 這些分量處置效果在統計上皆顯著異於零。 此外,透過衡量變數重要性的準則,附圖描述了收入、年齡、教育和家庭規模是解釋處置效果異質性的前四大重要變數。 平均而言,收入和年齡是解釋異質性量重要的變數,變數重要性指標值分別為 64.4% 和 15.6%。 然而我們要謹慎地解讀這個變數重要性指標值,因為研究者可以透過在模型中加入一個高度相關的附加變數來降低一個變數的重要性變數指標值。 雖然我們不可過份解讀變數重要性的排序,但在此我們有另一個附加維度,亦即分量指數 (Quantile Index),這足以讓我們給定所使用的變數下去比較不同分量上的變數重要性排序。

我們可從附圖看到,年齡的重要性隨著儲蓄傾向 (分量指數) 的上升而增加。 然而收入的重要性卻在淨金融資產的條件分布中有所下降。
此外,這四個變數在具有高維度資料的 DML 分析架構中也被認定為是重要變數; DML 的分量處置效果估計請參見陳釗而 (本中心特約研究員)、黃建勳 (美國微軟研究院首席經濟學家辦公室資料科學家)、田家駿 (台大經研所碩士) 正在進行中的共同研究: Chen, Huang and Tien (2020)。 至此,研究團隊巳初步建構出估計分量處置效果的因果機器學習方法。 未來展望是寫出在此架構下能有效率地處理巨量資料的計算程式,並擴展至處理最適政策分配問題 (Optimal Policy Assignment Problem)。
參考文獻
- Athey, S. and G.W. Imbens (2017). “The state of applied econometrics: causality and policy evaluation,” Journal of Economic Perspectives, 31, 3-32.
- Athey, S., J. Tibshirani, and S. Wager (2019). “Generalized random forests,” The Annals of Statistics, 47, 1148-1178.
- Chen, Jau-er (2020). “Big data, machine learning, and causal inference,” non-technical report at http://bit.ly/Causal_ML_intro
- Chen, J.-E., and C.-W. Hsiang (2019). “Causal random forests model using instrumental variable quantile regression,” Econometrics, 7, 1-22.
- Chen, J.-E., C.-H. Huang, and J.-J. Tien (2020). “Debiased/double machine learning for instrumental variable quantile regressions,” Econometrics, accepted. https://arxiv.org/abs/1909.12592
- Chernozhukov, V., D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, W. Newey, and J. Robins (2018). “Double/debiased machine learning for treatment and structural parameters,” The Econometrics Journal, 21, C1-C68.

コメントを投稿するにはログインしてください。