Double Machine Learning(DML)

ChongruiYang commented 1 year ago

Double Machine Learning（DML）是一种半参数估计方法，旨在通过结合机器学习和传统经济计量学技术来解决因果推断问题。该方法最初由 Victor Chernozhukov、Denis Chetverikov和Christian Hansen等人于2017年提出。

DML方法的主要思想是使用两个机器学习模型来估计因果效应。第一个模型被用来预测因变量，而第二个模型被用来预测干扰变量。然后，通过将这两个模型的预测结果结合起来，可以估计出因果效应。DML方法具有一定的灵活性，可以适用于各种因果推断问题，包括交互效应和高维数据问题。

相比于传统的因果推断方法，DML方法具有一些优点。首先，它可以处理大规模和高维数据，而传统的因果推断方法可能会面临维数灾难的问题。其次，DML方法可以通过机器学习的方式自动进行变量选择和调整，从而避免了传统方法中的模型规范性问题。最后，DML方法具有较高的效率和准确性。

需要注意的是，DML方法仅适用于观测数据，而不适用于实验数据。此外，DML方法也存在一些限制和假设，如对模型的正确指定、数据的平稳性和随机抽样的假设等。因此，在使用DML方法时需要注意其适用范围和前提条件。

ChongruiYang commented 1 year ago

处理非线性因果关系：DML可以用于处理复杂的因果关系，特别是那些非线性的因果关系，这些关系很难通过线性模型来建模。例如，在医疗保健领域中，研究人员可能想要确定某种药物是否会导致副作用，而这种关系可能是非线性的。

处理高维数据：DML可以用于处理高维数据，特别是那些具有大量变量的数据集。例如，在金融领域中，研究人员可能想要确定一些因素对股价的影响，这可能涉及到大量的经济指标和财务数据。

处理选择性偏差：DML可以用于处理选择性偏差问题，即在建立因果关系时，可能存在某些未观察到的变量，这些变量可能导致推断结果产生偏差。例如，在教育领域中，研究人员可能想要确定某种教育政策是否有效，但是可能存在其他因素，例如家庭背景和社会经济地位，这些因素可能影响了结果的准确性

ChongruiYang commented 1 year ago

我们想要探究企业经营范围变化对其绩效的影响，例如营业收入和利润率等指标。在进行DML分析时，我们可以将企业经营范围的变化视为因果变量，而其他可能影响绩效的变量，例如企业规模、行业、地区等，视为控制变量。

具体而言，可以使用DML的双重交叉估计方法来进行因果效应估计，以避免可能存在的选择性偏差问题。首先，使用机器学习模型估计企业经营范围变化的预测值，同时也估计其他控制变量的预测值。然后，使用预测值作为因变量和控制变量，在回归模型中进行双重交叉估计，得出因果效应的估计值和置信区间。

需要注意的是，在进行DML分析时，需要仔细选择和调整机器学习模型和回归模型的参数，以确保模型的稳健性和可靠性。同时，也需要进行模型的检验和灵敏度分析，以检查模型的有效性和鲁棒性。

ChongruiYang commented 1 year ago

双重交叉估计是一种用于处理因果效应推断问题的统计学方法，主要用于解决潜在的选择性偏差问题。具体而言，它是一种将交叉验证和重复交叉验证两种方法相结合的估计方法。

在进行双重交叉估计时，首先将数据集随机分成两部分，一部分用于训练模型，另一部分用于测试模型。然后，对训练数据进行交叉验证，将数据集分成若干个子集，每次将其中一个子集作为验证集，其余子集作为训练集。这样可以得到多个模型的预测结果，以及对应的预测误差。接下来，对测试数据进行重复交叉验证，重复执行上述过程若干次，得到多组预测结果和预测误差。

最后，将训练数据和测试数据的预测结果和预测误差整合在一起，通过统计分析方法来估计因果效应，并计算其置信区间。这样可以降低因果效应估计的方差和偏差，并提高模型的稳健性和可靠性。双重交叉估计的优点是可以更准确地评估模型的预测能力和因果效应，同时也能够检测模型的过度拟合和欠拟合问题

ChongruiYang commented 1 year ago

Double Machine Learning

<1> 主要处理的是Hetergeneous Treatment Effect问题，这旨在量化实验对不同人群的差异影响，进而通过人群定向/数值策略的方式进行差异化实验，或者对实验进行调整。Double Machine Learning把Treatment作为特征，通过估计特征对目标的影响来计算实验的差异效果 -Y是实验影响的核心指标 -T是treatment，通常是0/1变量，代表样本进入实验组还是对照组，对随机AB实验T⊥X -X是Confounder，可以简单理解为未被实验干预过的用户特征，通常是高维向量(另外EconML package还会引入W，作为非干预变量） -DML最终估计的是θ(x)，也就是实验对不同用户核心指标的不同影响

ChongruiYang / Econ_Daily_Note

Double Machine Learning(DML) #2