Causeme挑战:《Inferring causation from time series in Earth system sciences》阅读
发表在nature communication上。
Abstract
科学的本质就是探索现象背后的因果关系;
在大规模的动态系统,比如地球系统,上真实地进行实验往往不可行;
现有的大量的observational和simulated data开启了因果方法的大门;
本文总述了因果推断,并且指出了其在地球科学上的应用;
综述了挑战,并开放了一个benchmark平台。
Intro
Reichenbach's common cause principle: if variable are dependent then they are either causal to each other or driven by a common driver.
不同于概率模型,kernel machines,或者深度学习,which mainly focus on prediction and classification, 因果推断目的在于发现与量化系统变量之间的因果关系。
但是,因果推断方法在地球科学领域并没有广泛应用,除了模拟,皮尔斯相关系数,回归方法,并没其他的好方法。
工作:1. 提供因果推断在地球系统科学上的案例;2. 强调了地球系统科学上的问题,以及因果推断方法是如何克服的;
Methodology
Example application of causal inference methods
三种方法,用于推断这三个变量的因果关系。GC和相关性数据都导致了unphysical links。Walker circulation (沃克环流,一个广泛接受的气流模型)被PCMCI推断出来。
In Fig. 1b we highlight the Arctic teleconnection pathways of the stratospheric Polar vortex that were extracted from observational data alone: here causal inference methods have confirmed previous model simulation studies, finding that Arctic sea ice extent in autumn is an important driver of winter circulation in the mid-latitudes.
泛泛而谈,并没有详细列举;
最后,使用传统的回归方法来分析 California Current ecosystem。A nonlinear causal state-space reconstruction method here extracts the underlying ecologically plausible network of interactions, revealing that sea surface temperatures are a common driver of both sardine and anchovy abundances.
直接说线性回归发现不了因果,Granger causality analysis和 CCM 有一定的作用。
Overview of causal inference methods
Granger causality:it is the first formalization of a practically quantifiable causality definition from time series.
Granger causality test:是否忽略黑色box,可以使得prediction error of Y(t时刻)上升。直观上就是说,如果没有观测X,会导致Y的预测变差,这说明XY存在time lagging causality。
CCM因果模型。
使用pc算法进行因果发现:
p=0,就是做独立条件检测
p=1,就是做given 1 condition,the independent test.
此时得到的skeleton,时间维度上有差异的,直接按时间来确定指向。同一时间步上的不能做orient。
结构因果模型(NOTEARS):文中使用的是LiNGAM模型。他能识别出$Y_t\rightarrow X_t $ 因为可以从黑线看出,他们的残差r是与Y独立的。反而言之,如果$X_t\rightarrow Y_t $, 那么拟合线是红线,他们的残差与X并不独立。
直观理解:首先y=f(x),和x=f(y)的参数肯定不同,但是可能存在推导关系,这就是为什么导致了红黑线的斜率不相同;
什么是独立?就是知道一个值你可以猜出下一个值,或者说你敢猜另外一个值(这个说法通用适用于条件概率分布)。在上面的图中,y确定后,r可不能猜;但是在下面,如果知道x,那么r是可以根据这张图来猜的;
一个因果结构推断算法的简介:a是ground truth,bcdef是各个算法的结果。
key generic problems in Earth system sciences
因果假设的检验:使用因果推断来证明hypothesis。
因果复杂网络的分析:建立网络,并且对其影响力进行探索。
对于极端影响的可解释原因诊断:比如洪水的发生,由多个影响因素导致。这种有向图比无向图有解释性。
challenge
- 自相关
- 时间滞后性
- 非线性
- 状态独立性
- 不同的时间长度
- 通常假设噪声为高斯噪声,有些过程严重违背
- 找到相关变量
- 考虑未观测的变量
- time subsampling
- time aggregation
- 测量误差
- 选择偏好
- 离散数据
- 时间不确定性
- 样本大小
- 高维度
- 不确定估计