이번 글에서는 LG Aimers의 AI 전문가 과정에서 인과성에 대해 추론하고, 경험적 데이터를 사용해 인과 관계를 결정하는 방법을 익히게 됩니다. 이를 통해 데이터를 생성한 프로세스에 대해 만들어야 하는 필수 가정과 이러한 가정이 합리적인지 평가하는 방법, 마지막으로 추정되는 양을 해석하는 방법을 학습합니다.
1. Causality
- 인과성에 대한 소개와 인과적 추론을 하기 위한 기본 개념
- 인과성 (Causality)은 하나의 어떤 무엇인가가 다른 무엇을 생성함에 있어서 영향을 미치는 것
- 원인과 결과 사이의 관계는 필요조건이나 충분조건일 필요는 없음
- 과학은 일반적 사실이나 법칙을 포함하는 지식 체계
- 법칙은 현상의 본질적 구조를 명확하게 한 것
- 즉, 원인과 결과의 매커니즘을 기술한 것 (Cause and Effect)
- AI는 어떤 에이전트가 목표를 성취하기 위해서 합리적인 액션을 취하는 것
- 강화학습에서는 주어진 상황에서 어떤 행동을 취할지를 학습함
- 환경에 변화를 주어 원하는 상태로 변화시키는 인과관계로 해석이 가능함
- 데이터 사이언스는 데이터를 수집, 처리, 분석하여 결과를 대중들과 상호작용할 것인가 하는 많은 부분에서 상관성과 인과성 모두 고려해야 함 (기계학습은 데이터의 상관성을 학습하는 것)
- 인과추론은 알 수 없는 실험 결과를 관측 데이터와 연결하는 것 (모델에 대한 형식적, 수학적 이해가 필요함)
- Structural Causal Model (SCM)
Pearl’s Causal Hierarchy
- Associateional or Observational (기본적인 관측 계층)
- Interventional or Experimental (실험 계층)
Counterfactual (관측과 실험에 의한 값을 동시에 고려하는 반사실적 계층)
- Correlation (level 1) vs Causation (level 2)
- 초콜릿의 소비량과 노벨상 수상의 상관관계
Simpson’s Paradox
- 신장 결석 환자가 병원에 왔음. 그리고 환자를 진찰 및 처방하고, 결과가 리포트 되고, 헬스케어 데이터가 생성
- 데이터를 확인해보니, 신장 결석 사이즈가 작을 때는 처방 A의 효과가 더 좋았음
- 신장 결석 사이즈가 클 때도 처방 A의 효과가 더 좋았음
- 그러나 모든 데이터를 합쳐서 보면, 처방 B의 효과가 더 좋았던 것을 볼 수 있음
- 즉, 이 프로세스는 결석의 상태와 처방에 따라 환자의 나중 건강 상태가 결정되고 있음
- 인과적 분석을 하기 위해서는 주어진 데이터 뿐 아니라, 각 변수들이 가지는 인과적 관계를 이해하는 것이 필요함
데이터 분석 시, 고려할 것
- 주어진 데이터가 상관성을 지니고 있는지, 인과성을 지니고 있는지 확인
- 알고자 하는 질문이 조건부 확률 같은 상관성에 대한 것인지, 인과성에 관한 것인지를 알아야 함
2. Causal Effect Identification
- 인과추론을 수행하기 위한 기본적인 방법론 제시
- Query, Causal Diagram, Data -> Causal Inference Engine -> Solution
3. Modern Identification
- 인과추론의 다양한 연구 방향 제시
- General Identification: 여러 데이터가 한 도메인에 주어졌을 때, 그것을 활용하여 원하는 인과 효과를 계산하는 것