이번 글에서는 LG Aimers의 AI 전문가 과정에서 AI 윤리에 대한 강의를 기록합니다. KAIST 차미영 교수님께서 강의해주시고, 데이터 과학자로서 기본 소양과 어떤 자세를 가져야 하는지를 고민할 수 있습니다. 더불어 인공지능 기술로 어떻게 문제를 해결할 수 있을지에 대해 학습합니다.
1. 데이터 분석과 AI 학습에서 유의할 점
데이터 처리 및 수집에서 윤리 이슈
- 데이터를 잘 해석하고 있는가?
- 초콜렛을 많이 먹으면 노벨상을 탄다? -> 논문 링크
- 상관관계와 인과관계는 다름
- 상관관계 (Correlation): 일정한 수치로 계산되어 두 대상이 서로 관련성이 있다고 추측되는 관계
- 인과관계 (Causality): 일반적으로 어떤 사실과 다른 사실 사이의 원인과 결과 관계
- 키와 체중 사이에는 일정한 정도의 상관관계가 존재. 키가 큰 사람이 어느 정도 체중이 많이 나가는 경향이 있기 때문. 하지만 키가 크다고 반드시 체중이 많이 나가거나, 체중이 많다고 꼭 키가 크지 않기 때문에 둘 사이에 인과관계가 있다고 이야기 하기는 어려움
- 데이터 전처리와 분석 방법은 적절한가?
- Error bar 추가하기 (데이터의 편차를 표시해주기)
- 적합한 통계 테스트 찾기
- 아웃라이어 제거하기
- 데이터 표준화하기
- EDA (Exploratory Data Analysis) 충분한 시간 할애하기
- 학습에 쓰는 데이터가 충분한가?
- Under-fitting, Over-fitting 피하기
- Appropirate-fitting으로 데이터 학습 결과가 적절한지 이해할 수 있어야 함
- 학습 데이터는 테스트 데이터와 달라야 함
- 블랙박스 알고리즘 (Black Box Algorithms)
- 설명력이 중요한 AI 예시 (탈세범 검출 - 위장 반입, 원산지 조작 등 세관에서 벌어지는 불법 행위 적발 AI)
- 실제 사례에서는 성능 뿐 아니라, 설명력 역시도 매우 중요한 부분
- AI 모델의 결정에 설명력 더하기
- High risk 결정에서는 설명력도 정확도 만큼이나 중요
- Saliency map, SHAP와 같이 post-hoc explainability (사후 설명력)를 제공하는 기술
- 알고리즘의 내면을 가시화해서 보여주는 기술들의 등장
- 학습 결과가 바뀔 수 있는 위험성
- One pixel attack의 예시에서는 픽셀 하나만 바뀔 경우에 알고리즘 학습 결과가 달라지는 문제점
- AI 모델들이 노이즈에 굉장히 민감하게 반응하고 있음을 이해할 수 있는 예시
- Handling the Web Data
- 수집하는 SNS, 인터넷, 블로그 등의 글이 대중들의 의견을 대표할 수 있는 대표성이 있는가?
- 의견의 대표성 (Spiral of silence) -> 편향 현상
- 인터넷 상의 의견이 대표성 있는 의견이 아닐 수도 있음을 인지
- 소셜 링크를 통한 빠른 정보 전파, 봇의 참여, 극단화 현상 주의
- 오정보의 빠른 확산으로 인한 인포데믹 현상
- 인포데믹 (Infodemic): 사실 정보와 더불어 오정보의 양이 늘어 구분이 어려워지는 정보 과부화 현상
- 데이터 사용과 서비스 개발에 사용자 어려움을 반영해야 함
- 원치 않은 광고
- 원치 않은 메일 수신
- 회원가입 시 너무 많은 개인정보 요구
- 유해 콘텐츠 노출
- 사이트마다 유사한 내용의 콘텐츠 제공
- The right to be forgotten (잊혀질 권리)
- 윤리에 대한 법적 제도 (GDPR, General Data Protection Regulation)
- AI and Ethical Decisions (인공지능 알고리즘으로 인한 부작용 존재 - 챗봇, 채용 등)
결론
- 데이터의 확보, 전처리, 분석, 해석의 모든 과정이 중요: 고품질의 데이터가 입력되었을 때 학습 결과도 유의미하며, 데이터가 갖는 오차 범위와 특이점, 대표성에 대한 충분한 이해를 가지고 접근
- 알고리즘의 설명력, 편향, 신뢰의 문제에 주의: 블랙박스 알고리즘이 실제 적용되기 위해 설명력 보강이 필요하고, 노이즈와 데이터 가변성에도 대처 가능한 알고리즘을 개발하도록 노력해야 함. 더불어 AI가 다양한 서비스에서 인간 결정을 돕거나, 대체함에 따라 윤리적 의사결정이 확보되도록 점검
2. AI Ethics
인공지능 알고리즘과 윤리 이슈
- AI and Creativity
- GAN 알고리즘을 이용한 미술, 음악 등 예술에서의 적용
- 자연언어처리 (NLP) 기술의 혁신 - BERT, GPT 등
- AI Art in Action
- 인공지능이 만들어낸 작품의 가격은 $432,500
- AI 예술 작품은 학습 데이터 기반인데, 창작성 (Originality)이 있을까?
- 학습 데이터, 프로그래머, 기획자 사이에 저작권 이슈가 존재
- NFT (Non-Fungible Token)의 시대에서도 영향을 미치고 있음
- Copyright Issues
- 학습에 사용된 데이터를 제공한 사람에게도 혜택이 돌아가기 어려움
- 창작자인 AI는 법적 권리를 제공할 수 있는 법적 제도가 없음
- 현존하는 예술가의 스타일을 따라한 예술 작품을 만들 경우 상업적 피해 가능성
- 창작된 작품이 인간의 윤리적 규범을 따르지 않을 가능성
- AI Contributed Harm
- 아시모프의 로봇 3원칙
- 로봇은 인간을 다치게 해서는 안되며, 인간이 해를 입은 것을 방관해서는 안됨
- 첫 번째 법칙에 위배되지 않는 한, 로봇은 인간의 명령에 복종
- 첫 번째, 두 번째 법칙에 위배되지 않는 한, 로봇은 스스로 보호해야 함
- 자율 주행 차량
- 사고가 났을 때, 누가 책임 져야 할까? -> 소유자, 회사, 개발자, 운전자, 자율주행차, 보행자?
- 로봇의 인격화: 로봇이 고통을 느끼지 못하더라도, 로봇 학대는 인류에 나쁠 것
- 아시모프의 로봇 3원칙
결론
- 인간의 창조적 활동 영역으로 들어온 인공지능: AI가 기술 혁신과 창작 도구로 활용이 확대되어, 인간의 개입 없이 독자적 창작과 혁신 활동이 가능한 수준으로 발전하리라 전망
- AI 시대 지적 재산, 법 인격, 처벌, 그리고 윤리 문제 부각: AI에 의한 발명과 저작 등에 대한 법제 정비, 오동작시 처벌과 윤리 규정 마련 등의 논의가 다양한 시민의 수요와 요구를 반영하도록 유의
- AI에 대한 경계와 규제의 선택은 인류에 대한 재정의
3. 세계적인 데이터 과학자가 되는 방법
데이터 과학자 인사이트
- Becoming a World-class Data Scientist
- 데이터에 대한 관심과 호기심
- 이종 데이터의 결합은 혁신을 가져올 수 있음
- 통신사 데이터를 대중교통 노선을 만드는데 활용
- 소셜 네트워크 데이터를 통해 정치 성향, 좋아하는 브랜드 등 유추가 가능
- 가짜 뉴스 탐지
- 새로운 기회
- 이종 (Heterogeneous) 빅데이터의 결합과 새로운 인공지능 기반 계산과학 방법의 적용
- 데이터 사이언스 기반 난제 해결
- 정책 결정 및 신규 산업 창출의 도약 대두
- 세계적 데이터 과학자는 어떻게 일할까?
- 데일리 루틴으로 데이터에 관심을 가지고, 조금씩 결과를 내는 것
- 변화가 곧 생존
- 계획한 것을 바로 실행
- What gets scheduled, gets done
- 목표가 낮아서 너무 빨리 성취하는 오류
- 50%의 성공 확률을 가지는 설레는 목표
- 계속해서 재조정하기
- 실패를 두려워 하지 말라
- 레이 달리오, 성공의 원칙
- 목표가 무엇인지 안다.
- 문제를 찾아낸다.
- 근본적 원인을 발견한다.
- 극복하기 위한 계획을 세운다.
- 실행한다.