AI Data에서 제공하는 AI 학습용 데이터 라벨링 교육의 필수과정 (인공지능 윤리와 법)에 대한 강의 기록.
AI 학습용 데이터 라벨러들에게 개인정보 비식별화, 저작권, 초상권 등의 인공지능 윤리에 대한 지식과 그 필요성을 학습.
1. 인공지능 개요
AI 학습용 데이터셋 구축 사업
- AI 제품 서비스 및 기술 개발에 활용 가치가 높은 대규모 AI 학습용 데이터 구축 및 개방, 응용 개발
- AI-hub 데이터 플랫폼에서 데이터 활용 건수가 계속해서 증가하고 있음
2. AI 학습용 데이터셋 구축 프로세스
- 데이터 생애 (Lifecycle) 관점
- 학습용 데이터의 생애주기는 크게 계획, 구축, 운영, 활용 영역으로 구분
- 각 영역의 세부 활동은 SW 프로세스 계층, 데이터 프로세스 계층, 데이터 계층, 데이터 서비스 계층 등으로 구분
- 비정형 보다는, 정형 데이터 위주로 데이터셋을 구축하도록 노력하고 있음
2. 인공지능 윤리 및 이해
AI의 양면성, 편향성, 윤리적 딜레마
- 기계학습 모델을 학습시키는데 사용되는 데이터가 사람이나 사회가 가지는 편견을 포함하고 있는 것을 의미
- 편향성을 가진 데이터를 사용하여 학습한 인공지능은 편향된 결과를 출력할 수 밖에 없고, 차별을 가져올 수도 있음
- AI는 새로운 기술의 혜택을 누릴 수 있도록 도울 수 있지만, 오용되는 등의 다양한 윤리적 문제를 야기할 수 있음
국내외 주요 인공지능 윤리 기준
- AI에 대한 윤리적 권고사항과 개인정보 보호 지침을 발표하며, 활발히 논의 중
- 사람이 중심이 되는 인공지능 윤리 기준
3. 인공지능 개인정보보호
- 신기술 확산으로 인해 개인정보 침해 가능성이 확대되고 있음
- 사생활 침해, 데이터 프라이버시 논란 문제
인공지능과 개인정보 비식별화
- 개인정보 비식별화란, 개인정보에서 개인식별 요소를 제거하여 특정 개인을 알아 볼 수 없는 형태로 만드는 조치
- 다른 정보와 결합하여도 특정 개인을 식별하기 어렵도록 하는 일련의 조치
- 익명 정보: 정보 수집 단계에서 근원적으로 개인을 식별할 수 없는 형태로 수집한 정보
- 비식별화 정보: 개인을 식별할 수 있는 상태에서 비식별화 과정을 통해 개인을 식별할 수 없게 처리한 정보
4. 인공지능 저작권과 안면인식 초상권
- 저작권법: 저작자의 권리와 이에 인접하는 권리를 보호하고, 저작물의 공정한 이용을 도모
- AI 모델 학습에 사용되는 여러가지 데이터셋의 활용에 대한 이슈 대두
- 해당 데이터셋들의 주인은 누구인가, 동의 후에 사용할 수 있는가
5. 인공지능 지식재산권
- AI가 점차 문화, 예술의 영역으로 활동 범위를 넓혀가며, AI가 만든 결과물에 저작권을 부여할 수 있는가?
- AI 데이터를 구축 및 공개함에 있어서 타인의 지적재산권을 침해하지 않도록 구매, 사용계약 체결 등 적정한 조치 필요
6. 인공지능 관련 경력 개발 경로 및 비전
- AI 윤리, 법적 책임성 등 공통 교육을 통한 인공지능 기본 지식 함양
- 인공지능에 필수적인 여러 유형의 라벨링 기술 습득 필요 (다양한 데이터)
전문 라벨러 양성을 통한 고품질 데이터 양산 가능 (고품질 데이터 확보)
- 인공지능 데이터 구축 및 활용의 성공을 위해서는 양질의 고품질 데이터와 데이터 가공에 숙련된 라벨러가 필요
- 데이터 라벨링: 인공지능이 기계학습에 활용하도록 기능이나, 목적에 부합하는 정보를 원천 데이터에 부착하는 활동
라벨링 데이터: 원천 데이터에 부여한 파일형식, 해상도 등의 속성, 설명이나 주석 등이 포함된 어노테이션의 집합
- 국가직무능력표준 (NCS) 설계 진행 중
출처: AI Data 2022년 인공지능 학습용 데이터 라벨링 전문 교육 -> 강의 소개 홈페이지