Home AI 학습용 데이터 라벨링 교육 - 보안 과정
Post
Cancel

AI 학습용 데이터 라벨링 교육 - 보안 과정

AI Data에서 제공하는 AI 학습용 데이터 라벨링 교육의 보안 과정에 대한 강의 기록.
데이터 품질 오남용을 예방하기 위하여 보안 교육을 받음.


1. 인공지능 데이터 보호의 개요

  • 인공지능 데이터 보호
    • 프라이버시 침해, 데이터 유출로 인한 피해를 막기 위한 방법
    • 학습용 데이터를 토대로 만들어진 인공지능 모델에 대한 보호
    • 학습용 데이터 품질에 있어 오남용 (Abuse)을 예방하기 위한 신뢰성 프레임워크 적용 방법
  • 인공지능 데이터 보호의 필요성
  • 인공지능 데이터 보호의 목적
  • 학습 데이터셋의 오남용 방지를 위한 신뢰성 확보의 필요성

  • AI 서비스 ‘이루다’의 개인정보 유출 사례: ‘이루다’의 혐오표현이 학습되어 데이터 보호가 되지 못함
  • AI 서비스 ‘심심이’의 부적절한 학습 데이터셋을 이용한 결과: 성차별적인 문제를 일으킴
  • AI를 이용한 정치인 얼굴 합성 변조 사례
  • AI를 개발을 위한 이미지 무단 도용 사례: 개인정보 오남용 페이스북의 얼굴 인식, ‘태그’ 중단
  • 페이스북의 개인정보 오남용 사례 기술: 얼굴인식 서식 (템플릿) 사례 분석

2. 인공지능 데이터 보안 항목

  • 인공지능 학습용 데이터 구축 프로세스
    • 임무 정의 -> 데이터 획득 및 수집 -> 데이터 정제 -> 데이터 라벨링 -> 데이터 학습
    • 데이터 획득 및 수집, 데이터 정제 단계에서는 개인정보나 민감정보 등에 대한 검토 및 수정 필요
    • 데이터 라벨링 단계에서는 허수에 의한 거짓 데이터를 학습하는 행위 등을 조심해야 함
    • 데이터 학습 단계에서는 과적합 학습 배제가 필요함

3. 인공지능 학습용 데이터 도메인 및 유형

  • 데이터란, 수, 영상, 단어 등의 형태로 이루어진 의미 단위로 정보를 구성하는 자료
  • 학습용 데이터란, 머신러닝, 딥러닝 등 AI 모델 학습을 위해 활용되는 데이터를 총칭
  • 이미지: 정사각형 모양의 아주 작은 픽셀들의 집합
    • 축소하거나, 확대하면 이미지의 질이 손상
    • 한 면적에 픽셀을 얼마나 넣는가에 따라 해상도, 용량에 영향
    • JPG, PNG, TIFF, GIF 등
  • 동영상: 여러 개의 정지 사진을 연속적으로 보여주는 것
    • 하나의 정지 사진이 프레임 (Frame)
    • 초당 프레임 (Frame per Second)가 높을수록 부드럽게 영상이 재생
    • AVI, MP4, WMV, MKV 등
  • 텍스트: 이미지, 영상, 오디오 등 아무것도 포함되어 있지 않고 순수하게 글만 있는 데이터
    • 글꼴, 기울임, 글씨 크기 등과 같은 데이터도 포함되어 있지 않음
    • 글을 추출하는 파싱과 데이터에 포함되어 있는 단어를 숫자로 표현 (임베딩)하여 사용
    • TXT, CSV, XML, HTML 등
  • 오디오: 소리, 진동, 파형에 대한 정보를 포함하고 있는 데이터
    • 물체의 진동을 통해서 소리가 발생하고 전달됨
    • 물체의 진동을 파형으로 표현하고 연속적인 그래프로 표현할 수 있음
    • MP3, ACC< FLAC, WAV 등
  • 센서와 통계: 다양한 센서를 통해서 얻은 정보를 디지털 값으로 변환한 데이터
    • 환경 변화나 사건을 감지하여 다른 전자장치에서 감지된 정보를 인식할 수 있게 해주는 시스템
    • 임베디드 시스템을 통해 출력 값을 숫자로 받거나, 파형의 형태로 출력할 수 있음
  • 객체 생성 및 영상 제작: 영상에 있는 물체 혹은 사람이 무엇인지 인지하기 위한 데이터
    • 경계 박스를 표시하여 객체를 상자 안에 가둠
    • 경계 박스에 있는 객체에 대한 자세한 라벨을 달 수 있고, 비슷한 객체를 생성할 수도 있음

4. 인공지능 학습용 데이터 획득/수집 시 보안

  • 데이터 수집부터 시작하는 Abuse를 예방하기 위한 보안
    • 데이터 버전 관리, 기관 인증, 생명주기 등이 함께 관리되어야 함
    • 따라서 데이터 거버넌스 프레임워크가 필요하다고 할 수 있음
  • 데이터 거버넌스: 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책 및 프로세스를 수립하는 것
    • 유용한 데이터 유형 및 품질 표준 정의
    • 데이터 관리에 대한 역할 할당 및 책임 정의
  • 데이터 거버넌스 구현 계획
    • 데이터의 가용성 보장
    • 데이터의 무결성 보장
    • 데이터 정책에 대한 책임 및 준수 강화
    • 지속적인 피드백 및 모니터링
  • 데이터 거버넌스를 위해서 메타 데이터 관리가 필요함
  • 메타 데이터 관리를 위한 데이터 레이크

5. 인공지능 학습 데이터와 민감정보 비식별화

  • 개인정보: 특정 개인에 관한 정보, 개인을 알아볼 수 있게 하는 정보 (이름, 주민등록번호 등)
  • 가명정보: 추가 정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보
  • 익명정보: 더이상 개인을 알아볼 수 없게 복원 불가능할 정도로 조치한 정보
  • 개인정보 비식별화: 개인정보에서 개인식별 요소를 제거하여 특정 개인을 알아볼 수 없는 형태로 만드는 조치
    • 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러가지 기법을 단독 또는 복합적으로 사용
    • 가명처리 기법만 단독 활용된 경우에는 충분한 비식별화 조치로 보기 어려움
  • 비식별화 관련 대표 모델
    • k-익명성: 단순 삭제, 헤드라인 간단하게. 한 개인이 k명의 다른 사람과 구별되지 않아야 함
    • L-다양성: 데이터 테이블의 필드값이 적어도 L개의 다양한 민감 정보를 가지고 있어야 함
    • T-근접성: 민감한 정보의 분포와 전체 데이터의 민감한 정보의 분포 차이를 T 이하로 만들어서 프라이버시 보호

6. 비식별화 오픈소스 도구

  • ARX (Data Anonymization Tool): 텍스트 기반 비식별화 도구 제공, 유료로 이미지 영상 비식별화 지원
  • Amnesia: 텍스트 기반 비식별화 도구 제공, 유료로 이미지 영상 비식별화 지원
  • sdcMicro: 텍스트 기반 비식별화 도구 제공, 유료로 이미지 영상 비식별화 지원

7. 데이터 관리 클라이언트 보안

  • 클라이언트의 보안
    • 사용자 권한과 접근을 제어하고, 로그 기록 등으로 내부 및 외부 접근을 통제
    • 인증 (Authentication): 접근 통제 요소, 식별, 인증, 인가, 책임추적성
    • 데이터 보호: 허락되지 않은 사용자나 시스템 접근을 통제하여 데이터 노출을 막는 기밀성 유지 필요
      • 기밀성 (Confidentiality), 무결성 (Integrity), 가용성 (Availability)
    • 데이터 암호와: 데이터 송수신시에는 암호화가 필수 복호화 되지 않도록 암호화
    • 접근 통제: 인증된 사용자가 접근할 수 있는 데이터를 통제하는 것
    • 모니터링: 접근 통제에 대한 정책을 계속해서 모니터링 하고 알림을 수신 받아 이상 징후 식별, 탐지

8. 과적합 (Overfitting)

  • 과대적합이라고도 하고, 인공지능 모델을 학습할 때, 인공지능 학습용 데이터를 과하게 학습하는 것
  • 학습용 데이터에서 최적의 결과를 만들었지만, 인공지능 학습용 데이터 외 새로운 데이터에서는 오차가 커지는 문제
  • 학습이 충분히 이뤄지지 않은 과소적합 (Underfitting)과 반대되는 개념

과적합 방지 방법

  • 데이터 증식: 학습용 데이터를 추가적으로 더 수집하는 것
    • 이미지 데이터: 이미지 회전, 세로 및 가로로 늘이기, 이미지 상하좌우 반전
    • 텍스트 데이터: 역번역, 특정 단어 유의어 교체, 임의의 단어를 삽입하거나 삭제
  • 학습 데이터의 대표성: 실제 세상의 데이터 표본으로 여길 수 있을 만큼의 통계적 유사성을 가져야 함
  • 전이학습 (Transfer Learning): 데이터의 다양성 및 대표성을 보완할 수 있는 보조적인 기법
  • 조기 종료: 학습용 데이터에서 학습 데이터 외에 검증 데이터를 준비하여 검증 데이터에 대한 오차를 계산하고, 오차가 감소하다가 다시 증가하는 구간에서 학습 조기 종료
  • 가중치 규제: 딥러닝에서 사용되는 과적합 방지 방법 (손실함수에 패널티를 추가)
    • L1: 가중치들의 절댓값을 손실 함수에 추가하는 방법
    • L2: 모든 가중치의 제곱합을 손실 함수에 추가하는 방법
  • Dropout: 딥러닝 학습을 진행할 때, 생성되는 노드들을 무작위로 비활성화 시키는 방법
  • DropConnect: 랜덤으로 노드를 비활성화 하는 것이 아닌, 가중치를 0으로 만들어서 가중치 값을 생략
  • 노이즈 추가: 인공지능 학습용 데이터 외에 학습에 방해가 될 수 있는 요소를 일부러 넣어주는 방법
  • 배치: 학습용 데이터 중 일부 데이터셋을 뜻하는 것 (Batch 단위로 학습하여 속도를 개선)
  • 정규화: 학습이 진행 될 때, 입력 값의 범위가 너무 크면 계산하는데 시간이 오래 걸리고, 오차가 커짐
  • 배치 정규화: 배치 단위로 정규화 시키는 것
  • 원핫 인코딩: 답에는 1, 나머지는 0으로 표현하는 방식
  • 라벨 스무딩: 확실하게 0과 1로 라벨링 된 값을 0에서 1 사이의 값을 변형하여 라벨을 부드럽게 만듦


출처: AI Data 2022년 인공지능 학습용 데이터 라벨링 전문 교육 -> 강의 소개 홈페이지

This post is licensed under CC BY 4.0 by the author.

AI 학습용 데이터 라벨링 교육 - 이미지/영상 입문 과정

AI 학습용 데이터 라벨링 교육 - 데이터 기획 과정