Home AI 학습용 데이터 라벨링 교육 - 이미지/영상 입문 과정
Post
Cancel

AI 학습용 데이터 라벨링 교육 - 이미지/영상 입문 과정

AI Data에서 제공하는 AI 학습용 데이터 라벨링 교육의 이미지/영상 입문 과정에 대한 강의 기록.
이미지와 영상 분야에서 데이터 라벨링 기법과 적용 사례를 학습하고, datamaker의 라벨링 도구 사용해보기.


1. 데이터 라벨러 직무 및 전망

  • 데이터 라벨러: 데이터 정제 및 데이터 라벨링을 수행하는 사람
  • AI가 학습할 수 있도록 데이터에 정보 (어노테이션)를 부착하는 활동
  • 인공지능은 라벨링 데이터를 바탕으로 개발되기 때문에 데이터 라벨러의 역할은 매우 중요
  • 데이터 라벨러는 체계적인 교육과정 운영과 산업 현장에 필요로 하는 인재 양성을 위해 NCS 정의가 진행 중
  • 데이터 라벨러, 데이터 검수자, QM, PM

  • 인공지능 개발 프로세스 이해, 프로젝트 이해, 라벨링 가이드라인 이해, 데이터 라벨링 수행, 관리자와 소통

2. 데이터 학습 처리 과정

  • 원시 데이터 (Raw data): 기계학습을 목적으로 획득 단계에서 수집 및 생성한 음성, 이미지, 영상, 텍스트 등의 데이터
  • 원천 데이터 (Source data): 원시 데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등 정제 작업을 수행한 데이터
    • 원천 데이터는 라벨링 데이터가 부여되지 않은 상태의 데이터
  • 기계학습 (Machine Learning): 인간이 자연적으로 수행하는 학습 능력을 컴퓨터에서 실현하려는 기술, 방법
  • 인공지능 (Artificial Intelligence): 인간의 지능이 갖는 학습, 추리, 적응 등의 기능을 갖춘 컴퓨터 시스템
  • 데이터 라벨링 (Data labeling): 기계학습에 활용되도록 기능, 목적에 부합하는 정보를 원천 데이터에 부착하는 활동
  • 데이터 라벨러 (Data labeler): 데이터 라벨링을 수행하는 사람
  • PM (Project Manager): 프로젝트 전반의 전략 수립과 운영을 맡아 관리하는 직책
  • QM (Quality Manager): 데이터 수집, 가공 및 검수, 인력 관리를 맡아 데이터 품질을 관리하는 직책
  • 라벨 (Label): 데이터와 그에 부착된 라벨링 정보들 (어노테이션)을 지칭하는 용어
  • 어노테이션 (Annotation): 라벨링 공정에서 인간이 부여한 식별 기준을 기계가 이해하도록 데이터에 추가한 정보
  • 라벨링 데이터 (Labeled data): 원천 데이터에 부여한 파일 형식, 해상도, 설명, 주석 등의 어노테이션 집합
  • 클래스 (Class, 카테고리): 분류 및 탐지하고자 하는 대상을 카테고리화 한 것으로, 분류체계를 의미

3. 인공지능 개발 프로세스의 이해

  1. 데이터 수집: 개발할 AI의 목적에 맞게 현실 세계에서 필요한 데이터를 수집 및 생성
  2. 데이터 가공: 라벨링 규칙에 따라 원천 데이터에 정보 (어노테이션)를 부착
  3. 데이터 검수: 라벨링 데이터가 규칙에 맞게 라벨링 되었는지 검수
  4. 인공지능 모델 학습: 데이터와 라벨링 데이터로 기계학습을 진행하여 인공지능 모델을 생성
  5. AI 서비스 개발: AI 서비스를 개발하고, 배포

4. 데이터 라벨링 기법 및 적용 사례

  • 바운딩 박스: 객체의 범위를 사각형 박스로 지정하는 라벨링 기법, 객체 탐지 모델에 주로 사용
  • 3D 바운딩 박스 (Cuboid): 객체의 범위를 직육면체 박스로 지정하는 라벨링 기법, 너비, 높이, 깊이, 방향 정보 포함
  • OCR (Optic Character Recognition): 이미지, 영상 속 문자를 기계가 읽을 수 있는 문자로 변환하는 라벨링 기법
  • 키포인트: 객체의 주요 지점 (특징)을 점으로 지정하는 라벨링 기법, 이미지 배칭 및 안면 인식, 골격 추출 등에 활용
  • 폴리라인: 선형 객체의 경계나 위치 등을 연속선으로 지정하는 라벨링 기법
  • 폴리곤: 객체의 범위 또는 경계를 다각형으로 지정하는 라벨링 기법, 정교한 인공지능 모델 개발에 사용
  • 시멘틱 세그멘테이션: 이미지의 모든 픽셀에 클래스를 부여, 높은 정확도를 요구하는 CV 기반 응용 프로그램에 사용
  • 비디오 어노테이션: 영상에서 구간 정제, 분류, 객체 태깅 방법. 객체 인식, 객체 추적 등에 주로 사용

5. 데이터 라벨링 도구 소개

용어 정리

  • 프로젝트: 특정 목표를 성취하기 위해 데이터, 라벨링, 자원/품질 관리 등을 실행하는 과제 단위
  • 저작도구 (Authoring tool, Annotator): 저작에 사용되는 소프트웨어
  • 라벨링 가이드라인: 라벨링 작업 방식과 기준이 기재된 문서
  • 객체 (Object): 라벨링 대상
  • 검수 (Review): 기준에 적합하게 라벨링 되었는지 검사. 작업 완료된 라벨은 검수를 거쳐 반료/완료로 전환
  • 반려 (Return): 기준에 적합하게 라벨링 되지 않아 검수를 통과하지 못한 라벨로, 수정하여 다시 검수해야 함
  • 코멘트: 반려된 라벨을 수정 시 반려 사유를 기재한 평가글

도구 (Open source) 소개

  • CVAT (Computer Vision Annotation Tool): Intel에서 개발한 웹 (크롬) 기반 저작도구
  • Diffgram: 웹형/설치형 저작도구, 데이터셋 및 워크플로우 관리 기능
  • Label box: 설치형 저작도구, 자동 라벨링 기능, 관리 및 협업 기능
  • Labellmg: 설치형 저작도구, 바운딩 박스만 지원
  • Label Studio: 설치형 저작도구, 다양한 자동 라벨링, 커뮤니티 활성화
  • VIA (VGG Image Annotator): 설치형 저작도구, 안면 추적 기능, 이미지 리스트에 대한 효과적인 라벨링 가능
  • VoTT (Visual Object Tagging Tool): Microsoft에서 개발한 설치형 저작도구, 자동 라벨링 기능


출처: AI Data 2022년 인공지능 학습용 데이터 라벨링 전문 교육 -> 강의 소개 홈페이지

This post is licensed under CC BY 4.0 by the author.

AI 학습용 데이터 라벨링 교육 - 음성/텍스트 입문 과정

AI 학습용 데이터 라벨링 교육 - 보안 과정