AI Data에서 제공하는 AI 학습용 데이터 라벨링 교육의 데이터 기획 과정에 대한 강의 기록.
1. 인공지능 학습용 데이터 기획 개요
데이터 기획 개요 RFP
- 어떤 데이터가 필요한가?
- 어떻게 데이터를 수집 및 획득할 것인가?
- 어떻게 데이터를 정제할 것인가?
- 어떠한 라벨을 이용하여 가공할 것인가?
- 완성된 인공지능 학습용 데이터를 어떻게 활용할 수 있는가?
데이터 기획이 왜 필요한지?
- 기술 구현을 위한 데이터 수요가 폭증
- 산업 및 공공의 발전을 견인하는 데이터 기획 필요성이 증대
- 똑똑한 인공지능을 만들기 위해서는 품질 좋은 대량의 학습 데이터가 필요함
RFP (Request For Proposal, 제안요청서)
- 과제의 수행에 필요한 요구사항을 체계적으로 정리
- 사용자의 제안이 잘 실행되고 있는지 판단하기 쉽게 만들어줌
- RFP가 구체적일수록 제안서의 품질이 높아진다고 할 수 있음
- RFP = 제안서 = 계약서
인공지능 학습용 데이터 구축 RFP
- 데이터 개요: 어떤 데이터?, 무엇을 위한 것?, 어떻게 구축?, 얼마만큼 구축?
- 데이터 구축 목적: 연구 목적, 산업 목적, 활용 방안
- 데이터 구축 방법: 데이터 구성, 수집 장비 및 방법, 가공 방법, 비식별화 방법
- 데이터 규모: 데이터 수량 및 형태, 비용 산정
2. 인공지능 학습용 데이터 기획 수행 방법
개요
- 유형 및 도메인 선정: 글로벌 기술 동향 및 시장 전망 참고
- 과제 발굴: 산학연 수요에 맞는 데이터 과제 발굴 (Top-down, Bottom-up)
- RFP 작성: RFP 자문단 운영 및 과제별 요구사항 구체화
데이터 구축 공정 단계별 고려사항
- 데이터 생애주기는 계획, 구축, 운영, 활용 영역으로 구분
- 구축 프로세스 품질 관리
- 구축 데이터 품질 관리
- 개방 데이터 품질 관리
데이터 활용 목적 설정
- 범용 데이터 학습용 데이터 구축
- 세부 도메인의 특수 목적의 인공지능 학습용 데이터 구축
- 국가 전략과의 Alignment
- AI 학습용 데이터의 활용성 고려
- AI 기술 발전 트렌드를 고려
- 공공성
목적에 맞는 데이터 조사
- 데이터 유형은?
- 데이터 규모는?
- 원천 데이터와 라벨은 어떻게 구성해야?
- 개인정보에 대한 비식별화가 필요한지?
- 중복성 조사도 중요!
3. 인공지능 학습용 데이터
- 인공지능 서비스는 데이터를 기반으로 모델을 생성하고, 최종 서비스 제공
- 데이터 설계: 데이터 구축 공정을 개발하여 데이터 작업자에게 제공
- 데이터 수집: 가공할 원천 데이터를 온오프라인 수집, 제작, 축적
- 데이터 가공: AI가 인지하고 판단할 정보를 라벨링
- 데이터 확장: 고차원 정보를 추가하여 데이터 정확도, 규모 확대
- 데이터 검증: 데이터 품질을 정기적으로 검증, 적합성 평가
4. 구축 공정 개요
- 임무정의: 구축 계획서
- 데이터 획득: 원시 데이터
- 데이터 정제: 원천 데이터
- 데이터 라벨링: 라벨링 데이터
- 데이터 학습: 학습 데이터셋
5. 학습용 데이터 가치 평가
- 시장 가치: 시장의 수요 (필요성)
- 기술: 산업 파급 효과, 데이터 구축 용이성, AI 서비스 기술 구현 가능성, 법제도적 제약
정책: 공공성
- 획득 시 개인정보가 포함되어 있는 경우
- 획득 시 저작권, 지적재산권, 초상권 등 이용에 제한 있는 경우
- 데이터를 직접 제작해야 하는 경우
출처: AI Data 2022년 인공지능 학습용 데이터 라벨링 전문 교육 -> 강의 소개 홈페이지