AI 학습용 데이터 라벨링 교육 - 음성/텍스트 입문 과정

AI Data에서 제공하는 AI 학습용 데이터 라벨링 교육의 음성/텍스트 입문 과정에 대한 강의 기록.
음성/텍스트 전사 (라벨링)에 사용되는 저작도구에 대한 사용법 학습 후 실습을 통해 기본적인 작업 학습.
맞춤법, 정제 저작도구, 전사 규칙 등에 대해 학습.

1. 용어 개념 정의

일반 전사: 사람이 말한 그대로 문자화하여 전사하는 방법 (발음 전사)
이중 전사: 한글 맞춤법 표기에 따른 발음과 차이가 있는 경우에 발음 전사와 철자 전사를 병행
화자 전사: 음성 데이터 상에서 등장하는 사람이 여럿일 때 음성마다 화자를 구분하는 작업
배경음 및 화자 감정 태깅: 드라마 등에서 배경음이 나오는 구간을 음성 싱크를 설정하여 태깅하고, 감정이 섞인 음성을 발화했을 때 해당 구간만 음성 싱크를 설정하고, 발화 내용을 전사하는 작업
방송 영상 자막 사전 제작: 청각 장애인을 위해 영화와 같은 프로그램의 내용의 자막을 사전에 제작하는 작업

민원 (콜센터) 질의-응답 데이터: 상담원들이 전문 상담에 집중하여 원활한 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축
상담 음성 데이터: AI 상담 센터를 위한 음성 상담, 음성 인식 기술, 언어 생성 연구 및 서비스 개발 분야로 활용
자유대화 음성 (일반남녀) 데이터: 자유대화를 효과적으로 인식하기 위해 인공지능 기반 한국어 자유대화 (일상대화) 데이터 구축
자유대화 음성 (노인남녀) 데이터: 사투리, 억양 등의 발화 특성이 타 연령대와 다른 특성이 존재하여 노인 대상 음성 서비스를 위해 데이터 구축
자유대화 음성 (소아, 유아) 데이터: 소아들의 음성인식 관련 서비스가 증가되지만, 소아들의 발화 특성을 반영한 음성 데이터가 부족하여 데이터 구축
한국인 대화 음성: 다양한 환경 (연령, 원거리, 노이즈 등)을 인식할 수 있는 대화 및 음성 데이터셋 구축
한국인 외래어 발화: 인공지능 기반 한국어 음성인식 서비스의 활성화를 위한 자유대화 지식 데이터 구축

언어 모델은 주어진 단어나 문장을 통해 다음에 어떤 단어가 등장할지에 대한 확률을 예측하는 모형
- 음향 모델: 아침을 먹구 학교에 갔다.
- 언어 모델: 아침을 먹고 학교에 갔다.
주어진 시나리오에 맞는 Q&A 대화 제작
제시된 지문을 읽고 질문을 만들거나 질문에 대한 답을 찾는 작업
일반인을 대상으로 한 텍스트 데이터 수집

출처: AI Data 2022년 인공지능 학습용 데이터 라벨링 전문 교육 -> 강의 소개 홈페이지