AI Data에서 제공하는 AI 학습용 데이터 라벨링 교육의 음성/텍스트 입문 과정에 대한 강의 기록.
음성/텍스트 전사 (라벨링)에 사용되는 저작도구에 대한 사용법 학습 후 실습을 통해 기본적인 작업 학습.
맞춤법, 정제 저작도구, 전사 규칙 등에 대해 학습.
1. 용어 개념 정의
- 전사: 말소리를 음성 문자로 옮겨 적음
- 속기: 빨리 적다, 속기법으로 적은 기록
- 음성 싱크 작업: 재생되는 음성과 문자의 내용을 일치시켜 주는 작업
- 비식별화 작업: 이름이나 전화번호 등 개인정보가 있는 데이터를 전사 단계에서 특정 기호로 표기하는 방법
- 이중 전사 작업: 비표준어가 음성 파일에서 나타났을 때, 표준어와 함께 표기하는 작업
2. 음성/텍스트 데이터의 학습 처리 과정
- 수집 (녹음) -> 정제 -> 검사 -> 전사 -> 검사 -> 최종 검수 과정을 거쳐 학습 데이터로 완성
- 원시 데이터 수집 (녹음): 음성 데이터를 얻기 위한 단계. 녹음된 파일도 저작권이 있어서 사전에 이용 허락을 받음
- 데이터 정제: 음성 원시 데이터 다운로드 및 정제 후, 관리 FTP에 결과물 등록
- 1&2차 검수: 정성적, 정량적 평가를 통해 데이터의 유효성을 판별
- 전사: 음성 정제 데이터 다운로드, 전사 작업, 관리 FTP에 결과물 등록
- 최종 검수: 3차 검수, JSON 변환, 관리 FTP에 결과물 등록
- 학습: 전처리, 음향모델 학습, 언어모델 학습, 추론
3. 데이터 정제/전사 저작도구 및 규칙
- 음성 데이터 정제 도구 - Audacity
- 전사 데이터 저작 도구 - 전사툴
4. 음성/텍스트 데이터의 학습 처리 유형
음성 데이터 전사 (받아쓰기) 방법에 따른 분류
- 일반 전사: 사람이 말한 그대로 문자화하여 전사하는 방법 (발음 전사)
- 이중 전사: 한글 맞춤법 표기에 따른 발음과 차이가 있는 경우에 발음 전사와 철자 전사를 병행
- 화자 전사: 음성 데이터 상에서 등장하는 사람이 여럿일 때 음성마다 화자를 구분하는 작업
- 배경음 및 화자 감정 태깅: 드라마 등에서 배경음이 나오는 구간을 음성 싱크를 설정하여 태깅하고, 감정이 섞인 음성을 발화했을 때 해당 구간만 음성 싱크를 설정하고, 발화 내용을 전사하는 작업
- 방송 영상 자막 사전 제작: 청각 장애인을 위해 영화와 같은 프로그램의 내용의 자막을 사전에 제작하는 작업
음성 데이터 전사 (받아쓰기) 주체에 따른 분류
- 사람에 의한 전사: 사람이 직접 전사하는 작업
- STT (Speech To Text): 기계가 직접 전사하는 작업
음성 데이터 기관에 따른 분류
- 연구 기관의 과제 전사: AI 엔진의 학습을 위해 정부 연구 기관에서 진행하는 과제에서 음성 자료를 전사하는 것
- 기업의 콜센터 녹취 전사: 기업에서 보유하고 있는 AI 엔진의 학습을 위해 상담원과 고객의 통화 데이터를 전사하는 것
5. 음성/텍스트 데이터 학습 처리 사례
- 민원 (콜센터) 질의-응답 데이터: 상담원들이 전문 상담에 집중하여 원활한 업무가 진행될 수 있도록 상담사의 업무를 보조할 수 있는 서비스 구축
- 상담 음성 데이터: AI 상담 센터를 위한 음성 상담, 음성 인식 기술, 언어 생성 연구 및 서비스 개발 분야로 활용
- 자유대화 음성 (일반남녀) 데이터: 자유대화를 효과적으로 인식하기 위해 인공지능 기반 한국어 자유대화 (일상대화) 데이터 구축
- 자유대화 음성 (노인남녀) 데이터: 사투리, 억양 등의 발화 특성이 타 연령대와 다른 특성이 존재하여 노인 대상 음성 서비스를 위해 데이터 구축
- 자유대화 음성 (소아, 유아) 데이터: 소아들의 음성인식 관련 서비스가 증가되지만, 소아들의 발화 특성을 반영한 음성 데이터가 부족하여 데이터 구축
- 한국인 대화 음성: 다양한 환경 (연령, 원거리, 노이즈 등)을 인식할 수 있는 대화 및 음성 데이터셋 구축
- 한국인 외래어 발화: 인공지능 기반 한국어 음성인식 서비스의 활성화를 위한 자유대화 지식 데이터 구축
6. 음성/텍스트 데이터 학습 처리 사례
- WAV, TXT, JSON 포멧의 파일 형태
7. 언어 모델의 정의
- 언어 모델은 주어진 단어나 문장을 통해 다음에 어떤 단어가 등장할지에 대한 확률을 예측하는 모형
- 음향 모델: 아침을 먹구 학교에 갔다.
- 언어 모델: 아침을 먹고 학교에 갔다.
- 주어진 시나리오에 맞는 Q&A 대화 제작
- 제시된 지문을 읽고 질문을 만들거나 질문에 대한 답을 찾는 작업
- 일반인을 대상으로 한 텍스트 데이터 수집
8. 텍스트 데이터 학습 처리 사례
- 논문 자료 요약: 다양한 주제의 한국어 학술 논문, 특허명세서에서 요약문을 도출하도록 AI를 훈련하기 위한 데이터셋
- 도서 자료 요약: 한국어 도서 원문으로부터 생성 요약문을 도출하도록 AI를 훈련하기 위한 데이터셋
- 도서 자료 기계 독해: 다양한 주제의 도서 자료를 활용한 기계 독해용 데이터셋 구축
- 일반 상식: 한국어 위키백과 내 주요 문서 15만 개에 포함된 지식을 추출하여 데이터셋 구축
9. 음성 데이터 학습 처리에 필요한 맞춤법
- 띄어쓰기 -> ‘잘’, ‘안’, ‘못’, ‘안 돼’와 ‘안돼’의 띄어쓰기 유의
- 헷갈리는 단어 -> ‘이에요’, ‘예요’, ‘-오’, ‘-요’, ‘되’, ‘돼’, ‘안’, ‘않’, ‘안되다’, ‘안 되다’의 단어 유의
출처: AI Data 2022년 인공지능 학습용 데이터 라벨링 전문 교육 -> 강의 소개 홈페이지