I. 프로젝트 소개

Motivation

영화나 드라마를 보면서 어색한 사투리 발화를 듣고 당황한 적 있으신가요?

최근 미디어에서 어색한 사투리 발화가 나오는 장면이 빈번하게 나오고 있습니다. 얼마 전 <내 남편과 결혼해줘>와 <닥터 슬럼프> 라는 드라마 속 등장인물들의 사투리에 대한 논란이 있었습니다. 뿐만 아니라 <경상도 호소인>이라는 유튜브 컨텐츠도 인기를 끌고 있기 때문에 최근 지역 별 사투리에 대한 관심이 높아졌음을 느낄 수 있었습니다. 🤩

드라마 <내 남편과 결혼해줘> 사투리 검색 결과

인기를 얻고 있는 <경상도 호소인> 컨텐츠

따라서 저희는 표준어 규정에서 벗어나는 사투리 발화를 표준어 대응쌍으로 제시하는 형태로 변환해주는 모델을 개발하고자 하였습니다.

주제 소개

저희 프로젝트 주제는⭐ 사투리 인식 및 표준어 변환 시스템 ⭐입니다!

사투리 음성으로 주어지는 발화를 최종적으로 표준어 음성으로 출력하게 하는 모델입니다.

II. 데이터 소개

1) 한국어 방언 발화(경상도)

저희는 AI Hub의 한국어 방언 발화(경상도) ****데이터를 사용하였습니다. 이 데이터는 경상도 지역 2,000명 이상의 10대~60대의 연령별 화자가 발화한 3,000시간 이상의 음성 데이터와 대응된 담화 텍스트 말뭉치로 구성되어 있습니다. 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50만 건 이상의 어절 데이터셋이 있고, 데이터화되어 JSON 포맷의 데이터 파일로 구성되어 있습니다.

데이터 예시

2) 한국어 음성

AI hub의 한국어 음성 데이터를 사용하였습니다. 이는 2,000여명이 발성한 한국어 대화음성 1,000시간으로 이루어져 있습니다. 두 사람이 다양한 주제로 자유롭게 대화하는 음성이 녹음되어 있습니다. 아래는 한국어 음성 분야 대화 주제 표 예시입니다.

Untitled

데이터는 발화 단위로 분할된 음성파일(16kHz/16bits, headerless (little endian) linear PCM)과 전사파일로 구성되어 있습니다.