[데이터 구축]마비말환자 음성 인식을 위한 타임스탬프 및 발화 내용 데이터 가공

2024-08-30



개요

  • 프로젝트 명: 마비말환자 음성 데이터 가공 프로젝트

  • 데이터 출처: 고객사 제공 데이터

  • 납품형태: WAV, JSON



고객사가 겪은 문제사항

고객사는 마비말환자*의 말산출 어려움을 해결하기 위한 AI 서비스를 위해서 마비말환자의 음성 데이터 구축이 필요하였습니다. AI 학습에 필요한 마비말환자 음성데이터는 고객사에서 수집하였지만, 데이터를 가공하는 부분에 있어서 고품질의 데이터를 구축하는 어려움을 겪었습니다.

* 마비말장애란? 

중추 혹은 말초신경계의 손상으로 인하여, 신경계가 관장하는 말산출 근육의 조절에 문제가 생겨 말산출의 집행에 문제를 보이는 말운동장애



프로젝트 요청 사항

  • 마비말환자와 일반인의 음성을 듣고, 발화 구간 타임스탬프를 정확히 기록하며 음성 전사.
  • 일반인 음성의 단어, 문장 약500개 가공.
  • 마비말환자 음성의 단어, 문장 약400개 가공.
  • 음성을 들리는 대로 동일하게 전사하는 것이 중요.



젠데이터 해결 방안

데이터 정제

각 음성 데이터를 작업 유형별로 분리하여 정제한 후, 명명 규칙을 통일하고 이를 기반으로 파일명을 재정렬하여 일관된 데이터 구조를 구축했습니다.



데이터 가공

일반인 음성 데이터와 마비말환자의 음성 데이터를 각각 음성을 들리는 대로 정확히 적어가며, 음성의 처음과 끝에 맞춰 타임스탬프 가공하였습니다.



프로젝트 결과

젠데이터는 13명의 크라우드소싱 인력을 활용하여 13일간의 작업을 통해 프로젝트를 성공적으로 완수했습니다. 모든 음성 데이터는 정확하게 타임스탬프와 함께 가공되었으며, 고객사의 요청 사항을 충실히 반영하여 고품질의 데이터를 제공했습니다. 

마비말환자와 일반인의 발화 데이터를 명확하게 전사하고 가공함으로써, 고객사는 마비말환자 음성 분석에 필요한 정확한 자료를 확보할 수 있었습니다.


감사합니다.





상호명: (주)젠데이터   ㅣ 사업자번호 : 449-87-02752 

T. 070-4895-5550 ㅣ  E. info@gendata.kr
본사. 광주광역시 동구 금남로 193-22,

광주에이아이창업캠프 3층 308호


연구소. 서울특별시 금천구 가산디지털1로 84

에이스하이엔드타워8차 3층 310호


COPYRIGHT ⓒ (주)젠데이터 ALL RIGHT RESERVED

상호명: (주)젠데이터 ㅣ 사업자번호 : 449-87-02752 | T. 070-4895-5550 ㅣ E. info@gendata.kr
본사. 광주광역시 동구 금남로 193-22, 광주에이아이창업캠프 3층 308호

연구소. 서울특별시 금천구 가산디지털1로 84 에이스하이엔드타워8차 3층 310호
COPYRIGHT ⓒ (주)젠데이터 ALL RIGHT RESERVED