영유아의 발음 문제, 단순한 교육만으로는 교정이 어려운 경우가 많다. 최근에는 AI 기술을 활용한 발음 교정 서비스가 주목받고 있는데, 그 핵심에는 아이들의 입 모양과 음성 데이터를 기반으로 한 립리딩 AI 기술이 있다.
젠다이브는 이러한 기술의 상용화를 위해 영유아 립리딩 음성 인식 데이터 구축 프로젝트를 성공적으로 수행하였다.
오늘은 그 과정과 성과를 소개한다.
프로젝트 개요: 직접 수집한 립리딩 영상과 음성 데이터

이번 프로젝트는 6세에서 12세 사이의 영유아 약 200명을 대상으로 진행되었다.
고객사는 다음과 같은 요구사항을 젠다이브에 의뢰하였다.
고객사의 어려움: 민감한 데이터 확보의 장벽

영유아 데이터를 수집하기 위해서는 다음과 같은 복잡한 조건이 필요하였다.
법적 규제 준수: 부모 동의서, 초상권 동의서 등 법적 문서 확보 필요
참여 유도: 영유아 참여율 확보의 어려움
다각도 영상 수집: 입체적인 영상 확보를 위한 촬영 조건 확보
고품질 정제 작업: 노이즈 제거, 발화 매칭 등 정제 공정 필요
젠다이브의 해결방안

1. 데이터 수집 – 참여율을 높인 현장 설계
젠다이브는 영유아가 흥미를 가질 수 있도록 쾌적한 촬영 환경과 친숙한 분위기를 조성하였다.
또한, 영유아 추천도서에서 적절한 문장을 추출하여 스크립트 기반의 발화 데이터를 유도하였고, 총 900건의 mp4 영상 데이터를 수집하였다.
2. 데이터 정제 – 정확한 발화 전사와 메타태깅
평균 11개 문장을 기준으로 약 2,000건의 문장 전사를 완료하였다.
발화 오류, 잡음 등을 제거하고, 메타데이터(연령, 성별, 발화 조건 등)를 태깅하여 고도화된 데이터를 구축하였다.
3. 데이터 가공 – 음성/영상 싱크 완벽 일치
젠다이브가 자체 개발한 어노테이션 툴을 활용하여,
프로젝트 성과: 고품질 AI 학습 데이터 구축의 모범 사례

이번 프로젝트는 특히 다음과 같은 측면에서 의미가 크다.
희귀한 영유아 영상데이터를 확보한 사례
윤리적 수집 기반(동의서 등)의 데이터 수집 표준 제시
다각도 립리딩 영상 + 음성 싱크 데이터 제공
AI 모델 학습에 최적화된 품질관리 수행 (참고: AI 데이터 품질관리 가이드라인 v3.1 적용)
젠다이브가 왜 선택받았을까?
AI 도입이 궁금한가요? 젠다이브와 함께 하세요!
젠다이브는 영유아, 노인, 장애인 등 데이터 확보가 까다로운 대상군의 AI 데이터 수집 및 가공에 전문성을 갖추고 있다.
👇 AI 기반 서비스 기획이나 데이터 구축이 필요하다면 지금 바로 아래 방법으로 문의하자.
[포스팅 공유]로 이 유용한 사례를 주변에 알려주자!
👉 gendive와 함께, 귀사의 AI 도입을 실현해보자!
데이터 구축 시작하기
영유아의 발음 문제, 단순한 교육만으로는 교정이 어려운 경우가 많다. 최근에는 AI 기술을 활용한 발음 교정 서비스가 주목받고 있는데, 그 핵심에는 아이들의 입 모양과 음성 데이터를 기반으로 한 립리딩 AI 기술이 있다.
젠다이브는 이러한 기술의 상용화를 위해 영유아 립리딩 음성 인식 데이터 구축 프로젝트를 성공적으로 수행하였다.
오늘은 그 과정과 성과를 소개한다.
프로젝트 개요: 직접 수집한 립리딩 영상과 음성 데이터
이번 프로젝트는 6세에서 12세 사이의 영유아 약 200명을 대상으로 진행되었다.
고객사는 다음과 같은 요구사항을 젠다이브에 의뢰하였다.
영유아 대상의 음성 스크립트 추출 및 발화 영상 촬영(mp4)
다양한 방향에서 립리딩 영상 수집
발화 내용 전사 및 정제
wav 형식의 음성 데이터 추출 및 영상과 일치 가공
최종 납품 형태: JSON
고객사의 어려움: 민감한 데이터 확보의 장벽
영유아 데이터를 수집하기 위해서는 다음과 같은 복잡한 조건이 필요하였다.
법적 규제 준수: 부모 동의서, 초상권 동의서 등 법적 문서 확보 필요
참여 유도: 영유아 참여율 확보의 어려움
다각도 영상 수집: 입체적인 영상 확보를 위한 촬영 조건 확보
고품질 정제 작업: 노이즈 제거, 발화 매칭 등 정제 공정 필요
젠다이브의 해결방안
1. 데이터 수집 – 참여율을 높인 현장 설계
젠다이브는 영유아가 흥미를 가질 수 있도록 쾌적한 촬영 환경과 친숙한 분위기를 조성하였다.
또한, 영유아 추천도서에서 적절한 문장을 추출하여 스크립트 기반의 발화 데이터를 유도하였고, 총 900건의 mp4 영상 데이터를 수집하였다.
2. 데이터 정제 – 정확한 발화 전사와 메타태깅
평균 11개 문장을 기준으로 약 2,000건의 문장 전사를 완료하였다.
발화 오류, 잡음 등을 제거하고, 메타데이터(연령, 성별, 발화 조건 등)를 태깅하여 고도화된 데이터를 구축하였다.
3. 데이터 가공 – 음성/영상 싱크 완벽 일치
젠다이브가 자체 개발한 어노테이션 툴을 활용하여,
mp4 영상과 wav 음성을 프레임 단위로 일치시켰으며
최종적으로 AI 학습이 가능한 JSON 포맷으로 납품하였다.
프로젝트 성과: 고품질 AI 학습 데이터 구축의 모범 사례
이번 프로젝트는 특히 다음과 같은 측면에서 의미가 크다.
희귀한 영유아 영상데이터를 확보한 사례
윤리적 수집 기반(동의서 등)의 데이터 수집 표준 제시
다각도 립리딩 영상 + 음성 싱크 데이터 제공
AI 모델 학습에 최적화된 품질관리 수행 (참고: AI 데이터 품질관리 가이드라인 v3.1 적용)
젠다이브가 왜 선택받았을까?
다양한 AI 프로젝트 수행 경험
데이터 생애주기 기반의 체계적인 품질관리
영유아 대상 데이터 수집에 대한 실무 노하우
고객사가 요구하는 납품 포맷(JSON)까지 맞춤 가공 지원
AI 도입이 궁금한가요? 젠다이브와 함께 하세요!
젠다이브는 영유아, 노인, 장애인 등 데이터 확보가 까다로운 대상군의 AI 데이터 수집 및 가공에 전문성을 갖추고 있다.
👇 AI 기반 서비스 기획이나 데이터 구축이 필요하다면 지금 바로 아래 방법으로 문의하자.
[포스팅 공유]로 이 유용한 사례를 주변에 알려주자!
👉 gendive와 함께, 귀사의 AI 도입을 실현해보자!
데이터 구축 시작하기