콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#지능형플랫폼 구축 # AI 돌봄 서비스 # 스마트 시티 데이터 허브 # 스마트 팜 # 방언 음성 데이터 # 연령 # 지역 # 강원도

한국어 방언 발화(강원도)

한국어 방언 발화(강원도)
  • 분야한국어
  • 유형 오디오 , 텍스트
구축년도 : 2020 갱신년월 : 2021-11 조회수 : 6,390 다운로드 : 1,047 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2021-11-22 데이터 품질 보완
    1.1 2021-09-09 데이터 품질 보완 및 추가 개방
    1.0 2021-06-30 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-17 신규 샘플데이터 개방

    소개

    방언(강원도)을 사용하는 일상 대화를 인식, 음성을 문자로 바꾸어주는 방언 발화 음성 데이터

    구축목적

    강원도 방언 AI 학습데이터 구축 목적은 은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 강원도 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.
  • 구축 내용 및 제공 데이터량

    • 조용한 환경에서 강원도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치 
    • 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋 
    • 위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일

     

    구축 내용 및 제공 데이터량 표
    과제명 데이터 구축량 데이터 형식
    한국어 방언 발화 데이터 (강원도) - 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋
    - 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건
    - 원본형태 :화자가 구분된 담화 텍스트 말뭉치
    - 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 기계번역 모델번역 품질 Machine Translation Transformer(Encoder-Decoder 모델 기반) BLEU 0.7 0.915
    2 학습 성능 오류율 Speech Recognition Conformer(CTC/Attention 모델 기반) CER 12 % 8.7 %
    3 일상 대화 모델대화 품질 Text Generation Transformer(Open AI, GPT2 모델 기반) Perplexity 25 % 24.4 %
    4 학습 성능 오류율 Speech Recognition Conformer(CTC/Attention 모델 기반) WER 24 % 20.9 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.

     

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2021.11.22 데이터 품질 보완  
    1.1 2021.09.09 데이터 품질 보완 및 추가 개방  
    1.0 2021.06.30 데이터 최초 개방  

    구축 목적

    • 강원도 방언 AI 학습데이터 구축 목적은 은 4차 산업혁명의 핵심 기술인 AI 기술의 주도적인 발전을 위하여, 대량의 AI 학습 데이터가 필요함, 인공지능 기반의 언어모델 개발은 표준어 데이터셋을 기반으로 개발이 되고 있으나 다양한 강원도 지역민과 연령의 구분없는 언어의 소통 학습을 위하여 지역 방언 중심의 AI 데이터셋을 구축하고 활용 할 수 있는 기반을 마련하는 것을 목적으로 함.

    활용 분야

    • 강원도 방언 데이터는 언어 데이터의 특성 상 광법위한 산업군에서의 활용이 가능하며 인공지능 음성인식 플랫폼, 인공지능 대화 플랫폼 등에 주로 사용이 가능하며 관련된 제품 AI 스피커, 자율주행 차량, AI 기술 적용 가전제품등의 음성인식 기술이 적용되는 다양한 제품에 활용 가능.

    소개

    • 강원도 방언을 사용하는 10대~60대의 일상 대화를 수집하여, 수집된 음성을 문자로 실시간 변환하고, 인공지능 학습이 가능한 JSON 형태의 학습 데이터 셋을 구축
    소개 표
    항목 내용
    수집 대상 - 대상 (조용한 환경에서 발화한 성별, 연령별 적정 길이의 음성)
    - 지역 (강원도지역)
    - 환경 (실제 데이터셋의 활용도가 높고 자주 발생하는 산업 분야)
    데이터 규모 - 각 구역별 2,000명 이상의 화자가 발화한 총 3,000시간 이상
    - 표준어 텍스트 및 방언 특성을 고려하여 전사한 텍스트 50만건
    데이터 형태 - 원본형태 (화자가 구분된 담화 텍스트 말뭉치)
    - 학습용 데이터 형태 (방언 발화된 음성 데이터가 맵핑된 텍스트, 음성 데이터셋)
    데이터 정제 - 화자의 환경과 상태 (분노, 기쁨 등)를 고려 - 원본 텍스트와 방언 텍스트의 맵핑 - 적절한 학습을 위해 입력 데이터의 길이

    구축 내용 및 제공 데이터량

    • 조용한 환경에서 강원도 지역 2000명 이상의 10대 ~ 60대 의 연령별 화자가 발화한 3000 시간 이상의 음성 데이터와 맵핑 된 담화 텍스트 말뭉치 
    • 원본 방언 텍스트 및 방언에 대응하는 표준어 대응쌍을 포함하여 전사한 50 만건 이상 어절 데이터 셋 
    • 위의 내용이 메타 정보와 데이터화 되어 구성된 JSON 포맷의 학습 데이터 파일

     

    구축 내용 및 제공 데이터량 표
    과제명 데이터 구축량 데이터 형식
    한국어 방언 발화 데이터 (강원도) - 조용한 환경에서 2,000명 이상의 화자가 발화한 성별, 연령별 적정 길이의 3,000시간 이상의 음성 데이터셋
    - 원본 표준어 텍스트 및 방언 특성을 고려하여 그대로 전사한 텍스트 50만건
    - 원본형태 :화자가 구분된 담화 텍스트 말뭉치
    - 학습용 데이터 형태 : 방언 발화된 음성 데이터가 맵핑된 텍스트와 음성 데이터셋

    대표도면

    • 강원도 방언 AI 학습 데이터는 메타정보에 데이터의 통합정보와 비식별화 된 화자의 속성정보를 포함하여 데이터의 활용성을 향상 

       

      한국어 방언 발화(강원도) 대표도면 예시 이미지
    • 강원도 방언 AI 학습 데이터 구축을 위하여 수집한 방언을 일차적으로 지역적 방언의 특성을 살려 방언을 전사하고 표준에 규정에서 벗어나는 방언에 해당하는 부분에 대한 표준어 대응쌍을 제시하는 형태로 전사

       

      대표도면 표
      지역 보기
      강원 이게 (다나?)/(다니?)
      나도 이쪽 동네 (출신이래.)/(출신이야.)
      (이라)/(이렇게)

    필요성

    • 다양한 공공 데이터들이 오픈되어 있지만, 언어 학습에 대한 데이터는 충분하지 않으며 표준어 중심의 데이터로 한정되어 있어 지역 방언을 중심으로 하는 다양한 형태의 데이터 셋 구축 필요
    • 방언을 주로 사용하는 고연령층의 정보 취약 계층을 위한 활용 가능한 한국어 방언 AI 학습 데이터 셋 구축 필요  
    • 인공지능 디지털 휴먼 및 음성 챗봇(콜봇) 등에 활용 가능한 지역민들의 언어소통 및 심층 질의응답과 관련된 고도화 된 AI 서비스용 학습데이터 구축 필요

    데이터 구조

    • 데이터 구조 및 어노테이션 포맷
      데이터 Naming 표
      단계 수준 1 수준 2 수준 3 타입 필수값 여부 설명
      획득, 정제 id     string Y AI 학습데이터 파일 아이디 (수동부여)
      meta data     object   AI 학습데이터 파일 메타 정보
      title   string Y AI 학습데이터 파일 제목
      creator   string Y 구축자: 솔트룩스
      distributor   string   배포자: 솔트룩스
      year   string Y 구축년도: 2020
      category   string   분류: 구어 > 사적 대화 > 일상 대화
      annotation_level   string   분석 층위: 원시
      sampling   string   샘플링 방식: 본문 전체
      author   string   저작권자: 개인 발화자
      publisher   string   발행자: 개인 발화 녹음
      date   string Y 녹음일자: YYYYMMDD
      topic   string Y 대화 주제
      speaker     array(object)   화자 정보
      id   string Y 화자 아이디
      name   string   이름
      age   string Y 연령
      occupation   string Y 직업
      sex   string Y 성별
      birthplace   string Y 출생지
      principal_residence   string Y 주 성장지
      current_residence   string Y 현 거주지
      education   string Y 학력
      setting     object   환경 정보
      relation   string Y 화자 간 관계
      가공 utterance     array(object)   발화 정보
      id   string Y 발화 아이디
      form   string   방언 전사
      standard_form   string   표준어 대응쌍 부착
      dialect_form   string   방언 문장
      speaker_id   string   화자 아이디
      start   num Y 발화 시작 시간
      (소수점 2자리까지)
      end   num Y 발화 종료 시간
      (소수점 2자리까지)
      note   string   전사자 기타 메모
      eojeolList   array(object)   방언 어절 단위 정보
      id num Y  
      eojeol string   방언 어절
      standard string   표준어 어절
      isDialect boolean   방언 어절 여부

       

    • 실제 데이터의 구성 예시

       

      한국어 방언 발화(강원도) 실제 데이터의 구성 예시 이미지
  • 데이터셋 구축 담당자

    수행기관(주관) : 솔트룩스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이경일 02-2193-1601 [email protected] · 과제 총괄 관리 및 타세부 협력 · 온/오프라인 인력 모집 및 홍보 · AI 응용서비스 개발 · 음성 녹음 및 음성 데이터 전사 · 학습 데이터 구축 · 1·2차 품질 검수
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜비투엔 · 음성 및 텍스트 품질 관리도구 개발
    · 품질 점검 및 TTA 인증
    주식회사 인피닉 · 음성 녹음 및 음성 데이터 전사
    · 학습 데이터 구축
    · 1차 품질 검수
    타임소프트 · 음성 녹음 및 음성 데이터 전사
    · 학습 데이터 구축
    · 1차 품질 검수
    경북대학교산학협력단 · 데이터 구축 방법론 개발
    ㈜디큐 · 음성 녹음 및 음성 데이터 전사
    · 학습 데이터 구축
    · 1차 품질 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김민종(솔트룩스) 02-2193-1656 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.