콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#행정문서 # 기계 독해 # 질의응답 # AI 챗봇 # 자연어 # 지식 정보

행정 문서 대상 기계독해 데이터

행정 문서 대상 기계독해
  • 분야한국어
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 12,093 다운로드 : 1,062 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-24 AI 모델 및 AI 모델 매뉴얼 업데이트
    2022-07-12 콘텐츠 최초 등록

    소개

    행정문서를 활용하여 기계독해 모델 생성을 위한 지문-질문-답변으로 구성된 인공지능 학습 데이터

    구축목적

    기계독해 모델 개발, 질의응답 서비스 구축 등에 활용 가능한 대규모 인공지능 학습용 데이터셋으로서 비정형 텍스트인 행정문서를 이용하여 표와 일반 텍스트 데이터에 대한 다양한 형식의 질의응답 구축
  • ■ 데이터 통계
    1. 데이터 구축 규모
    원시데이터 : 행정문서 약 60만 건, 라벨링 데이터 411,840 건

    카테고리
    데이터 종류 데이터 형태 원문 규모 Q/A 유형 원천 데이터 규모 최종 어노테이션 규모
    공공데이터포털, 공공기관 보유 행정문서 HWP, PDF 약 60만 건 정답경계 추출형 66,583건 133,166건
    절차(방법)형 30,262건 60,523건
    Table 정답 추출형 65,534건 131,068건
    Yes/No 단문형 17,563건 35,125건
    다지선다형 15,729건 31,458건
    응답불가형 10,250건 20,500건

     

    2. 데이터 분포
    ※ 행정문서 기계독해 데이터셋은 원천 데이터(행정문서 지문) 1건에 2건의 질문-답변이 1개의 세트로 구성되어 있으며 주제별 분포는 질문의 수량을 기준으로 했음

    2. 데이터 분포
    주제별 분포
    카테고리 데이터 수량 비율
    공공행정 73,884건 18%
    과학기술 67,000건 16%
    국토관리 88,548건 21%
    기타 14,670건 4%
    농축수산 15,778건 4%
    문화관광 14,662건 4%
    법률 15,946건 4%
    사회복지 21,076건 5%
    산업고용 13,271건 3%
    식품건강 19,298건 5%
    환경기상 67,707건 16%
    합계 411,840건 100%

    행정 문서 대상 기계독해-데이터 분포_1

     

    질문의 다양성
    질문의 다양성 
    육하원칙 의문사 데이터 수량 비율 육하원칙-비율
    누가 누가 5,130건 1.20% 3.10%
    누구 7,223건 1.80%
    누굴 137건 0.00%
    누군지 345건 0.10%
    언제 언제 12,288건 3.00% 3.00%
    어디 어디 49,631건 12.10% 12.30%
    어딜 821건 0.20%
    무엇 51,556건 12.50% 62.40%
    며칠 1,130건 0.30%
    며칟날 3건 0.00%
    무슨 11,916건 2.90%
    무엇 40,238건 9.80%
    무얼 31건 0.00%
    38,953건 9.50%
    4,281건 1.00%
    6건 0.00%
    얼마 18,842건 4.60%
    얼만큼 8건 0.00%
    어떤 66,507건 16.10%
    어느 23,587건 5.70%
    287건 0.10% 0.10%
    어째서 1건 0.00%
    어찌하여 - 0.00%
    어떻게 어떻 43,743건 10.60% 10.60%
    어떠 - 0.00%
    어땠 14건 0.00%
    어때 19건 0.00%
    어떨 18건 0.00%
    yes/no 35,125건 8.50% 8.50%
    합계   411,840건 100% 100%

    행정 문서 대상 기계독해-데이터 분포_2

     

    지문 길이 분포
    지문 길이 분포
    구분 데이터 수량 비율
    200자 이상~500자 미만 150,430건 37%
    500자 이상~800자 미만 165,487건 40%
    800자 이상~1100자 미만 58,802건 14%
    1100자 이상~1400자 미만 16,817건 4%
    1400자 이상~1700자 미만 7,354건 2%
    1700자 이상~2000자 미만 12,950건 3%
    합계 411,840건 100%

    행정 문서 대상 기계독해-데이터 분포_3

     

     

     

     

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    AI모델 개요

    • 다중 태스크 학습(Multi-Task Learning, MTL)은 여러 태스크를 동시에 학습하는 동안 각 작업의 공통점과 차이점을 활용하는 기계학습의 하위 필드임
    • 기계학습에서의 다중 태스크 학습은 인간이 새로운 것을 학습할 때 기존에 학습했던 비슷한 경험을 이용해 보다 빠르게 학습하는 것에 아이디어를 얻음
    • 다중 태스크 학습은 학습하는 모든 태스크의 성능을 향상시키는 것을 목표로 한다는 점에서, source task와 target task가 구분되어 target task에서의 성능 향상을 목표로 하는 전이학습(transfer learning)과 구분

    <데이터 통합 기계독해 모델>

    행정 문서 대상 기계독해-AI모델 개요_1_데이터 통합 기계독해 모델

     

    서비스 활용 시나리오

    • 행정문서 기계독해 학습 모델은 KMS나 검색서비스 등 행정 관련 질의응답 서비스에 활용할 수 있음
    • 검색 엔진이나 자연어 처리 모델 등과 기계독해 모델을 결합하여 행정문서의 데이터베이스로부터 질의와 가장 유사한 문서를 탐색하고 답변을 추론하여 다양한 형태로 제시할 수 있음
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 기계독해 질의-응답 정확도 Question Answering ELECTRA F1-Score 0.78 0.8588

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ■ 데이터 설명

    • 정답경계형
    정답경계형
    문서 제목
    국궁(전통 활)이 세계적인 관광자원화 된다.
    유형 정답경계형
    문서의 발행기관명 안정행정부
    분류 기준 공공행정
    문서의 발행시기 2014.09.01
    지문
    국궁(전통 활)이 세계적인 관광자원화 된다. 
    - 9.1.(월) 고종의 활터인 ‘황학정’에 ‘국궁전시관’ 개관 -
    □ 역사적으로 제작기법과 성능이 우수해 외침으로부터 우리 국토를 수호하는 데 큰 힘 이 되었고 세계적으로 양궁을 제패하고 있는 뿌리인 국궁이 세계적인 관광자원으로 되살아나게 된다.
    ○ 이와 관련, 안전행정부는 종로구 등과 함께 옛 고종의 궁술연습장이었던 ‘황학정’(종로구 사직공원내)에 ‘국궁전시관’을 설치하고 9월 1일 개관식을 개최했다. 
    ○ 이번에 개관하는 전시관은 ‘국궁명품화사업’의 일환으로 국가와 지자체가 공동으로 참여하여 설립한 최초의 공익 박물관이다. 
    * 총 사업비 6.1억(안행부 2, 서울시 0.8, 종로구 3.3)
    ○ 이번 전시관 개관은 선조들의 지혜가 고스란히 담겨있는 국궁의 제작 전통기술자(궁장)가 극히 소수만이 생존하고 있는 것으로 추정되는 가운데 고종 황제가 위기에 빠진 우리 민족을 일으키기 위해 1899년 세운 황학정에 위치한다는 데에 더욱 의미가 있다.
    ○ 안전행정부는 관심의 사각지대에 놓여있어 자칫 사라질 위기에 놓인 조상의 숨결과 혼이 담긴 우수한 전통기술의 사업화를 지원하여 지역경제 활성화를 도모하는 사업을 2011년부터 추진해 오고 있다.
     
    질문/답변
    질문 답변
    황학정 안에 국궁전시관을 설치한 부서가 어디야 안전행정부
    질문 답변
    어느 부서에서 황학정 안에 국궁전시관을 만들었니 안전행정부

     

    • 절차(방법)형
    절차(방법)형
    문서 제목
    기반시설 복합설치 절차 간소화된다.
    유형 절차(방법)형
    문서의 발행기관명 국토교통부
    분류 기준 국토관리
    문서의 발행시기 2014.10.27
    지문

     

    기반시설 복합설치 절차 간소화된다.
    □ 도서관에 미술관, 종합운동장에 배드민턴장, 납골당에 화장장 자연장지 등 기능이 유사한 기반시설 간 복합설치 절차가 간소화된다.
    ㅇ 국토교통부(장관 : 서승환)는 기능이 유사한 기반시설 간의 복합설치절차를 간소화하기 위하여「국토의 계획 및 이용에 관한 법률시행령」을 10.28일부터 40일간 입법예고 한다고 밝혔다.
    □ 금번 시행령 개정안은 9.3(수) 대통령 주재 제2차 규제개혁장관회의에서 발표한 ‘도시 기반시설 복합화를 통한 수익 다변화 및 사회적 편익 창출’의 후속조치로 추진되는 것이다.
    □ 종전에는 도시관리계획결정을 통해 설치한 기반시설에 기능이 유사한 다른 기반시설을 복합설치하는 경우에도 도시계획 및 실시계획 변경 절차를 모두 거쳐야 하는 등 절차가 복잡하였다.
    * 예시) 납골당 일부부지를 활용하여 화장장 및 자연장지를 설치하고자 하는경우, 도시관리계획 및 실시계획 변경 절차를 각각 거쳐야 했음
    ㅇ 그러나, 이번 시행령이 개정되면 기능이 유사한 기반시설* 간의 복합하여 설치하는 경우에는 도시관리계획의 ‘경미한 변경’으로 보아 지자체장의 판단에 따라 기초조사, 도시계획위원회 심의 등을 거치지 않을 수 있도록 하였다.
    * 도서관과 문화시설, 운동장과 체육시설, 장사관련시설(봉안시설, 화장시설, 자연장지, 공동묘지 등)
    □ 이번에 입법예고 되는 국토계획법 시행령 개정안은 관계기관 협의, 법제처 심사 등의 절차를 거쳐 오는 12월말 공포될 예정이다.
    □ 개정안에 대해 의견이 있는 경우 12월8일까지 우편, 팩스 또는 국토교통부 홈페이지(http://www.molit.go.kr) 법령정보/입법예고란을 통해 의견을 제출할 수 있다.
     
    질문/답변
    질문 답변
    국토계획법 시행령 개정안에 대해 의견을 제출하고 싶으면 어떻게 해야 하니 우편, 팩스 또는 국토교통부 홈페이지(http://www.molit.go.kr) 법령정보/입법예고란을 통해 의견을 제출할 수 있다
    질문 답변
    어떤 방법을 통해 국토계획법 시행령 개정안에 대한 의견을 낼 수 있어 우편, 팩스 또는 국토교통부 홈페이지(http://www.molit.go.kr) 법령정보/입법예고란을 통해 의견을 제출할 수 있다

     

    • Table 정답 추출형
    Table 정답 추출형
    문서 제목
    한국 미술시장 정보시스템 공개
    유형 Table 정답 추출형
    문서의 발행기관명 문화체육관광부
    분류 기준 문화관광
    문서의 발행시기 2016.01.20
    지문

     

    한국 미술시장 정보시스템 공개
    한국미술 해외진출 전략 콘퍼런스: 데이터와 미술시장
    ㅇ 주제: 데이터를 통한 미술시장 진단과 활성화 방안
    ㅇ 일시: 2016. 1. 28.(목) ~ 29.(금)
    ㅇ 장소: 페럼타워 3층 페럼홀(중구 수하동)
    ㅇ 주최/주관: 문화체육관광부/(재)예술경영지원센터
    Ⅰ. 콘퍼런스: 미술시장 진단 및 활성화 방안, 현장에서 답을 찾다!
     
    Table 정답 추출형
    구분 시간 내용
    등록 12:30~13:00 참가자 등록 및 자료집 배포
    개회 및 축사 13:00~13:30 사회: (재)예술경영지원센터 *** 실장
    인사말: 재단법인 예술경원지원센터 *** 대표
    발제 13:30~13:45 (국내 거래정보 데이터 현황 및 활용 방안)(사)한국미술시가감정협회 *** 이사장
    발제 13:45~14:00 (K-ARTMARKET 소개)(재)예술경영지원센터 시각진흥팀 ***
    PART 1 : 데이터로 보는 국내 미술시장 진단 및 활성화 방안 모색(모더레이터: 어포더블아트페어 *** 지사장)
    발제 14:00~14:30 (미술시장, 데이터로 말한다) 감성정책연구소 *** 소장
    발제 14:30~15:00 (갤러리 성장 및 해외진출의 필요충분조건)갤러리 EM ***(***)대표
    발제 15:00~15:30 (데이터로 푸는 단색화 열풍, 그이후)(주)서울옥션 *** 기획홍보 총괄팀장
    발제 15:30~16:00 (아트페어 전성시대, 국내 페어가 취해야할 전략)경남도립미술관 *** 학예연구팀장
    휴식 16:00~16:20 휴식
    PART 2 : 균형과 융합을 통한 미술시장 발전 모색(모더레이터: 어포더블아트페어 *** 지사장)
    토론 16:20~16:50 주제 1: 시장 영역 간 핵심요소 융합을 통한 상생발전 방안
    주제 2: 균형적인 시장발전을 위한 정부의 과제 및 지원
    폐회 16:40~17:00 폐회사: (재)예술경영지원센터 *** 실장

     

    질문/답변
    질문 답변
    감성정책연구소 소장의 발제는 언제 진행되니 14:00~14:30
    질문 답변
    언제 감성정책연구소 소장이 발표하니 14:00~14:30

     

    • Yes/No 단문형
    Yes/No 단문형
    문서 제목
    경기도내 하수처리수 재이용률은 13.6%로 전국 평균보다 낮아
    유형 Yes/No 단문형
    문서의 발행기관명 경기도
    분류 기준 공공행정
    문서의 발행시기 2018.01.04
    지문

     

    하수처리수를 이용한 물 부족 해결
    Ⅰ. 대체수자원으로서 하수처리수 재이용의 필요성
    대체수자원 확보는 필수 해결과제로 세계 각국에서 하수처리수 재이용에 주목
    물 부족 국가들은 일찍부터 하수처리수 재이용을 늘려가고 있는 추세
    ○ 미국, 싱가포르, 이스라엘 등은 물 수요의 상당 부분을 하수처리수 재이용을 통해 공급하고 있으며, 관련 기술개발에 집중 투자한 결과, 물 부족 극복은 물론 물산업 강국으로 도약
    - 미국 캘리포니아 주 오렌지카운티는 하수처리수 재이용시설 ‘Water Factory 21’에서 정밀여과, 역삼투압, 고도산화 과정을 통해 하수를 음용수 수준까지 정화한 후 일부는 강 상류로 보내지고, 일부는 지하수 충진용으로 사용
    - 싱가포르는 대표적인 물 부족 국가로, 하수처리수 재이용으로 물 수요의 30%를 충당하며, 재이용시설인 'NEWater' 공장에서 다중여과공법을 적용, 재처리한 10%는 음용수 등 생활용수로, 70%는 산업용수로 활용
    - 해당 국가들에서는 재이용수 도입 초기 하수처리수에 대한 부정적인 시각이 있었으나, 엄격한 환경기준 적용, 재처리 과정에서의 철저한 오염물질 관리 등으로 신뢰성 제고 및 사업 확대에 성공
     
    질문/답변
    질문 답변
    싱가포르는 하수처리수 재이용시설인 NEWater 공장에서 다중여과공법을 적용하고 있니 Yes
    답변 근거
    싱가포르는 대표적인 물 부족 국가로, 하수처리수 재이용으로 물 수요의 30%를 충당하며, 재이용시설인 'NEWater' 공장에서 다중여과공법을 적용, 재처리한 10%는 음용수 등 생활용수로, 70%는 산업용수로 활용
    질문 답변
    미국은 다중여과공법을 하수처리수 재이용시설인 NEWater 공장에서 활용하고 있어 No
    답변 근거
    싱가포르는 대표적인 물 부족 국가로, 하수처리수 재이용으로 물 수요의 30%를 충당하며, 재이용시설인 'NEWater' 공장에서 다중여과공법을 적용, 재처리한 10%는 음용수 등 생활용수로, 70%는 산업용수로 활용

     

    • 다지선다형
    다지선다형
    문서 제목
    과학기술원 혁신비전 선포식 개최
    유형 다지선다형
    문서의 발행기관명 과학기술정보통신부
    분류 기준 과학기술
    문서의 발행시기 2015.12.02
    지문

     

    미래부, 4개 과학기술원 공동 ‘과학기술원 혁신비전 선포식’ 개최
    - 국가경제 발전을 선도하는 지식과 신산업창출의 전진기지-
    연구 : 세계수준의 연구브랜드 확보 및 지역산업 맞춤형 융합연구
    < 기업과의 공동기술개발 및 연구성과 시장화 지원 > 
    ◦기업과 대학이 공동으로 문제를 발굴, 해결기술을 개발하여 주력산업의 고도화 및 신산업 창출을 지원한다. 
    ※ (대전) 메디바이오, 무선통신융합, 로봇자동화 (광주) 광산업, 신재생에너지, 노화연구(대구) 신소재부품, 전자정보기기 (울산) 첨단신소재, 차세대에너지, 바이오
    < 선택과 집중을 통한 세계수준의 연구특화분야 육성> 
    ◦인류가 당면한 난제해결을 위해 10년 이상 장기적으로 한 우물 파기 연구를 할 수 있는 분야를 선정하고 장기적인 기초·원천연구를 지원한다. 
    ※ 파격적인 초기연구정착금 지원 및 연구장비 제공
    ※ KAIST 헬스케어, 감염병 진단, 재난․안전 분야 등
     
    질문/답변
    질문 답변 보기 답변
    기업과 대학이 공동으로 문제를 발굴하여 로봇자동화 산업 창출을 지원하는 지역은 어디야 대전광역시 대전광역시
    광주광역시
    대구광역시
    울산광역시
    답변 근거
    (대전) 메디바이오, 무선통신융합, 로봇자동화 (광주) 광산업, 신재생에너지, 노화연구(대구) 신소재부품, 전자정보기기 (울산) 첨단신소재, 차세대에너지, 바이오
    질문 답변 보기 답변
    어느 지역에서 기업과 대학이 공동으로 문제를 발굴하여 로봇자동화 산업 창출을 도모하니 대전광역시 대전광역시
    광주광역시
    대구광역시
    울산광역시
    답변 근거
    (대전) 메디바이오, 무선통신융합, 로봇자동화 (광주) 광산업, 신재생에너지, 노화연구(대구) 신소재부품, 전자정보기기 (울산) 첨단신소재, 차세대에너지, 바이오

     

    • 응답불가형
    응답불가형
    문서 제목
    초기 배아에서 일어나는 마이크로RNA 조절 현상 발견
    유형 응답불가형
    문서의 발행기관명 과학기술정보통신부
    분류 기준 과학기술
    문서의 발행시기 2014.11.24
    지문

     

    초기 배아 단계의 마이크로RNA 조절 현상 최초 규명
    - 모체에서 온 마이크로RNA 끝에 아데닌 꼬리 붙이는‘위스피’발견 -
    □ 본격적인 수정란의 발생이 일어나기 전 마이크로RNA의 조절이 활발히 일어나고 있음을 밝힌 이번 연구는, 앞으로 배아에서 일어나는 유전자 조절에 대한 이해를 높이는데 기여할 것으로 기대를 모은다.
    □ 이번 연구 결과는 분자생물학분야 최고 권위지이자 셀(Cell)의 자매지인 몰리큘러 셀(Molecular Cell, IF 14.464)에 12월 4일자(온라인 11.13)로 게재될 예정이다.
    * (논문제목) 모체로부터 유래한 마이크로RNA가 위스피 단백질에 의해 아데닐화되는 현상 규명(Adenylation of maternally inherited microRNAs by Wispy)
    * (제1저자) 이미혜 IBS RNA연구단 박사
    * (교신저자) 김빛내리 IBS RNA연구단장(서울대학교 생명과학부 교수)

     

    질문/답변
    질문 답변
    유전자 분야 최고 권위지이자 셀의 자매지는 뭐지 몰리큘러 셀
    질문 답변
    수정란 배아분야의 최고 권위지이자 셀의 연구지는 뭐야 몰리큘러 셀

     

    데이터 구성

    • 메타데이터
    메타데이터
    구분 메타데이터 항목명 타입 필수여부 설명 범위 비고
    1 Dataset Object Y 데이터셋 메타데이터    
      1.1 Dataset.Identifier String Y 데이터셋 식별자    
    1.2 Dataset.name String Y 데이터셋 이름    
    1.3 Dataset.src_path String Y 데이터셋 폴더 위치    
    1.4 Dataset.label_path String Y 데이터셋 레이블 폴더 위치    
    1.5 Dataset.category number Y 데이터셋 카테고리    
    1.6 Dataset.type number Y 데이터셋 타입    

     

    어노테이션 포맷

    어노테이션 포맷
    구분 항목명 타입 필수여부 설명 범위 비고
    1 data array Y 레코드의 리스트    
      1.1 data[].doc_id string Y 문서 번호    
      1.2 data[].doc_title string Y 문서 제목   행정업무운영편람
      1.3 data[].doc_source string Y 문서의 발행기관명   행정자치부(문서 출처)
      1.4 data[].doc_published number Y 문서의 발행시기   yyyy
    yyyymm yyyymmdd
      1.5 data[].created string Y 데이터셋 생성일시   yyyymmddHH24MISS
      1.6 data[].doc_class object Y 문서의 분류 정보    
        1.6.1 data[].doc_class.class string Y 분류 기준   중앙행정기관 기능분류체계(수집한 데이터에 따라 일부 항목 보완)
        1.6.2 data[].doc_class.code string Y 분류 기호   일반행정
      1.7 data[].paragraphs array Y 지문의 리스트    
        1.7.1 data[].paragraphs[].context_id string Y 지문 번호    
        1.7.2 data[].paragraphs[].context string Y 지문    
        1.7.3 data[].paragraphs[].qas array Y 질의응답 쌍의 리스트    
          1.7.3.1 data[].paragraphs[].qas[].qa_type number Y 데이터셋 유형   1: 정답 경계 추출형,
    2: 절차형, 3: Table 정답 추출형,
    5: Yes/No 단문형,
    6. 다지선다형,
    7. 응답 불가형
          1.7.3.2 data[].paragraphs[].qas[].question_id string Y 질문 번호    
          1.7.3.3 data[].paragraphs[].qas[].question string Y 질문    
          1.7.3.4 data[].paragraphs[].qas[].is_impossible boolean Y 질문의 답변 유무   true: 응답불가형
    false: 정답 있음
          1.7.3.5 data[].paragraphs[].qas[].answer object Y 답변    
            1.7.3.5.1 data[].paragraphs[].qas[].answer.answer_start number N 답변의 시작 위치   5:Yes/No 단문형, 6:다지선다형은 답변을 태깅하지 않아, 답변의 시작 위치가 필수 항목이 아님
            1.7.3.5.2 data[].paragraphs[].qas[].answer.text string Y 답변 텍스트    
            1.7.3.5.3 data[].paragraphs[].qas[].answer.options array N 다지선다형   채택한 AI모델링 에서는 보기의 텍스트로 정답을 식별하므로 보기에서의 정답의 순서의 분포패턴은 영향도 없음
    보기 답변
            1.7.3.5.4 data[].paragraphs[].qas[].answer.clue_text string N 답변 근거 텍스트   아래 유형은 답변근거를 지정하지 않아 답변 근거 텍스트가 필수 항목이 아님
    1: 정답경계 추출형
    2: 절차형
    3: Table형
    7: 응답불가형
            1.7.3.5.5 data[].paragraphs[].qas[].answer.clue_start number N 답변 근거의 시작 위치   아래 유형은 답변근거를 지정하지 않아 답변 근거 시작 위치가 필수 항목이 아님
    1: 정답경계 추출형
    2: 절차형
    3: Table형
    7: 응답불가형

     

     

    라벨링 데이터 실제 예시

    {    
                    "Dataset": {
            "Identifier": "TextQA_Administrator_Doc_01",
            "name": "행정문서 대상 기계독해 데이터",
            "src_path": "/dataSet/text/",
            "label_path": "/dataSet/text/",
            "category": 2,
            "type": 0
        },
        "data": [
             {            "doc_id": "48841",
                "doc_title": "“아빠가 일하는 곳에 와 보니 아빠를 더욱 이해하게 됐어요”",
                "doc_source": "안전행정부",
                "doc_published": 20160322,
                "doc_class": {
                    "class": "중앙행정기관 분류체계",
                    "code": "공공행정"
                },
                "created": "20211005135349",
                "paragraphs": [
                    {
                        "context": "“아빠가 일하는 곳에 와 보니 아빠를 더욱 이해하게 됐어요” - 행정자치부,「좋은 직장 만들기」일환 신바람 패밀리 데이 개최 -\n□ 행정자치부(장관 홍윤식)는 22일 오후 직원 가족 등 45명을 정부서울청사로 초청해 다양한 업무공간을 직접 체험하며 서로를 이해할 수 있는 소통․공감 체험 프로그램인 「신바람 패밀리 데이」를 개최했다.\n□ 이날 홍윤식 행정자치부장관은 인사말을 통해 “이곳은 여러분의 자녀 또는 부모님이 국가와 국민의 행복을 위해 늘 고민하고 애쓰는 일터”라며, “오늘 하루 다양하고 즐거운 체험을 통해 꿈과 희망을 갖고 건전하고 밝게 생활해 줄 것”을 당부했다. 홍 장관은 이어 “오늘 행사를 시작으로 매 분기 가족을 초청해 가족 간의 사랑과 직장의 소중함을 느끼도록 하겠다.”라고 밝혔다.\n□ 이번 행사에 참석한 직원과 가족들은 장관 집무실을 비롯한 국무회의장, 대한민국 국새(國璽), 스마트워크센터, 정부행정역사관 등 평소 체험하기 힘든 곳을 둘러보며 즐거운 시간을 보냈다.\n□ 이 날 행사에 참석한 ***(남, 12) 어린이는 “아빠가 근무하는 곳이 무척 궁금했는데, 사무실도 둘러보고 무슨 일을 하시는지 알게 되었고, 아빠를 더욱 잘 이해하게 되었다.”라며 “나도 아빠와 같은 훌륭한 공무원이 되고 싶다.”라는 포부를 밝혔다.\n□ ***(여, 13) 어린이는 “장관님 집무실 의자에 직접 앉아 훗날에 장관이 되는 꿈을 그려 봤다.”라고 말했다.\n□ 이번 행사에 관해 행정자치부는 “일회성이 아닌, 직원 유연근무와 자녀 체험학습과 연계해 추진한 것”이라며, “행정자치부는 ①일과 가정이 양립하는 직장문화 조성 ②소통으로 서로 신뢰하는 직장 분위기 조성 ③창의적인 근무 분위기 조성 ④자기계발 및 봉사 나눔 활동의 생활화 등 4개 분야 17개 시책의 「좋은 직장만들기」프로젝트를 지속적으로 추진하겠다.”라고 강조했다.",
                        "qas": [
                            {
                                "qa_type": 1,
                                "question_id": "5363243",
                                "question": "신바람 패밀리 데이를 개최한 기관은 어디니",
                                "is_impossible": false,
                                "answers": {
                                    "text": "행정자치부",
                                    "answer_start": 74,
                                    "clue_start": null,
                                    "clue_text": null,
                                    "options": null
                                }
                            },
                            {
                                "qa_type": 1,
                                "question_id": "5363244",
                                "question": "어느 기관이 신바람 패밀리 데이를 열었지",
                                "is_impossible": false,
                                "answers": {
                                    "text": "행정자치부",
                                    "answer_start": 74,
                                    "clue_start": null,
                                    "clue_text": null,
                                    "options": null
                                }
                            }
                        ],
                        "context_id": "461078"
                    }
                ]
            }
        ]
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜포티투마루
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김민경 02-6952-9201 [email protected] 기계독해 AI 모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜유클리드소프트 데이터 수집, 데이터 정제, 데이터 가공, 저작도구 개발
    연세대학교 산학협력단 데이터 품질검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김민경 02-6952-9201 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.