-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-08-06 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-06 산출물 공개 Beta Version 소개
- 자연어 이해 연구에 활용 가능한 지식그래프 기반 자연어 생성 기술 개발을 위한 학습용 데이터 구축
구축목적
- 한국어 이해와 처리를 위한 지식그래프 기반 학습 데이터 구축으로 자연어 생성모델 및 질의응답 시스템 개발에 활용할 수 있는 기반을 마련하고자 함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 텍스트 (csv) 데이터 출처 신문 및 도서 구입 라벨링 유형 태깅(주어,술어,목적어 추출) 라벨링 형식 json 데이터 활용 서비스 (연구) 한국어 자연어 이해 및 자연어 처리 연구 (산업분야) 검색 엔진, 챗봇 서비스, 문맥 정보 추출 서비스 데이터 구축년도/
데이터 구축량2023년/(원천)237,294건, (가공)300,178건 (서브라벨링) 총 토근수 58,854,971 -
- 원천 데이터 구축 규모 : 총 237,294건
- 역사 : 12,595건
- 의료 : 38,177건
- 사회 : 38,634건
- 경제 : 36,928건
- 국제 : 36,562건
- 문화 : 37,180건
- IT : 37,218건- 데이터 분포
● 매체별 분포- 뉴스(MBN, 매일경제신문) 213,042건(89.8%)
- 매거진(매일경제신문) : 11,657건 (4.9%)
- 도서(매경출판) : 12,595건 (5.3%)
● 주제별 분포-
- 의료(16.09%), 사회(16.28%), 경제(15.56%), 국제(15.41%), 문화(15.67%), IT(15.68%), 역사(5.31%)
● 라벨링 주제별 분포
총 300,178건의 라벨링 데이터라벨링 주제별 분포 구분 라벨링 데이터 수 비율 의료 49,138건 16% 사회 46,704건 16% 경제 47,781건 16% 국제 50,692건 17% 문화 49,591건 17% IT과학 47,149건 16% 역사 9,123건 3% 합계 300,178건 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모델학습
본 사업에서 구축한 데이터가 지식그래프-투-텍스트 생성 모델에 활용될 수 있기에 모델 학습에 적절한 학습, 검증, 시험 데이터셋을 준비하는 것을 제안함모델학습 모델분류 구분 학습(Training) 검증(Validation) 시험(Test) 지식그래프-투-텍스트 개요 - pre-trained된 BART 모델에
fine-tuning 학습
- GPU 학습 사용- 학습 도중 모델 성과 평가 및 비교
- BLEU 점수- 모델 학습 완료 후
- 모델 테스트데이터 비율 80% 10% 10% - 서비스 활용 시나리오 예시
● 생성모델에서 발견되는 사건 왜곡(Hallucination)으로 인한 거짓 정보 전달이 치명적인 단점으로 부각되고 있음
● 특히 전문적이고 자연스럽게 대답하기 때문에 사회적으로 큰 이슈를 불러 일으킬 가능성이 존재
● 사건 왜곡을 방지하기 위해 문서나 지식그래프와 같은 외부 지식을 활용한 조건부 텍스트 생성 과제를 활용 할 수 있음 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 메타데이터 구성
메타데이터 구성 key Description Type { 데이터셋 object Identifier MEDIA TYPE 영문명_과제번호_카테고리 코드 string created YYYYMMDDH24MISS string name MEDIA TYPE 한글명_과제번호_카테고리 이름 string src_path 데이터 물리 저장소 경로 string label_path 데이터 물리 저장소 경로 string category_code C, E, H, I, M, S, T string category_name 문화, 경제, 역사, 국제, 의료, 사회, IT과학 string type 원천데이터 미디어 타입 string data 문서리스트 array [ object { object doc_id 원천데이터 문서번호 string doc_title 원천데이터 문서제목 string doc_source 원천데이터 미디어 네임 string doc_published YYYYMMDD string doc_category 뉴스통합분류체계 코드 string doc_text 원천데이터 문서내용 string doc_sentences 문서 내 문장 리스트 array [ object { object sentence_id 문서 본문 내 단위 문장 ID number sentence_text 문서 본문 내 단위 문장 내용 string triples 추출 문장 단위 트리플 리스트 array [ object { object triple_id 트리플 ID number subject 트리플 Subject string predicate 트리플 Property string object 트리플 Object string } object ] object } object ] object } object ] object } object - 어노테이션 포맷
어노테이션 포맷 항목 길이 타입 필수여부 비고 Identifier 데이터셋 식별자 string Y created 데이터셋 생성일시 string Y name 데이터셋 이름 string Y src_path 데이터셋 이름데이터셋 폴더위치 string Y label_path 데이터셋 레이블 폴더위치 string Y category_code 데이터셋 카테고리 코드 string Y "C","E","H","I","M","S","T" category_name 데이터셋 카테고리 이름 string Y "문화","경제","역사","국제","의료","사회","IT과학" type 데이터셋 타입 string Y data 문서 리스트 array Y { 문서 object Y doc_id 문서 번호 9,999,999 string Y doc_title 문서 제목 string Y doc_source 문서 발행기관 string Y doc_published 문서 발행일 string Y doc_category 문서 분류 코드 999,999 string Y doc_text 문서 본문 전체 string Y doc_sentences 문서 내 문장 리스트 array Y { 문장 object Y sentence_id 문서 본문 내 단위 문장 ID 999 number Y sentence_text 문서 본문 내 단위 문장 내용 string Y triples 추출 문장 단위 트리플 리스트 array Y [ 트리플 object Y { 트리플 object Y triple_id 트리플 ID number Y subject 트리플 Subject string Y predicate 트리플 Property string Y object 트리플 Object string Y 예시 {
"Identifier": "news_13-1_M",
"created": "20231129170141",
"name": "뉴스_13-1_의료",
"src_path": "/dataset/text/src/M",
"label_path": "/dataset/text/label/M",
"category_code": "M",
"category_name": "의료",
"type": "뉴스",
"data": [
{
"doc_id": "2143530",
"doc_title": "고려대 안암병원, 찾아가는 건강검진 버스 출범식",
"doc_source": "매일경제",
"doc_published": "20141208",
"doc_category": "100407",
"doc_text": "고려대학교 안암병원(원장 김영훈)은 8일 롯데백화점 본점에서 롯데백화점, 열린의사회와 함께 전국의 의료소외계층에 대한 종합검진과 치료를 지원하는'찾아가는 건강검진 버스 출범식'을 가졌다. \n\n이날 출범식에는 안암병원 김영훈 원장과 롯데백화점 이원준 대표, 열린의사회 고병석 이사장, 열린의사회 이왕림 명예회장, 열린의사회 의료봉사회 최봉춘 회장 등 주요 인사가 참석했다. \n\n김영훈 원장은 \"지금 이 순간에도 생사의 갈림길에서 사투를 벌이며 도움의 손길을 필요로 하는 이웃들이 많다”며 \"세 기관이 함께 힘을 합쳐 사랑을 실천할 수 있는 기회를 만들어 소외계층 없는 건강한 대한민국을 만들어 갈 것”이라고 말했다. \n\n이원준 롯데백화점 대표는 \"고객으로부터 받은 사랑을 나눔으로 보답하겠다”며 \"사회적 책임을 최우선으로 생각하고 많은 노력을 기울이겠다”고 포부를 밝혔다. 고병석 열린의사회 이사장은\"이번 건강검진 버스는 대기업, 대학병원, 의료봉사 NGO가 협력해서 처음으로 시작하는 색다른 사회공헌프로그램”이라며 \"대한민국을 대표하는 사회공헌프로그램으로 자리매김할 것”을 기대했다. \n\n이번 건강검진 버스는 전국의 어려운 이웃 2200여명을 찾아가 종합건강검진 및 치료를 제공할 예정이며 수술이 필요한 환자는 고려대 안암병원에서 치료를 진행하게 된다. 중구 장애인복지관을 시작으로 전국 44개의 사회복지시설을 방문해 검진을 진행할 예정이다.",
"doc_sentences": [
{
"sentence_id": 1,
"sentence_text": "고려대학교 안암병원(원장 김영훈)은 8일 롯데백화점 본점에서 롯데백화점, 열린의사회와 함께 전국의 의료소외계층에 대한 종합검진과 치료를 지원하는'찾아가는 건강검진 버스 출범식'을 가졌다.",
"triples": [
{
"triple_id": 1,
"subject": "안암병원",
"predicate": "출범하다",
"object": "찾아가는 건강검진 버스"
}
]
},
{
"sentence_id": 2,
"sentence_text": "이날 출범식에는 안암병원 김영훈 원장과 롯데백화점 이원준 대표, 열린의사회 고병석 이사장, 열린의사회 이왕림 명예회장, 열린의사회 의료봉사회 최봉춘 회장 등 주요 인사가 참석했다.",
"triples": [
{
"triple_id": 1,
"subject": "열린의사회",
"predicate": "명예회장",
"object": "이왕림"
}
]
},
{
"sentence_id": 4,
"sentence_text": "이원준 롯데백화점 대표는 \"고객으로부터 받은 사랑을 나눔으로 보답하겠다”며 \"사회적 책임을 최우선으로 생각하고 많은 노력을 기울이겠다”고 포부를 밝혔다.",
"triples": [
{
"triple_id": 1,
"subject": "롯데백화점",
"predicate": "대표",
"object": "이원준"
},
]
},
{
"sentence_id": 5,
"sentence_text": "고병석 열린의사회 이사장은\"이번 건강검진 버스는 대기업, 대학병원, 의료봉사 NGO가 협력해서 처음으로 시작하는 색다른 사회공헌프로그램”이라며 \"대한민국을 대표하는 사회공헌프로그램으로 자리매김할 것”을 기대했다.",
"triples": [
{
"triple_id": 1,
"subject": "찾아가는 건강검진 버스",
"predicate": "유형",
"object": "사회공헌프로그램"
}
]
}
]
},
{
"doc_id": "2143609",
"doc_title": "붉은 여드름 자국, `복합 레이저 치료`가 새로운 대안",
"doc_source": "매일경제",
"doc_published": "20141208",
"doc_category": "100407",
"doc_text": "최근 이어진 겨울철 맹추위와 과도한 난방은 피부를 건조하게 만들 뿐만 아니라 여드름도 악화시킨다. 특히 터틀넥이나 목도리 같은 보온 용품은 피부 모공을 자극해 목과 턱 주위 여드름의 원인이 된다. \n\n연세스타피부과 이상주 원장은 최근 열린'여드름 및 여드름 흉터 치료 관련 의료기기 심포지엄'에서'다양한 방법을 이용한 여드름 자국 치료'를 주제로 여드름 홍반과 색소침착 치료법을 발표해 주목을 받았다. \n\n기존의 여드름 치료는 여드름을 가라앉히는 것에만 집중해 초기 여드름에 의한 붉은 자국(여드름 홍반)이나 갈색 자국(여드름 색소침착) 치료를 등한시하는 경우가 많았다. 그러나 초기에 여드름과 여드름 자국을 함께 치료하지 않으면 깊은 흉터로 이어지기 쉽기 때문에 적극적으로 대처하는 것이 현명하다. 붉은 여드름 자국(홍반)은 혈관 확장 문제를 해결하는 것이 관건이다. 여드름 홍반은 여드름 균에 따른 염증과 그 과정에서 혈관이 늘어나 주로 염증성 여드름 초기 단계에 생겨 여드름이 가라앉아도 붉은 기가 사라지지 않고 피부에 남아 얼룩덜룩한 피부 톤을 만든다. \n\n만약 붉은 기가 심하지 않다면 약물 치료를 하거나 가벼운 피부스케일링이 좋다. 하지만 병변이 넓거나 보다 확실하게 붉은 자국을 개선하기 위해서는 브이빔퍼펙타와 같은 혈관에 작용하는 레이저가 효과적이다. 붉은 자국과 여드름흉터가 동반돼 있는 경우는 콜라겐을 되살리고 재배치하기 위한 프락셔널 레이저 치료도 도움이 된다. \n\n여드름, 붉은 자국, 흉터가 복합적으로 있는 경우에는 초기부터 여러 레이저를 복합적으로 사용하는 '복합레이저 치료'가 매우 효과적이다. 복합레이저 치료는 붉은 여드름 자국은 물론 여드름의 3대 원인인 여드름균과 피지, 염증을 제거해 심한 여드름도 효율적으로 관리하여 여드름 흉터의 예방 효과도 기대할 수 있다. \n\n여드름 치료 후에 갈색 색소가 침착된 여드름 자국은 진하게 남은 색을 엷게 만드는 것에 집중해야 한다. 미미한 경우 홍반과 마찬가지로 약물치료와 화학 박피를 적용한다. 보다 빠르고 확실한 치료 결과를 위해서는 레이저토닝과 같은 색소레이저 치료를 활용한다. \n\n이상주 연세스타피부과 원장은 \"여드름 초기에 전문적인 치료를 받아 염증을 빨리 가라앉히는 것이 여드름 자국을 남기지 않는 최선의 방법”이라며 \"혈관레이저와 색소레이저를 활용한 복합레이저 치료는 여드름 자국을 개선하고 여드름 예방까지 할 수 있어 환자들이 만족할 만한 효과를 얻을 수 있을 것”이라고 설명했다.",
"doc_sentences": [
{
"sentence_id": 1,
"sentence_text": "최근 이어진 겨울철 맹추위와 과도한 난방은 피부를 건조하게 만들 뿐만 아니라 여드름도 악화시킨다.",
"triples": [
{
"triple_id": 1,
"subject": "겨울철 맹추위",
"predicate": "악화시키다",
"object": "여드름"
}
]
},
{
"sentence_id": 2,
"sentence_text": "특히 터틀넥이나 목도리 같은 보온 용품은 피부 모공을 자극해 목과 턱 주위 여드름의 원인이 된다.",
"triples": [
{
"triple_id": 1,
"subject": "터틀넥",
"predicate": "자극하다",
"object": "피부 모공"
}
]
},
{
"sentence_id": 9,
"sentence_text": "하지만 병변이 넓거나 보다 확실하게 붉은 자국을 개선하기 위해서는 브이빔퍼펙타와 같은 혈관에 작용하는 레이저가 효과적이다.",
"triples": [
{
"triple_id": 1,
"subject": "브이빔퍼펙타",
"predicate": "작용하다",
"object": "혈관"
}
]
},
{
"sentence_id": 12,
"sentence_text": "복합레이저 치료는 붉은 여드름 자국은 물론 여드름의 3대 원인인 여드름균과 피지, 염증을 제거해 심한 여드름도 효율적으로 관리하여 여드름 흉터의 예방 효과도 기대할 수 있다.",
"triples": [
{
"triple_id": 1,
"subject": "복합레이저 치료",
"predicate": "효과",
"object": "여드름 흉터 예방"
}
]
},
{
"sentence_id": 16,
"sentence_text": "이상주 연세스타피부과 원장은 \"여드름 초기에 전문적인 치료를 받아 염증을 빨리 가라앉히는 것이 여드름 자국을 남기지 않는 최선의 방법”이라며 \"혈관레이저와 색소레이저를 활용한 복합레이저 치료는 여드름 자국을 개선하고 여드름 예방까지 할 수 있어 환자들이 만족할 만한 효과를 얻을 수 있을 것”이라고 설명했다.",
"triples": [
{
"triple_id": 1,
"subject": "복합레이저 치료",
"predicate": "활용하다",
"object": "혈관레이저"
}
]
}
]
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 에스에스엘
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박찬림 010-8873-5217 [email protected] 주관 사업관리 및 품질 업무 수행기관(참여)
수행기관(참여) 기관명 담당업무 KDX한국데이터거래소 수집 및 정제 업무 디윅스 가공 업무 솔트룩스 AI 학습 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 노지혜 02-2000-5934 [email protected] 김준호 02-6265-6900 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 유춘식 02-2193-1600 [email protected] 박미향 02-2193-1600 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 전승철 02-6265-6900 [email protected] 김준호 02-6265-6900 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.