수식, 도형, 낙서기호 OCR 데이터
- 분야영상이미지
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-01-17 담당자 변경 2022-10-13 신규 샘플데이터 개방 2022-07-28 콘텐츠 최초 등록 소개
수식 인식 (Mathematical Expression Recognition) 기술을 학습시킬 수 있는 수식, 도형, 낙서 등의 데이터를 충분히 확보함으로써 문자 인식 서비스의 수준을 제고하고 이를 기반으로 하는 시각/언어/음성 연계 인식서비스의 연구개발을 촉진
구축목적
- 수식이 포함된 텍스트의 광학 인식률 및 인식 속도 향상을 위한 데이터셋 구축 - 인쇄체와 손글씨 모두를 포함한 시나리오를 위한 데이터셋 구축 및 배포 - 그래프, 평면도형, 집합 등의 다양한 교육 특화 도형 요소들을 인식 - 수식, 도형, 낙서기호 인식을 바탕으로 하는 AI 서비스의 개발과 고도화에 기여
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 PNG 데이터 출처 자체 수집 라벨링 유형 세그멘테이션(이미지), LaTex라벨링(수식텍스트), 구성정보 라벨링(도형) 라벨링 형식 JSON 데이터 활용 서비스 교육산업 및 연구분야 데이터 구축년도/
데이터 구축량2021년/인쇄체 식별 데이터 셋 (38,990장) 및 손글씨 식별 데이터셋 (38,990장) / 총 77,980장 -
1. 데이터 구축 규모
1. 데이터 구축 규모 구분 상세 형식 총 파일 수량 원천 이미지 인쇄체 PNG 38,997 손글씨 PNG 149,268 라벨링 데이터 인쇄체 JSON 38,997 (수식/텍스트/도형/낙서기호 영역 좌표값 및 속성 라벨링) 손글씨 JSON 149,268 2. 데이터 분포
2. 데이터 분포 항목 조건구분 건수 비율(%) 인쇄체/손글씨 분포 인쇄체 38,997건 20.71% 손글씨 149,268건 79.29% 교육과정 단원별 분포 초등 수학 21,757건 11.56% 중등 수학 68,899건 36.60% 고등 수학 97,609건 51.85% 수식/텍스트, 도형, 낙서기호 분포 수식/텍스트 352,653건 90.33% 도형 8,991건 2.30% 낙서기호 28,735건 7.36% * 손글씨 데이터의 경우, 원시데이터 38,990장에 대해 통이미지, 조각이미지(파일명에 HA(통이미지), HS(조각이미지) 식별자 포함)로 나누어 데이터셋이 구축되었고, 하나의 이미지에 여러 개의 수식/텍스트, 도형, 낙서기호가 들어 가 있을 수 있음
2. 데이터 분포 교육과정 단원명 수량 초등수학(4상) 411 큰수 454 412 곱셈과 나눗셈 959 413 평면도형의 이동 572 414 각도 829 415 규칙 찾기 209 416 막대그래프 470 초등수학(4하) 421 분수의 덧셈과 뺄셈 235 422 소수의 덧셈과 뺄셈 295 423 삼각형 164 424 사각형 886 425 다각형 149 426 꺾은선그래프 570 초등수학(5상) 511 자연수의 혼합 계산 538 512 약수와 배수 716 513 약분과 통분 564 514 분수의 덧셈과 뺄셈 25 515 다각형의 둘레와 넓이 851 516 규칙과 대응 168 초등수학(5하) 521 분수의 곱셈 753 522 소수의 곱셈 748 523 합동과 대칭 738 524 직육면체 609 525 수의 범위와 어림하기 765 526 평균과 가능성 547 초등수학(6상) 611 분수의 나눗셈 719 612 소수의 나눗셈 752 613 각기둥과 각뿔 581 614 직육면체의 부피와 겉넓이 598 615 비와 비율 742 616 여러가지 그래프 705 초등수학(6하) 621 분수의 나눗셈 742 622 소수의 나눗셈 917 623 공간과입체 650 624 원기둥, 원뿔, 구 611 625 원의 넓이 607 626 비례식과 비례배분 619 중등수학(1상) 711 소인수분해 6,753 712 정수와 유리수 6,857 713 문자의 사용과 식의 계산 6,523 714 일차방정식 5,782 715 좌표평면과 그래프 2,551 중등수학(1하) 721 기본도형 3,730 722 작도와 합동 1,297 723 평면도형의 성질 2,900 724 입체도형의 성질 1,278 725 자료의 정리와 해석 958 중등수학(2상) 811 유리수와 순환소수 1,006 812 식의 계산 585 813 일차부등식과 1,050 연립일차방정식 814 일차함수와 그래프 2,538 815 일차함수와 일차방정식의 949 관계 중등수학(2하) 821 삼각형과 사각형의 성질 5,160 822 도형의 닮음 2,985 823 피타고라스 정리 1,558 824 확률과 그 기본 성질 1,203 중등수학(3상) 911 제곱근과 실수 1,057 912 다항식의 곱셈과 인수분해 1,109 913 이차방정식 1,542 914 이차함수와 그래프 1,276 중등수학(3하) 921 삼각비 4,085 922 원의 성질 2,684 923 대푯값과 산포도 996 924 상관관계 487 고등수학(상) 1011 다항식의 연산 2,058 1012 나머지정리 1,202 1013 인수분해 895 1014 복소수와 이차방정식 2,141 1015 이차방정식과 이차함수 2,632 1016 여러가지 방정식과 부등식 3,823 1017 평면좌표 1,881 1018 직선의 방정식 3,213 1019 원의 방정식 3,217 1010 도형의 이동 1,468 고등수학(하) 1021 집합 5,417 1022 명제 1,507 1023 함수 5,227 1024 유리함수와 무리함수 3,968 1025 경우의 수 1,556 1026 순열과 조합 1,499 수학I 1111 지수와 로그 1,133 1112 지수함수와 로그함수 2,064 1113 삼각함수 3,054 1114 등차수열과 등비수열 2,598 1115 수열의 합 2,952 1116 수학적 귀납법 2,389 수학II 1121 함수의 극한 2,154 1122 함수의 연속 1,235 1123 미분계수 1,195 1124 도함수 492 1125 도함수의 활용 4,949 1126 부정적분 1,440 1127 정적분 1,653 1128 정적분의활용 1,416 미적분 1211 수열의 극한 1,475 1212 급수 1,477 1213 여러 가지 함수의 미분 2,415 1214 여러 가지 미분법 1,506 1215 도함수의 활용 2,975 1216 여러 가지 적분법 1,354 1217 정적분의 활용 1,595 확률과 통계 1221 순열과 조합, 이항정리 2,470 1222 확률의 뜻과 적용 1,173 1223 조건부확률 886 1224 확률분포 2,251 1225 통계적 추정 708 기하 1231 이차곡선 2,367 1232 벡터의 연산 912 1233 평면벡터의 성분과 내적 1,509 1234 직선과 평면, 정사영 925 1235 공간좌표 1,192 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드□ 모델학습
- 수식 인식에 있어 현 시점에서 공개된 가장 큰 데이터셋인 im2latex-100k 기준으로 가장 성능이 좋은 ConvMath 모델의 개선 버전인 ConvMath_ViT 사용함(ConvMath(A Convolutional Sequence Network for Mathematical Expression Recognition) 논문 참조
- ConvMath_ViT 모델은 ConvMath 모델의 기본적인 구조를 사용하면서 Encoder로 Google Research의 Google Brain 팀이 발표한 논문에서 소개한 ViT(Vision Transformer) 모델을 Convolution Layer 대신 활용함
- 현재까지 논문으로 공개된 데이터셋이나 모델은 수식 이미지를 보고 Latex Markup Language를 표현하는 Task에 한정됨. 따라서 수식 데이터에 대해서만 성능 측정함
[ConvMath 모델의 기본 구조]
[ViT 모델 개요]
- 서비스 활용 시나리오
(1) 수학, 물리학 등 수식을 많이 활용하는 기초 과학 분야 문서의 디지털화를 촉진함으로써 국가 기초과학 연구 기반 확충
(2) 비대면 온라인 수업이 확대되고 있는 상황에서 수학 및 물리, 화학 공식에 대한 검색, 확인, 전달 방식을 획기적으로 개선함으로써 온라인 학습의 효용성 제고
(3) 교육, 엔지니어링, 기초 및 응용과학 분야의 생산성을 제고함으로써 국가경쟁력을 강화 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 수식 인식(인쇄체) Optical Character Recognition ConvMath_ViT BLEU 0.7 점 0.8192 점 2 수식 인식(손글씨) Optical Character Recognition ConvMath_ViT BLEU 0.3 점 0.3723 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드교육부 2015 개정 초등4학년~고등학교 수학 교과 과정 내용을 인쇄체, 손글씨로 표현한 이미지 데이터 상의 학습 요소(수식, 한국어 텍스트, 도형, 산술식 풀이 상 사용된 낙서기호)를 대상으로 폴리곤을 활용한 영역 및 LaTex(수식텍스트), 구성정보(도형) 등 속성 라벨링을 수행하여 구축
단계 단계 내용 원천데이터 획득 - 교과 학습 컨텐츠 획득 절차
손글씨 풀이 이미지 획득 절차
손글씨 첨삭 이미지 획득 절차
원천데이터 정제 데이터 가공 데이터 검수 □ 대표도면
대표도면 이미지 인쇄체 데이터
(Recognition용)손글씨 데이터 Detection+Recognition 겸용 Recognition 전용 □ 라벨링데이터 구성
라벨링데이터 구성 구분 항목명 타입 필수여부 설명 범위 1 id String Y 식별자 2 chapter_id String Y 학습요소 ID 3 material_type String Y 인쇄체/손글씨 4 segments Object 이미지정보 4–1 segments.box List Y 라벨링바운딩박스 4~8점 4–2 segments.type String Y 영역 유형 수식/텍스트, 도형, 낙서기호 4–3 segments.type_detail String Y 세부 유형 한글/수식 집합/표/... 체크/밑줄/... 4–4 segments.equation String 수식/한글 LaTeX 4–5 segments.graphic_info Object 그래픽 세부 정보 구성 정보 4–6 segments.doodle_info String 낙서 부가 정보 긍정/강조/.. □ 라벨링데이터 실제예시
라벨링데이터 실제예시 이미지 라벨링 데이터
{
"id": "7bad4c",
"chapter_id": "24",
"material_type": "인쇄체",
"segments": [
{
"box": [[0, 0], [350, 0], [350, 40], [0, 40]],
"type": "수식/텍스트",
"type_detail": "수식",
"equation": "$D=36a^2-4(9a^2-2a+18)$"
},
{
"box": [[0, 40], [310, 40], [310, 80], [0, 80]],
"type": "수식/텍스트",
"type_detail": "수식",
"equation": "=36a^2-36a^2+8a-72"
}
]
}{
{
"id": "aee9e9",
"chapter_id": "42",
"material_type": "인쇄체",
"segments": [
{
"box": [[0, 0], [270, 0], [270, 150], [0, 150]],
"type": "도형",
"type_detail": "벤다이어그램",
"graphic_info": {
"U": ["1", "2", "3", "4", "5", "6"],
"A": ["1", "2", "3"],
"B": ["2", "3", "4"]
}
}
]
}
{
"id": "412194",
"chapter_id": "53",
"material_type": "손글씨",
"segments": [
{
"box": [[21, 12], [552, 12], [552, 46], [21, 46]],
"type": "수식/텍스트",
"type_detail": "텍스트/수식",
"equation": "$y=ax+b$가 $(-3,0)$을 지나고, 삼각형의 넓이는"
},
{
"box": [[26, 191], [314, 191], [314, 224], [26, 224]],
"type": "수식/텍스트",
"type_detail": "수식",
"equation": "\therefore a+b = \frac{2}{3}+(-1) = -\frac{1}{3}"
},
{
"box": [[61, 275], [260, 275], [260, 307], [61, 307]],
"type": "수식/텍스트",
"type_detail": "텍스트",
"equation": "문제를 해결한 후 꼭꼭꼭 !"
},
{
"box": [[119, 80], [130, 80], [130, 89], [119, 89]],
"type": "낙서기호",
"type_detail": "체크",
"doodle_info": "강조"
}, ...
]
}
{
"id": "ddaece",
"chapter_id": "36",
"material_type": "손글씨",
"segments": [
{
"box": [[0, 0], [124, 0], [124, 25], [0, 25]],
"type": "수식/텍스트",
"type_detail": "수식",
"equation": "$a^2-a-6=0$"
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜씨유박스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박준석 02-6277-7835 [email protected] 데이터 설계, 품질 관리 및 학습 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜제제듀 데이터 설계, 수집, 정제, 가공 및 검수 (수식텍스트 LaTex 라벨링, 도형 구성정보 라벨링 담당) ㈜크라우드웍스 데이터 수집, 정제, 가공 및 검수 (수식, 도형, 낙서기호 영역 라벨링 담당) 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 한상훈 02-6277-7835 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.