-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-10-07 최종산출물 추가 저작도구 2022-10-21 신규 샘플데이터 개방 2022-07-13 콘텐츠 최초 등록 소개
• 자생식물 60종을 대상으로 꽃, 열매, 잎(앞면, 뒷면) 4가지 객체분류(식물부위)별로 직접 촬영한 이미지 데이터 • 자생식물 60종의 식물부위 중 기능 및 효능, 영양성분이 있는 부위에 대하여 채취 후 기능성분을 분석한 결과 데이터
구축목적
• 국내 자생식물의 이미지를 인공지능 기술을 통해 식물 종 식별 및 영양, 기능성, 활성성분 정보 등 부가 정보를 제공하기 위한 통합(영상 이미지 + 텍스트) 학습용 데이터를 구축 • Computer Vision 분야의 Deep Learning 기법 중 “Classification”(Image Classification)을 목적으로 함
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 텍스트 , 이미지 데이터 형식 JSON 데이터 출처 기타(자체 제작) 라벨링 유형 폴리곤(이미지, Coarse Annotation) 라벨링 형식 JSON 데이터 활용 서비스 식물도감서비스 데이터 구축년도/
데이터 구축량2021년/300,000 -
데이터 통계
- 식의약용 자생식물 60종 대상으로 총 300,000건 구축
- 부위별 구축 규모
- 꽃 : 총 60종 중 16종 대상으로 9,600건 (종당 600x16=9,600)
- 열매 : 총 60종 중 39종 대상으로 23,400건 (종당 600x39=23,400)
- 잎-앞면 : 총 60종 중 60종 대상으로 133,500건
- 잎-뒷면 : 총 60종 중 16종 대상으로 133,500건
※ 단, 식물 1종당 꽃, 열매 데이터가 없는 경우, 해당 수량은 잎-앞면, 잎-뒷면에 각각 균등하게 포함함데이터 통계 부위별 구축 규모 항목명 데이터 형태 구축 규모 비고 클래스(60종)별
객체 분포이미지,
텍스트300,000장(건) • 데이터 구축 내용
- 총 식물종수 : 60종
- 데이터구축 목표 수량
. 총 수량 : 300,000장
. 식물 1종당 : 5,000장
(5,000÷300,000=1.67%)부위별
객체 분포이미지,
텍스트꽃 9,600장(건)
(3.20%)• 학습데이터 구축 대상
- 꽃, 열매, 잎-앞면, 잎-뒷면
• 식물 1종당 부위별 구축 수량
- 식물 1종당 5,000장 구축 기준
(꽃, 열매, 잎-앞면, 잎-뒷면
데이터가 모두 존재하는 경우)
. 꽃 : 600장 (12%)
. 열매 : 600장 (12%)
. 잎-앞면 : 1,900장 (38%)
. 잎-뒷면 : 1,900장 (38%)
※ 단, 식물 1종당 꽃, 열매 데이터가 없는 경우, 해당 수량은 잎-앞면, 잎-뒷면에 각각 균등하게 포함열매 23,400장(건)
(7.80%)잎-앞면 133,500장(건)
(44.50%)잎-뒷면 133,500장(건)
(44.50%)취득시기(월)
분포이미지,
텍스트5월 3건
(0.00%)데이터 취득 시기(단위: 월)를통해 생육단계 분포 확인 6월 2,392건
(0.80%)7월 1,951건
(0.65%)8월 17,429건
(5.81%)9월 39,333건
(13.11%)10월 67,971건
(22.66%)11월 162,712건
(54.24%)12월 8,209건
(2.74%)
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 이미지분류(꽃) AI모델
- 데이터셋
꽃 데이터셋은 16개의 클래스가 있으며, 클래스당 600장의 이미지로 구성되어 있다.
총 이미지 수는 9,600장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성하였다. - 학습 조건
- Epoch : 100 (모델의 총 학습 횟수)
- Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
- Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
- Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용)
- 실험 결과
1. 이미지분류(꽃) AI모델 실험 결과 모델 정확도(Accuracy) 총 파라미터 수 VGG16 100% 134,334,544 VGG19 100% 139,646,800 ResNet50 100% 23,540,816 DenseNet121 100% 6,970,256 - 최종 모델
본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 꽃 데이터셋에 대한 모델 학습 결과로 4가지 모두 정확도(Accuracy)는 100%의 결과를 보여주었다. 동일 성능을 보여준 모델들 중 최종 모델을 선정하기 위해 추가적으로 연산량과 관련된 파라미터 수를 비교하였다. 4가지 모델 중 DenseNet121 모델이 가장 적은 총 파라미터 수를 가지고 있으며, 이것은 동일 성능 대비 연산량이 가장 적은 모델을 의미한다. 그러므로 DenseNet121을 꽃 데이터셋의 학습과 평가를 위한 최종 모델로 선정하였다.
2. 이미지분류(열매) AI모델
- 데이터셋
열매 데이터셋은 39개의 클래스가 있으며, 클래스당 600장의 이미지로 구성되어 있다.
총 이미지 수는 23,400장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성하였다. - 학습 조건
- Epoch : 100 (모델의 총 학습 횟수)
- Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
- Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
- Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용)
- 실험 결과
2. 이미지분류(열매) AI모델 실험 결과 모델 정확도(Accuracy) 총 파라미터 수 VGG16 99.96% 134,428,775 VGG19 100% 139,741,032 ResNet50 100% 23,587,943 DenseNet121 100% 6,993,831 - 최종 모델
본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 열매 데이터셋에 대한 모델 학습 결과로 VGG16을 제외한 나머지 3가지 모델 모두 정확도(Accuracy)는 100%의 결과를 보여주었다. 동일 성능을 보여준 모델들 중 최종 모델을 선정하기 위해 추가적으로 연산량과 관련된 파라미터 수를 비교하였다. 3가지 모델 중 DenseNet121 모델이 가장 적은 총 파라미터 수를 가지고 있으며, 이것은 동일 성능 대비 연산량이 가장 적은 모델을 의미한다. 그러므로 DenseNet121을 열매 데이터셋의 학습과 평가를 위한 최종 모델로 선정하였다.
3. 이미지분류(잎-앞면) AI모델
- 데이터셋
잎 뒷면 데이터셋은 60개의 클래스가 있으며, 클래스당 최소 1900장 ~ 최대 2500장의 이미지로 구성되어 있다. 총 이미지 수는 133,500장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성함. 단, 잎 앞면의 경우 각 클래스마다 이미지 수가 불규칙하므로 최소 수량을 가진 클래스의 10% 수량으로 validation과 test를 구성하고 나머지 수량을 train으로 구성하였다. - 학습 조건
- Epoch : 100 (모델의 총 학습 횟수)
- Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
- Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
- Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용)
- 실험 결과
3. 이미지분류(잎-앞면) AI모델 실험 결과 모델 정확도(Accuracy) 총 파라미터 수 VGG16 100% 134,514,812 VGG19 100% 139,827,068 ResNet50 99.98% 23,630,972 DenseNet121 99.99% 7,015,356 - 최종 모델
본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 잎 뒷면 데이터셋에 대한 모델 학습 결과로 VGG16과 VGG19의 정확도(Accuracy)는 두 모델 동일하게 100%이고 ResNet50과 DenseNet121은 각각 99.98%과 99.99%이다. 최종 모델을 선정하기 위해 연산량과 관련된 파라미터 수를 고려하였다. DenseNet121 모델은 VGG16와 VGG19 모델 결과와 비교해서 거의 동일한 성능을 보여주었으며 또한 성능 대비 연산량이 훨씬 적었다. 그래서 잎 뒷면 데이터셋의 분류 모델로 적합하다고 판단하여 DenseNet121을 최종 모델로 선정하였다.
4. 이미지분류(잎-뒷면) AI모델
- 데이터셋
잎 앞면 데이터셋은 60개의 클래스가 있으며, 클래스당 최소 1900장 ~ 최대 2500장의 이미지로 구성되어 있다. 총 이미지 수는 133,500장이며, 학습을 위해 8(train) : 1(validation) : 1(test)로 분할하여 데이터셋을 구성함. 단, 잎 앞면의 경우 각 클래스마다 이미지 수가 불규칙하므로 최소 수량을 가진 클래스의 10% 수량으로 validation과 test를 구성하고 나머지 수량을 train으로 구성하였다. - 학습 조건
- Epoch : 100 (모델의 총 학습 횟수)
- Batch : 50 (연산을 한 번 진행할 때 들어가는 데이터의 크기)
- Optimizer : SGD (경사하강법 알고리즘이며, learning rate는 0.01, momentum은 0.9, weight_decay은 5e-4를 사용)
- Scheduler : CosineAnnealingLR (learning rate를 조절하는 알고리즘이며, T_max는 50을 사용)
- 실험 결과
4. 이미지분류(잎-뒷면) AI모델 실험 결과 모델 정확도(Accuracy) 총 파라미터 수 VGG16 100% 134,514,812 VGG19 100% 139,827,068 ResNet50 99.97% 23,630,972 DenseNet121 100% 7,015,356 - 최종 모델
본 과제에서는 VGG16, VGG19, ResNet50, DenseNet121 총 4가지 AI모델을 사용하여 비교 실험하였으며, 잎 앞면 데이터셋에 대한 모델 학습 결과로 VGG16을 제외한 나머지 3가지 모델 모두 정확도(Accuracy)는 100%의 결과를 보여주었다. 동일 성능을 보여준 모델들 중 최종 모델을 선정하기 위해 추가적으로 연산량과 관련된 파라미터 수를 비교하였다. 3가지 모델 중 DenseNet121 모델이 가장 적은 총 파라미터 수를 가지고 있으며, 이것은 동일 성능 대비 연산량이 가장 적은 모델을 의미한다. 그러므로 DenseNet121을 잎 앞면 데이터셋의 학습과 평가를 위한 최종 모델로 선정하였다.
- 데이터셋
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 이미지 분류(꽃) Image Classification DenseNet121 Accuracy 85 % 10 % 2 이미지 분류(열매) Image Classification DenseNet121 Accuracy 85 % 10 % 3 이미지 분류(잎-앞면) Image Classification DenseNet121 Accuracy 80 % 10 % 4 이미지 분류(잎-뒷면) Image Classification DenseNet121 Accuracy 80 % 99.99 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구성 및 어노테이션 포맷
1. 데이터 구성 및 어노테이션 포맷 구분 항목명 타입 필수
여부범위 1 데이터셋정보 info Object 1-1 데이터셋명 datast_nm String Y [식의약용 자생식물 분석 데이터] 1-2 데이터셋상세설명 datast_detail String 1-3 자생식물식별자 wd_plnt_idntfr String Y [001 ~ 060] 2 이미지정보 images Object 2-1 이미지파일아이디 image_file_id String Y [WP001_01_00001 ~ WP060_04_99999] 2-2 이미지파일명 image_file_nm String Y 2-3 파일저장경로 file_stre_cours String Y 2-4 해상도 rsoltn String Y [300~5000, 300~5000] 2-5 촬영장소명 region_nm String Y 2-6 생육지형 region_type String Y [평지, 경사지, 둔덕, 골짜기, 해안지, 개울가, 습지] 2-7 자생식물 부위 plant_part String Y [꽃, 열매, 잎-앞면, 잎-뒷면] 2-8 생육단계명 grwh_step_nm String 2-9 이미지파일포맷 image_file_frmat String Y [JPG] 2-10 이미지촬영일시 image_potogrf_dt String Y yyyy-mm-dd hh:mm:ss 3 라벨링정보 annotations Object 3-1 어노테이션아이디 antn_id Number Y 3-2 어노테이션타입 antn_ty String Y [POLYGON] 3-3 객체클래스대분류코드 object_class_lclas_code String Y [01 ~ 02] 3-4 객체클래스중분류코드 object_class_mlsfc_code String Y [001 ~ 060] 3-5 객체클래스소분류코드 object_class_sclas_code String Y [01 ~ 04] 3-6 객체클래스대분류명 object_class_lclas_nm String Y [목본, 초본] 3-7 객체클래스중분류명 object_class_mlsfc_nm String Y [붙임 ①] ‘자생식물명’ 3-8 객체클래스소분류명 object_class_sclas_nm String Y [꽃, 열매, 잎-앞면, 잎-뒷면] 3-9 폴리곤 X좌표 pyn_xcrdnt String 3-10 폴리곤 Y좌표 pyn_ycrdnt String 4 식물정보 plants Object 4-1 자생식물명 wd_plnt_nm String Y [붙임 ①] ‘자생식물명’ 4-2 학명 scientific_nm String 4-3 목본/초본구분 woody_herbal String Y [1, 2] 4-4 식용여부 edible_yn Boolean Y [Y, N] 4-5 식용부위 edible_part List 4-6 취득시기 acquisition_term String Y [01월, 02월, 03월, 04월, 05월, 06월, 07월, 08월, 09월, 10월, 11월, 12월] 4-7 효능 efficacy Array 4-8 효능수치 efficacy_ncl Array 4-9 영양분석 nutrient Array 5 성분정보 ingredient Object 5-1 성분명 irdnt_nm Array 5-2 성분수치 irdnt_ncl Array 5-3 성분화학물구조 irdnt_chmcls_strct String 5-4 성분분석기관명 irdnt_anals_instlm String [제주산학융합원] 6 라이선스 licenses Object 6-1 라이선스명 lcnse_nm String Y
2. 실제 예시- 원천 데이터 (.jpg)
- 라벨 데이터 (.json)
{
"info" : {
"datast_nm" : "64.식의약용 자생식물 데이터",
"datast_detail" : "식의약용 자생식물 객체분류별 학습용 데이터셋",
"wd_plnt_idntfr" : "001"
},
"images" : {
"image_file_id" : "000001",
"image_file_nm" : "WP001_0001.jpg",
"file_stre_cours" : "\\식의약용 자생식물 분석 데이터\\01\\001\\CR001_01_50003.jpg",
"rsoltn" : “1500, 1500”,
... (중략)
"image_potogrf_dt" : "2021-08-12 10:34:19"
},
"annotations" : {
"antn_id" : 1593470,
"antn_ty" : "polygon",
"object_class_lclas_code" : "02",
"object_class_mlsfc_code" : "001",
"object_class_sclas_code" : "02",
"object_class_lclas_nm" : "초본",
"object_class_mlsfc_nm" : "연꽃",
"object_class_sclas_nm" : "꽃",
"pyn_xcrdnt" : [ 107, 152, 225, 189, 105, 152, 225, 189, 105, 150, 225, ... ]
}
... (중략)
}
- 원천 데이터 (.jpg)
-
데이터셋 구축 담당자
수행기관(주관) : 제주특별자치도청
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 송형민 주무관 064-710-2582 [email protected] · 사업수행 총괄 · 사업관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 (재)제주테크노파크 · 자생식물 60종 정의 및 기능/효능 분석
· 해커톤 운영(사)제주산학융합원 · 식의약용 자생식물 60종을 대상으로 성분분석 실시 ㈜데이터웨이 · 데이터 품질관리 및 검증 ㈜지디에스컨설팅그룹 · 식의약용 자생식물 60종별 부위별 어노테이션/라벨링 작업을 통한 학습데이터 구축 ㈜플렉싱크 · 식의약용 자생식물 60종별 부위별 수집/정제작업을 통한 원천데이터 확보 ㈜디에스티인터내셔날 · AI 알고리즘 선정
· 학습모델 구축
· 자생식물 도감 웹서비스 개발와이비에스에듀 사회적협동조합 · 크라우드워커 모집/교육 관리
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.