지리지 XML 정규화 개발: 두 판 사이의 차이
둘러보기로 이동
검색으로 이동
잔글 Histgeo님이 기술 지리지 XML 문서를 지리지 XML 정규화 개발 문서로 이동했습니다 |
|||
| 35번째 줄: | 35번째 줄: | ||
== 공개 DB == | == 공개 DB == | ||
=== 고전번역원 지리지 XML DB === | === 고전번역원 지리지 XML DB === | ||
* '''XML 구조 - 팔도지 기준''' | * '''XML 구조 - 대동지지 팔도지 기준''' | ||
* <아이템> | * <아이템> | ||
** <레벨1> | ** <레벨1> | ||
| 41번째 줄: | 41번째 줄: | ||
**** <메타정보> | **** <메타정보> | ||
***** <제목정보> | ***** <제목정보> | ||
****** <제목> → [엑셀: ' | ****** <제목> → [엑셀: '문헌' 컬럼] | ||
******* <페이지> | ******* <페이지> | ||
***** <간행정보> | ***** <간행정보> | ||
| 49번째 줄: | 49번째 줄: | ||
***** <메타정보> | ***** <메타정보> | ||
****** <제목정보> | ****** <제목정보> | ||
******* <제목> → [엑셀: ' | ******* <제목> → [엑셀: '도' 컬럼] | ||
***** <레벨4> | ***** <레벨4> | ||
****** <메타정보> | ****** <메타정보> | ||
******* <제목정보> | ******* <제목정보> | ||
******** <제목> → [엑셀: ' | ******** <제목> → [엑셀: '군현' 컬럼] | ||
********* <페이지> | ********* <페이지> | ||
******* <저자정보> | ******* <저자정보> | ||
******** <저자> | ******** <저자> | ||
********* <한글성명> | |||
********* <한자성명> | |||
******* <간행정보> | ******* <간행정보> | ||
******** <집수번호> | |||
******* <분류정보> | ******* <분류정보> | ||
******** <분류항목> | |||
********* <분류내용> | |||
****** <본문정보> | |||
******* <내용> | |||
******** <단락제목> → [엑셀: '편목' 컬럼] | |||
******** <단락> | |||
<TODO> | <TODO> | ||
2026년 3월 19일 (목) 07:52 판
기술 개요
- 기술 설명
- 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
- 특정 필드 자동 번역 모듈
- 코드 개발자
- 개발자 : 김현종, 최경현
- 적용 대상
- 고전번역원, 대동지지
- 고전번역원, 신증동국여지승람
- 국사편찬위원회, 여지도서
- 자료 공개
- 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
- 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
- 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
- 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
- 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).
코드 아키텍쳐
- 입력
- 기관별 공개된 XML 파일
- 파싱
- XML 계층(Level) 분석 및 메타데이터 추출
- hanja 라이브러리를 이용한 1차 음차 변환
- 데이터 정제(태그 제거, 표제어/설명 분리)
- 번역
- Google Gemini API 연동
- 출력
- 엑셀(XLSX) 데이터베이스
공개 DB
고전번역원 지리지 XML DB
- XML 구조 - 대동지지 팔도지 기준
- <아이템>
- <레벨1>
- <레벨2>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '문헌' 컬럼]
- <페이지>
- <제목> → [엑셀: '문헌' 컬럼]
- <간행정보>
- <간행년>
- <간행처>
- <제목정보>
- <레벨3>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '도' 컬럼]
- <제목정보>
- <레벨4>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '군현' 컬럼]
- <페이지>
- <제목> → [엑셀: '군현' 컬럼]
- <저자정보>
- <저자>
- <한글성명>
- <한자성명>
- <저자>
- <간행정보>
- <집수번호>
- <분류정보>
- <분류항목>
- <분류내용>
- <분류항목>
- <제목정보>
- <본문정보>
- <내용>
- <단락제목> → [엑셀: '편목' 컬럼]
- <단락>
- <내용>
- <메타정보>
- <메타정보>
- <메타정보>
- <레벨2>
- <레벨1>
<TODO>
국사편찬위원회 지리지 XML DB
할일
-(todo) github에 올리고 링크 연동