지리지 XML 정규화 개발: 두 판 사이의 차이
둘러보기로 이동
검색으로 이동
편집 요약 없음 |
잔글 Histgeo님이 기술 지리지 XML 문서를 지리지 XML 정규화 개발 문서로 이동했습니다 |
||
| (같은 사용자의 중간 판 하나는 보이지 않습니다) | |||
| 66번째 줄: | 66번째 줄: | ||
=== 국사편찬위원회 지리지 XML DB === | === 국사편찬위원회 지리지 XML DB === | ||
== 할일 == | |||
-(todo) github에 올리고 링크 연동 | |||
== 참조 자료 == | == 참조 자료 == | ||
2026년 3월 4일 (수) 12:08 기준 최신판
기술 개요
- 기술 설명
- 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
- 특정 필드 자동 번역 모듈
- 코드 개발자
- 개발자 : 김현종, 최경현
- 적용 대상
- 고전번역원, 대동지지
- 고전번역원, 신증동국여지승람
- 국사편찬위원회, 여지도서
- 자료 공개
- 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
- 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
- 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
- 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
- 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).
코드 아키텍쳐
- 입력
- 기관별 공개된 XML 파일
- 파싱
- XML 계층(Level) 분석 및 메타데이터 추출
- hanja 라이브러리를 이용한 1차 음차 변환
- 데이터 정제(태그 제거, 표제어/설명 분리)
- 번역
- Google Gemini API 연동
- 출력
- 엑셀(XLSX) 데이터베이스
공개 DB
고전번역원 지리지 XML DB
- XML 구조 - 팔도지 기준
- <아이템>
- <레벨1>
- <레벨2>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '도' 컬럼]
- <페이지>
- <제목> → [엑셀: '도' 컬럼]
- <간행정보>
- <간행년>
- <간행처>
- <제목정보>
- <레벨3>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '군현' 컬럼]
- <제목정보>
- <레벨4>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '편목' 컬럼]
- <원주>
- <주석>
- <페이지>
- <원주>
- <제목> → [엑셀: '편목' 컬럼]
- <저자정보>
- <저자>
- <간행정보>
- <분류정보>
- <제목정보>
- <메타정보>
- <메타정보>
- <메타정보>
- <레벨2>
- <레벨1>
<TODO>
국사편찬위원회 지리지 XML DB
할일
-(todo) github에 올리고 링크 연동