지리지 XML 정규화 개발

역지사지(歷地思之) - 역사지리정보(HGIS) 위키
Histgeo (토론 | 기여)님의 2026년 3월 4일 (수) 12:08 판 (Histgeo님이 기술 지리지 XML 문서를 지리지 XML 정규화 개발 문서로 이동했습니다)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
둘러보기로 이동 검색으로 이동
파일:기술 지리지 XML.jpg
기술_지리지_XML_비교

기술 개요

  • 기술 설명
    • 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
    • 특정 필드 자동 번역 모듈
  • 코드 개발자
    • 개발자 : 김현종, 최경현
  • 적용 대상
    • 고전번역원, 대동지지
    • 고전번역원, 신증동국여지승람
    • 국사편찬위원회, 여지도서
  • 자료 공개
    • 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
    • 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
    • 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
    • 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
    • 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).

코드 아키텍쳐

  1. 입력
    • 기관별 공개된 XML 파일
  2. 파싱
    • XML 계층(Level) 분석 및 메타데이터 추출
    • hanja 라이브러리를 이용한 1차 음차 변환
    • 데이터 정제(태그 제거, 표제어/설명 분리)
  3. 번역
    • Google Gemini API 연동
  4. 출력
    • 엑셀(XLSX) 데이터베이스


공개 DB

고전번역원 지리지 XML DB

  • XML 구조 - 팔도지 기준
  • <아이템>
    • <레벨1>
      • <레벨2>
        • <메타정보>
          • <제목정보>
            • <제목> → [엑셀: '도' 컬럼]
              • <페이지>
          • <간행정보>
            • <간행년>
            • <간행처>
        • <레벨3>
          • <메타정보>
            • <제목정보>
              • <제목> → [엑셀: '군현' 컬럼]
          • <레벨4>
            • <메타정보>
              • <제목정보>
                • <제목> → [엑셀: '편목' 컬럼]
                  • <원주>
                    • <주석>
                  • <페이지>
              • <저자정보>
                • <저자>
              • <간행정보>
              • <분류정보>

<TODO>

국사편찬위원회 지리지 XML DB

할일

-(todo) github에 올리고 링크 연동

참조 자료