지리지 XML 정규화 개발: 두 판 사이의 차이

역지사지(歷地思之) - 역사지리정보(HGIS) 위키
둘러보기로 이동 검색으로 이동
Choik (토론 | 기여)
편집 요약 없음
편집 요약 없음
66번째 줄: 66번째 줄:
=== 국사편찬위원회 지리지 XML DB ===
=== 국사편찬위원회 지리지 XML DB ===


== 할일 ==
-(todo) github에 올리고 링크 연동


== 참조 자료 ==
== 참조 자료 ==

2026년 2월 19일 (목) 13:50 판

파일:기술 지리지 XML.jpg
기술_지리지_XML_비교

기술 개요

  • 기술 설명
    • 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
    • 특정 필드 자동 번역 모듈
  • 코드 개발자
    • 개발자 : 김현종, 최경현
  • 적용 대상
    • 고전번역원, 대동지지
    • 고전번역원, 신증동국여지승람
    • 국사편찬위원회, 여지도서
  • 자료 공개
    • 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
    • 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
    • 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
    • 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
    • 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).

코드 아키텍쳐

  1. 입력
    • 기관별 공개된 XML 파일
  2. 파싱
    • XML 계층(Level) 분석 및 메타데이터 추출
    • hanja 라이브러리를 이용한 1차 음차 변환
    • 데이터 정제(태그 제거, 표제어/설명 분리)
  3. 번역
    • Google Gemini API 연동
  4. 출력
    • 엑셀(XLSX) 데이터베이스


공개 DB

고전번역원 지리지 XML DB

  • XML 구조 - 팔도지 기준
  • <아이템>
    • <레벨1>
      • <레벨2>
        • <메타정보>
          • <제목정보>
            • <제목> → [엑셀: '도' 컬럼]
              • <페이지>
          • <간행정보>
            • <간행년>
            • <간행처>
        • <레벨3>
          • <메타정보>
            • <제목정보>
              • <제목> → [엑셀: '군현' 컬럼]
          • <레벨4>
            • <메타정보>
              • <제목정보>
                • <제목> → [엑셀: '편목' 컬럼]
                  • <원주>
                    • <주석>
                  • <페이지>
              • <저자정보>
                • <저자>
              • <간행정보>
              • <분류정보>

<TODO>

국사편찬위원회 지리지 XML DB

할일

-(todo) github에 올리고 링크 연동

참조 자료