지리지 XML 정규화 개발: 두 판 사이의 차이

역지사지(歷地思之) - 역사지리정보(HGIS) 위키
둘러보기로 이동 검색으로 이동
잔글 Histgeo님이 기술 지리지 XML 문서를 지리지 XML 정규화 개발 문서로 이동했습니다
Choik (토론 | 기여)
 
(같은 사용자의 중간 판 3개는 보이지 않습니다)
34번째 줄: 34번째 줄:


== 공개 DB ==
== 공개 DB ==
=== 고전번역원 지리지 XML DB ===
=== 고전번역원 지리지 XML 구조 ===
* '''XML 구조 - 팔도지 기준'''
'''대동지지 팔도지 기준'''
* <아이템>
* <아이템>
** <레벨1>
** <레벨1>
41번째 줄: 41번째 줄:
**** <메타정보>
**** <메타정보>
***** <제목정보>
***** <제목정보>
****** <제목> → [엑셀: '' 컬럼]
****** <제목> → [엑셀: '문헌' 컬럼]
******* <페이지>
******* <페이지>
***** <간행정보>
***** <간행정보>
49번째 줄: 49번째 줄:
***** <메타정보>
***** <메타정보>
****** <제목정보>
****** <제목정보>
******* <제목> → [엑셀: '군현' 컬럼]
******* <제목> → [엑셀: '' 컬럼]
***** <레벨4>
***** <레벨4>
****** <메타정보>
****** <메타정보>
******* <제목정보>
******* <제목정보>
******** <제목> → [엑셀: '편목' 컬럼]
******** <제목> → [엑셀: '군현' 컬럼]
********* <원주>
********** <주석>
********* <페이지>
********* <페이지>
******* <저자정보>
******* <저자정보>
******** <저자>
******** <저자>
********* <한글성명>
********* <한자성명>
******* <간행정보>
******* <간행정보>
******** <집수번호>
******* <분류정보>
******* <분류정보>
******** <분류항목>
********* <분류내용>
****** <본문정보>
******* <내용>
******** <단락제목> → [엑셀: '편목' 컬럼]
******** <단락> → [엑셀: '표제어' 컬럼, 편목 2단계 indent로 처리]
********* <원주> → [엑셀: '설명' 컬럼]
********* <주석> → [하단 주석 정보와 연결]
********* <페이지>
********* <문자효과>
****** <주석정보>
******* <주석항목> → [주석 딕셔너리 생성]
******** <주석명> → [엑셀: '주석' 컬럼의 주석명]
******** <주석내용> → [엑셀: '주석' 컬럼의 주석내용]
****** <연계정보>
******* <연계항목>


<TODO>
=== 국사편찬위원회 지리지 XML 구조 ===
 
=== 국사편찬위원회 지리지 XML DB ===


== 할일 ==
== 할일 ==

2026년 3월 19일 (목) 15:41 기준 최신판

파일:기술 지리지 XML.jpg
기술_지리지_XML_비교

기술 개요

  • 기술 설명
    • 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
    • 특정 필드 자동 번역 모듈
  • 코드 개발자
    • 개발자 : 김현종, 최경현
  • 적용 대상
    • 고전번역원, 대동지지
    • 고전번역원, 신증동국여지승람
    • 국사편찬위원회, 여지도서
  • 자료 공개
    • 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
    • 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
    • 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
    • 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
    • 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).

코드 아키텍쳐

  1. 입력
    • 기관별 공개된 XML 파일
  2. 파싱
    • XML 계층(Level) 분석 및 메타데이터 추출
    • hanja 라이브러리를 이용한 1차 음차 변환
    • 데이터 정제(태그 제거, 표제어/설명 분리)
  3. 번역
    • Google Gemini API 연동
  4. 출력
    • 엑셀(XLSX) 데이터베이스


공개 DB

고전번역원 지리지 XML 구조

대동지지 팔도지 기준

  • <아이템>
    • <레벨1>
      • <레벨2>
        • <메타정보>
          • <제목정보>
            • <제목> → [엑셀: '문헌' 컬럼]
              • <페이지>
          • <간행정보>
            • <간행년>
            • <간행처>
        • <레벨3>
          • <메타정보>
            • <제목정보>
              • <제목> → [엑셀: '도' 컬럼]
          • <레벨4>
            • <메타정보>
              • <제목정보>
                • <제목> → [엑셀: '군현' 컬럼]
                  • <페이지>
              • <저자정보>
                • <저자>
                  • <한글성명>
                  • <한자성명>
              • <간행정보>
                • <집수번호>
              • <분류정보>
                • <분류항목>
                  • <분류내용>
            • <본문정보>
              • <내용>
                • <단락제목> → [엑셀: '편목' 컬럼]
                • <단락> → [엑셀: '표제어' 컬럼, 편목 2단계 indent로 처리]
                  • <원주> → [엑셀: '설명' 컬럼]
                  • <주석> → [하단 주석 정보와 연결]
                  • <페이지>
                  • <문자효과>
            • <주석정보>
              • <주석항목> → [주석 딕셔너리 생성]
                • <주석명> → [엑셀: '주석' 컬럼의 주석명]
                • <주석내용> → [엑셀: '주석' 컬럼의 주석내용]
            • <연계정보>
              • <연계항목>

국사편찬위원회 지리지 XML 구조

할일

-(todo) github에 올리고 링크 연동

참조 자료