지리지 XML 정규화 개발: 두 판 사이의 차이

역지사지(歷地思之) - 역사지리정보(HGIS) 위키
둘러보기로 이동 검색으로 이동
새 문서: 섬네일|300픽셀|기술_지리지_XML_비교 == 공개 DB == == 기술 개요 == * 기술 설명 ** 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈 ** 특정 필드 자동 번역 모듈 * 코드 개발자 ** 개발자 : 김현종, 최경현 * 참조 자료 * 자료 공개 ** 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음. *...
 
잔글 Histgeo님이 기술 지리지 XML 문서를 지리지 XML 정규화 개발 문서로 이동했습니다
 
(사용자 2명의 중간 판 3개는 보이지 않습니다)
1번째 줄: 1번째 줄:
[[파일:기술_지리지_XML.jpg|섬네일|300픽셀|기술_지리지_XML_비교]]
[[파일:기술_지리지_XML.jpg|섬네일|300픽셀|기술_지리지_XML_비교]]
== 공개 DB ==


== 기술 개요 ==
== 기술 개요 ==
9번째 줄: 7번째 줄:
* 코드 개발자
* 코드 개발자
** 개발자 : 김현종, 최경현
** 개발자 : 김현종, 최경현
* 참조 자료
* 적용 대상
** 고전번역원, 대동지지
** 고전번역원, 신증동국여지승람
** 국사편찬위원회, 여지도서
 
* 자료 공개
* 자료 공개
** 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.  
** 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.  
17번째 줄: 19번째 줄:
** 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).
** 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).


== 코드 사용법 ==
== 코드 아키텍쳐 ==
# 입력
#* 기관별 공개된 XML 파일
# 파싱
#* XML 계층(Level) 분석 및 메타데이터 추출
#* hanja 라이브러리를 이용한 1차 음차 변환
#* 데이터 정제(태그 제거, 표제어/설명 분리)
# 번역
#* Google Gemini API 연동
# 출력
#* 엑셀(XLSX) 데이터베이스
 
 
 
== 공개 DB ==
=== 고전번역원 지리지 XML DB ===
* '''XML 구조 - 팔도지 기준'''
* <아이템>
** <레벨1>
*** <레벨2>
**** <메타정보>
***** <제목정보>
****** <제목> → [엑셀: '도' 컬럼]
******* <페이지>
***** <간행정보>
****** <간행년>
****** <간행처>
**** <레벨3>
***** <메타정보>
****** <제목정보>
******* <제목> → [엑셀: '군현' 컬럼]
***** <레벨4>
****** <메타정보>
******* <제목정보>
******** <제목> → [엑셀: '편목' 컬럼]
********* <원주>
********** <주석>
********* <페이지>
******* <저자정보>
******** <저자>
******* <간행정보>
******* <분류정보>
 
<TODO>
 
=== 국사편찬위원회 지리지 XML DB ===


== 코드 설명 ==
== 할일 ==
-(todo) github에 올리고 링크 연동


== 참조 자료 ==
== 참조 자료 ==

2026년 3월 4일 (수) 12:08 기준 최신판

파일:기술 지리지 XML.jpg
기술_지리지_XML_비교

기술 개요

  • 기술 설명
    • 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
    • 특정 필드 자동 번역 모듈
  • 코드 개발자
    • 개발자 : 김현종, 최경현
  • 적용 대상
    • 고전번역원, 대동지지
    • 고전번역원, 신증동국여지승람
    • 국사편찬위원회, 여지도서
  • 자료 공개
    • 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
    • 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
    • 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
    • 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
    • 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).

코드 아키텍쳐

  1. 입력
    • 기관별 공개된 XML 파일
  2. 파싱
    • XML 계층(Level) 분석 및 메타데이터 추출
    • hanja 라이브러리를 이용한 1차 음차 변환
    • 데이터 정제(태그 제거, 표제어/설명 분리)
  3. 번역
    • Google Gemini API 연동
  4. 출력
    • 엑셀(XLSX) 데이터베이스


공개 DB

고전번역원 지리지 XML DB

  • XML 구조 - 팔도지 기준
  • <아이템>
    • <레벨1>
      • <레벨2>
        • <메타정보>
          • <제목정보>
            • <제목> → [엑셀: '도' 컬럼]
              • <페이지>
          • <간행정보>
            • <간행년>
            • <간행처>
        • <레벨3>
          • <메타정보>
            • <제목정보>
              • <제목> → [엑셀: '군현' 컬럼]
          • <레벨4>
            • <메타정보>
              • <제목정보>
                • <제목> → [엑셀: '편목' 컬럼]
                  • <원주>
                    • <주석>
                  • <페이지>
              • <저자정보>
                • <저자>
              • <간행정보>
              • <분류정보>

<TODO>

국사편찬위원회 지리지 XML DB

할일

-(todo) github에 올리고 링크 연동

참조 자료