지리지 XML 정규화 개발: 두 판 사이의 차이
둘러보기로 이동
검색으로 이동
잔글 Histgeo님이 기술 지리지 XML 문서를 지리지 XML 정규화 개발 문서로 이동했습니다 |
|||
| (같은 사용자의 중간 판 3개는 보이지 않습니다) | |||
| 34번째 줄: | 34번째 줄: | ||
== 공개 DB == | == 공개 DB == | ||
=== 고전번역원 지리지 XML | === 고전번역원 지리지 XML 구조 === | ||
'''대동지지 팔도지 기준''' | |||
* <아이템> | * <아이템> | ||
** <레벨1> | ** <레벨1> | ||
| 41번째 줄: | 41번째 줄: | ||
**** <메타정보> | **** <메타정보> | ||
***** <제목정보> | ***** <제목정보> | ||
****** <제목> → [엑셀: ' | ****** <제목> → [엑셀: '문헌' 컬럼] | ||
******* <페이지> | ******* <페이지> | ||
***** <간행정보> | ***** <간행정보> | ||
| 49번째 줄: | 49번째 줄: | ||
***** <메타정보> | ***** <메타정보> | ||
****** <제목정보> | ****** <제목정보> | ||
******* <제목> → [엑셀: ' | ******* <제목> → [엑셀: '도' 컬럼] | ||
***** <레벨4> | ***** <레벨4> | ||
****** <메타정보> | ****** <메타정보> | ||
******* <제목정보> | ******* <제목정보> | ||
******** <제목> → [엑셀: ' | ******** <제목> → [엑셀: '군현' 컬럼] | ||
********* <페이지> | ********* <페이지> | ||
******* <저자정보> | ******* <저자정보> | ||
******** <저자> | ******** <저자> | ||
********* <한글성명> | |||
********* <한자성명> | |||
******* <간행정보> | ******* <간행정보> | ||
******** <집수번호> | |||
******* <분류정보> | ******* <분류정보> | ||
******** <분류항목> | |||
********* <분류내용> | |||
****** <본문정보> | |||
******* <내용> | |||
******** <단락제목> → [엑셀: '편목' 컬럼] | |||
******** <단락> → [엑셀: '표제어' 컬럼, 편목 2단계 indent로 처리] | |||
********* <원주> → [엑셀: '설명' 컬럼] | |||
********* <주석> → [하단 주석 정보와 연결] | |||
********* <페이지> | |||
********* <문자효과> | |||
****** <주석정보> | |||
******* <주석항목> → [주석 딕셔너리 생성] | |||
******** <주석명> → [엑셀: '주석' 컬럼의 주석명] | |||
******** <주석내용> → [엑셀: '주석' 컬럼의 주석내용] | |||
****** <연계정보> | |||
******* <연계항목> | |||
=== 국사편찬위원회 지리지 XML 구조 === | |||
=== 국사편찬위원회 지리지 XML | |||
== 할일 == | == 할일 == | ||
2026년 3월 19일 (목) 15:41 기준 최신판
기술 개요
- 기술 설명
- 고전번역원, 국사편찬위원회에서 작성된 주요 지리지 XML DB 처리 모듈
- 특정 필드 자동 번역 모듈
- 코드 개발자
- 개발자 : 김현종, 최경현
- 적용 대상
- 고전번역원, 대동지지
- 고전번역원, 신증동국여지승람
- 국사편찬위원회, 여지도서
- 자료 공개
- 비영리적 활동(논문, 연구서)에 본 자료 사용시, 인용 문구만 표시하면 사용에 제한 없음.
- 영리적인 목적(프로젝트)으로 사용할 경우에는 관계자(unqtsi@gmail.com)와 상의 후 처리.
- 본 자료 전체를 다른 곳에서 서비스하는 것은 제한함.
- 본 코드에 오류가 발견된 경우, unqtsi@gmail.com에 오류 신고.
- 인용 표기 : 「기술_지리지_XML」, 202X년 X월 기준, 역지사지(https://www.hisgeo.info).
코드 아키텍쳐
- 입력
- 기관별 공개된 XML 파일
- 파싱
- XML 계층(Level) 분석 및 메타데이터 추출
- hanja 라이브러리를 이용한 1차 음차 변환
- 데이터 정제(태그 제거, 표제어/설명 분리)
- 번역
- Google Gemini API 연동
- 출력
- 엑셀(XLSX) 데이터베이스
공개 DB
고전번역원 지리지 XML 구조
대동지지 팔도지 기준
- <아이템>
- <레벨1>
- <레벨2>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '문헌' 컬럼]
- <페이지>
- <제목> → [엑셀: '문헌' 컬럼]
- <간행정보>
- <간행년>
- <간행처>
- <제목정보>
- <레벨3>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '도' 컬럼]
- <제목정보>
- <레벨4>
- <메타정보>
- <제목정보>
- <제목> → [엑셀: '군현' 컬럼]
- <페이지>
- <제목> → [엑셀: '군현' 컬럼]
- <저자정보>
- <저자>
- <한글성명>
- <한자성명>
- <저자>
- <간행정보>
- <집수번호>
- <분류정보>
- <분류항목>
- <분류내용>
- <분류항목>
- <제목정보>
- <본문정보>
- <내용>
- <단락제목> → [엑셀: '편목' 컬럼]
- <단락> → [엑셀: '표제어' 컬럼, 편목 2단계 indent로 처리]
- <원주> → [엑셀: '설명' 컬럼]
- <주석> → [하단 주석 정보와 연결]
- <페이지>
- <문자효과>
- <내용>
- <주석정보>
- <주석항목> → [주석 딕셔너리 생성]
- <주석명> → [엑셀: '주석' 컬럼의 주석명]
- <주석내용> → [엑셀: '주석' 컬럼의 주석내용]
- <주석항목> → [주석 딕셔너리 생성]
- <연계정보>
- <연계항목>
- <메타정보>
- <메타정보>
- <메타정보>
- <레벨2>
- <레벨1>
국사편찬위원회 지리지 XML 구조
할일
-(todo) github에 올리고 링크 연동