아래 내용은 시간 순서대로 구분선을 가지고 진행사항 공유를 위해 적는 글입니다.

성씨 앨범 프로젝트를 이어가고 있는 가운데 일부 족보들의 진실 공방을 이어가는 것들이 혼재 되어 있어 혹시 역사서들과 매칭해서 체크해보면 어떨까? 하고 역사서들과 족보들을 LLM으로 학습 시켜서 해보면 어떨까? 하는 생각에 진행하고 있는데...
역사서들은 정부데이터 프로젝트를 통해 XML로 되어 있고 손쉽게 다운로드가 가능했습니다.
족보가 문제인데, 이것은 Family Search라는 몰몬교에서 전세계 뿌리를 연구하는 목적으로 진행되는 프로젝트에서 데이터를 수집이 가능할 것으로 보고 있는데 이것은 모르겠네요. 그래도 그쪽에서 연구한 표준구조(GEDCOM)는 도입할 예정입니다. 예전에 찾아서 들어갔을 때는 족보가 몇 개 없었는데, 이 작업 때문에 다시 찾은 홈페이지에서 족보가 엄청 많아졌더라고요. 아직 부족하기는 한데 그 속도면 엄청 돈 들여서 작업하는 것이 눈에 보입니다.
LLM 학습을 위해서는 데이터를 정형화해서 하는 것이 좋다고 해서 DB화를 하고 있는데 어제부터 시작.. 아직도 하고 있네요.
구조는 인물, 인물관계, 인물이벤트 위주로 정리하려고 합니다.
역사서는 이벤트 위주로 정리가 되어 있죠.
현재 작업 중인 역사서: 삼국사기, 삼국유사, 고려사, 고려사절요, 조선왕조실록(+고순종실록), 승정원일기
이렇게 처리하고 있는데 승정원일기가 진짜 방대합니다. 이 중 조선왕조실록만 한글로 번안되어 있고 나머지는 아직도 여전히 한자로 되어 있어서 번역/번안 작업도 해야 될 것 같아요.
LLM학습은 가급적 며칠이 걸려도 집 PC로 하려고 하는데 한방에 안되면 클라우드 일시적으로 써야 될지도 모르겠네요. GPU 메모리를 많이 써서 12g메모리로는 텍도 없는 상황이라네요. 8B이하모델로 해야 가능한 상황.
참고로 학습은 맨 땅에 만드는 것이 아니라 기존 모델 위에 학습하는 형태로 진행됩니다. 간간히 진행 상황 공유해보겠습니다.

헉.. 패밀리 서치를 가보았다. 족보가 이미지 스캔 만 해 놓은 것 같다. 아직 인덱싱 전 상태. 이미지 스캔 본은 한장 씩 다운로드가 가능하다. 이런 썩을..
본인 평산신씨 제정공파만 해도 539매..(평산신씨 19개 파 중 전체 25%) 나를 찾기도 힘드네. 제정공파 파조는 신효창으로 고려 공민왕~세종때까지의 인물로 손녀딸이 왕자와 결혼하면서 시호를 제정으로 받아 파조가 형성됨.

승정원 일기 거의 파싱 처리한지 12시간만에 종료.
XML파일 297개. 용량만 2.4기가
SQLite로 디비화 했는데 6.5기가 (인덱싱 및 정규화 때문에 늘어남)
전체 유니크 인물: 35만명 (원래 그냥했는데 너무 오래 걸려서(12기가) 중도 중지하고 인물 중복처리 로직을 추가하여 진행)
총 인물 언급 수: 3340만회
TOP인물들
  1. 미결: 이건 뭘까? 34만회
  2. 김재로(金在魯): 127,344회
  3. 홍봉한(洪鳳漢): 114,428회 (영조~정조 시대 권신)
  4. 송인명(宋寅明): 92,016회
    지명 언급은 5만건
    --
    cf) 조선왕조실록 : 796메가
  • 조선왕조실록은 별도로 인물/관직/지명에 대해서 csv로 별도정리된 문건도 있는데 이것을 참조용으로 DB화 : 91메가
    cf) 고려사/고려사절요/삼국사기/삼국유사: 335메가
    이제 이를 한데 묶어서 중복된 인물을 고려해서 정리를 AI와 함께 해보려 합니다.
    족보는 우선 제정공파 539장 수동으로 내려받아서 OCR 및 데이터화(GEDCOM)해서 다시 DB로 구조화해서 매핑작업까지 하면 얼추 목표한 게 이뤄질까요?
실제 로그
🎉 승정원일기 처리 완료!
📚 문서: 297개
📁 레벨: 2,004,927개
📄 내용: 7,635,146개
👥 전체 유니크 인물: 357,102명
🏞️ 전체 유니크 지명: 52,030개
🏛️ 전체 유니크 관직: 0개
📊 총 인물 언급: 33,409,530회
📝 주석: 0개
📅 날짜: 312,833개
👑 언급 횟수 TOP 10 인물:
  1. 미결: 345,463회
  2. 金在魯: 127,344회
  3. 洪鳳漢: 114,428회
  4. 宋寅明: 92,016회
  5. 金尙魯: 84,308회
  6. 洪國榮: 83,644회
  7. 趙顯命: 73,664회
  8. 金致仁: 70,120회
  9. 李光佐: 62,356회
  10. 蔡濟恭: 62,216회

데이터를 기반으로 쉽게 열람 및 편집할 수 있는 사이트를 만들었다.
DB 데이터량이 상당하기에 우선 집 PC에 디비를 설치한터라 나혼자만 열람이 가능하다.
image.png

image.png


image.png

image.png

image.png

image.png

역사적 사건은 엉망인 관계로 모두 삭제하고 하나하나 추가하고 있다. 먼저 역사 사료가 한자로 되어 있어서 이 부분을 한글로 번역/번안도 덤이다.
삼국유사/사기는 이미 한글로 많이 나와 있는데 원문을 그대로 한글로 되어 있는 책들은 전무한 관계로 이 작업을 먼저 해보자.
위에도 말했지만 정부에서 제공한 문서가 조선왕조실록만 한글로 되어 있었다. 그래서 조선왕조 관련 미디어만 넘쳐나는게 아닐까?
image.png

image.png

우선 6질이다. 각 질마다 여러권으로 되어 있다.
image.png

image.png

정정한다. 제목만 한글이네. 내용은 한문이었다. ㅋㅋㅋ
image.png

image.png

이건 고려사 2번째 섹션을 가져와 봤다. 이런 식으로 작업 중이다. 원문은 그대로 두고 밑에 해설서를 두는 방식으로 작업 하고 있다.
물론 난 한문을 못하기 때문에 전적으로 ChatGPT를 활용 중이다. 옛날에는 거짓말을 많이 하는데 원문을 주니 나름 중국역사와 한국역사 정보를 가져와 원문내용을 대비해서 제대로 설명을 해주고는 있다. 하지만 다시 인터넷 검색해서 비교해가면서 정리 중이다.
고려사 자체는 조선 초 정인지가 작성한 건데, 조선건국의 정당성을 위해 작성된 책이다.
고려세계 섹션 자체도 구전 설화를 바탕으로 왕건이 왜 고려를 건국했는지에 대한 정당성을 높이기 위한 내용이었다.

  1. 역사서는 AI에 맡겼더니 데이터가 엉망이라서 다시 한땀한땀 하기로 했다. 역사서를 그것도 한문 원본으로 Chatgpt와 씨름하며 또는 인터넷에 이미 나와있는 정보와 비교하면서 정리하는 재미가 있다. 다 할 수 있을런지는 미지수지만.. 하다보면 일정한 규칙을 찾지 않을까하는 생각에 시간 날 때마다 해볼 생각이다.
  2. 족보.. 우선 Family Search에 가입해서 우선 내 본관인 평산신씨 제정공파의 539페이지를 모두 다운 받았다. 3시간 걸린 것 같다. 처음에는 셀레니엄(브라우저 매크로 기법)을 이용해 자동으로 다운 받으려고 했는데 사이트에 막혀서(봇) 그냥 수동으로 받았다.
    P.S) 이런 사이트도 매크로 막는데 대한민국 티켓 사이트들 어떻게 안되나?
  3. 첨부된 이미지는 이미지 전처리 후, OCR 그리고 한자를 한글로 변경하여 GEDCOM 체계로 정보를 담는 작업을 진행 중이다. 539장이니까 약 한시간 걸릴 것 같다. 시행착오를 거쳐 몇번 더 할 수도 있겠다.