엔조이데브 v11
로그인회원가입

쥔장 소식

전체글

1

역사서 및 족보를 결합하는 프로젝트 진행 중...

역사서 및 족보를 결합하는 프로젝트 진행 중...

내 생각

·

6/22/2025

·

아래 내용은 시간 순서대로 구분선을 가지고 진행사항 공유를 위해 적는 글입니다. 성씨 앨범 프로젝트를 이어가고 있는 가운데 일부 족보들의 진실 공방을 이어가는 것들이 혼재 되어 있어 혹시 역사서들과 매칭해서 체크해보면 어떨까? 하고 역사서들과 족보들을 LLM으로 학습 시켜서 해보면 어떨까? 하는 생각에 진행하고 있는데... 역사서들은 정부데이터 프로젝트를 통해 XML로 되어 있고 손쉽게 다운로드가 가능했습니다. 족보가 문제인데, 이것은 Family Search라는 몰몬교에서 전세계 뿌리를 연구하는 목적으로 진행되는 프로젝트에서 데이터를 수집이 가능할 것으로 보고 있는데 이것은 모르겠네요. 그래도 그쪽에서 연구한 표준구조(GEDCOM)는 도입할 예정입니다. 예전에 찾아서 들어갔을 때는 족보가 몇 개 없었는데, 이 작업 때문에 다시 찾은 홈페이지에서 족보가 엄청 많아졌더라고요. 아직 부족하기는 한데 그 속도면 엄청 돈 들여서 작업하는 것이 눈에 보입니다. LLM 학습을 위해서는 데이터를 정형화해서 하는 것이 좋다고 해서 DB화를 하고 있는데 어제부터 시작.. 아직도 하고 있네요. 구조는 인물, 인물관계, 인물이벤트 위주로 정리하려고 합니다. 역사서는 이벤트 위주로 정리가 되어 있죠. 현재 작업 중인 역사서: 삼국사기, 삼국유사, 고려사, 고려사절요, 조선왕조실록(+고순종실록), 승정원일기 이렇게 처리하고 있는데 승정원일기가 진짜 방대합니다. 이 중 조선왕조실록만 한글로 번안되어 있고 나머지는 아직도 여전히 한자로 되어 있어서 번역/번안 작업도 해야 될 것 같아요. LLM학습은 가급적 며칠이 걸려도 집 PC로 하려고 하는데 한방에 안되면 클라우드 일시적으로 써야 될지도 모르겠네요. GPU 메모리를 많이 써서 12g메모리로는 텍도 없는 상황이라네요. 8B이하모델로 해야 가능한 상황. 참고로 학습은 맨 땅에 만드는 것이 아니라 기존 모델 위에 학습하는 형태로 진행됩니다. 간간히 진행 상황 공유해보겠습니다. 헉.. 패밀리 서치를 가보았다. 족보가...

  • 쥔장소식
    • - 여행기 (0)
    • - 홈페이지 소식 (0)
    • - 쥔장이력 (0)
    • - 내 생각 (1)

Tag

    ©2002-2025 EnjoyDev. All rights reserved

    엔조이데브엔조이다물