Enjoydev.NET v12

한국사 LLM Project

한반도의 역사 기록을 학습한 특화 언어 모델 개발 프로젝트

프로젝트 개요

한반도 역사 연구와 교육에 특화된 LLM(Large Language Model)을 개발하는 프로젝트입니다. 한국과 중국의 역사서, 족보 등 다양한 역사 자료를 학습하여 한국사에 대한 깊이 있는 이해와 맥락 파악이 가능한 AI 모델을 목표로 합니다.

혼자 진행 중이서 언제 끝날지는 미지수, 역시 혼자 진행중이기에 돈들어가는 방식으로는 진행을 못합니다.

주요 특징

한반도 역사서 학습

삼국사기, 삼국유사, 고려사, 조선왕조실록 등 주요 역사서를 기반으로 한 학습 데이터 구축

중국 역사서 통합

사기, 한서, 후한서 등 중국 정사(正史) 중 한반도 관련 기록을 포함한 학습 데이터 확장

족보 데이터 분석

조선시대 주요 성씨의 족보를 디지털화하여 인물 관계망과 역사적 맥락 학습

로컬 개발 환경

대규모 역사 데이터의 효율적인 처리를 위한 로컬 기반 학습 및 추론 환경 구축

기술 스택

LangChain

LLM 개발 프레임워크

PyTorch

딥러닝 프레임워크

Transformers

자연어 처리 라이브러리

FAISS

벡터 데이터베이스

개발 현황

현재 이 프로젝트는 대규모 데이터 처리와 모델 학습을 위해 로컬 환경에서 개발이 진행되고 있습니다. 데이터 전처리, 모델 아키텍처 설계, 그리고 초기 학습 단계에 있으며, 지속적으로 발전시켜 나가고 있습니다.

한반도 역사서 데이터 정형화 중