본 센터에서 개발한 거대 언어 모델 및 관련 소프트웨어들을 소개합니다.
We introduce the large-scale language models and related software developed by the center.
LLaMA 3.1을 기반으로 한 한국어-영어 이중 언어 모델입니다. 자체 개발한 데이터셋 및 학습 기법들을 사용했으며, 낮은 추론 비용으로 강력한 한국어 및 영어 벤치마크 성능을 제공합니다.
A Korean-English bilingual model based on LLaMA 3.1 8B, efficiently trained on in-house datasets and methods, delivering strong Korean and English benchmark performance with low inference costs.
LLM 개발 도구 모음입니다. 크롤링, 전처리, 학습, 평가 등 LLM 개발의 전 과정에 필요한 도구들을 제공합니다.
Tools for crawling, preprocessing, training, and evaluating large language models.
한국어의 특성을 반영해 LLM의 학습 및 추론 비용을 절약하는 토크나이저입니다.
Korean-optimized tokenizer that reflects linguistic features, lowering training inference costs for LLMs.
GPU를 활용해 중복 문서 제거를 가속화하는 프레임워크입니다.
A GPU-accelerated deduplication framework.
한국어로 작성된 법원 판결문의 비식별화를 위한 프레임워크입니다.
Framework for de-identification of Korean court judgments.
PCIe 기반 GPU 클러스터 시스템을 위한 효율적인 집합 통신 라이브러리입니다.
An efficient collective communication library for PCIe-based GPU cluster systems.
LLM 학습의 메모리 병목 개선 및 가속을 위한 GPU-CPU 파이프라인 병렬화 프레임워크입니다.
Hybrid GPU and CPU Pipeline for Training LLMs under Memory Pressure.
Llama-Thunder-LLM의 사후학습(Post-Training)에 사용된 데이터셋입니다.
Datasets used for post-training Llama-Thunder-LLM.
한국어 법원 판결문 비식별화를 위한 데이터셋입니다.
Datasets for de-identification of Korean court judgments.
언어 모델의 다양한 한국어 능력을 평가할 수 있도록 구성된 벤치마크 집합입니다. 연구진이 직접 구축한 벤치마크들과, 직접 선별한 공개 데이터셋으로 구성되어 있습니다.
A benchmark suite designed to evaluate various Korean capabilities of language models. It includes both newely constructed datasets and curated public benchmarks.
언어 모델의 다양한 영어 능력을 평가할 수 있도록 구성된 벤치마크 집합입니다. 연구진이 직접 구축한 벤치마크들과, 직접 선별한 공개 데이터셋으로 구성되어 있습니다.
A benchmark suite designed to evaluate various English capabilities of language models. It includes both newely constructed datasets and curated public benchmarks.
언더-디스플레이 카메라 이미지의 딥러닝 복원모델 학습을 위한 실제 데이터셋입니다.
A real-world image dataset for training deep learning restoration models on under-display camera images.
언더-디스플레이 카메라 비디오의 딥러닝 복원모델 학습 및 안면인식 연구를 위한 실제 데이터셋입니다.
A real-world video dataset for training deep learning restoration models and face recognition research on under-display camera videos.