본 센터에서 개발한 거대 언어 모델 및 관련 소프트웨어들을 소개합니다.

We introduce the large-scale language models and related software developed by the center.

Models

Models

Llama-Thunder-LLM

LLaMA 3.1을 기반으로 한 한국어-영어 이중 언어 모델입니다. 자체 개발한 데이터셋 및 학습 기법들을 사용했으며, 낮은 추론 비용으로 강력한 한국어 및 영어 벤치마크 성능을 제공합니다.

A Korean-English bilingual model based on LLaMA 3.1 8B, efficiently trained on in-house datasets and methods, delivering strong Korean and English benchmark performance with low inference costs.

Software

Software

Thunder-LLM Training Toolkit

LLM 개발 도구 모음입니다. 크롤링, 전처리, 학습, 평가 등 LLM 개발의 전 과정에 필요한 도구들을 제공합니다.

Tools for crawling, preprocessing, training, and evaluating large language models.

SNU Thunder-Tok

한국어의 특성을 반영해 LLM의 학습 및 추론 비용을 절약하는 토크나이저입니다.

Korean-optimized tokenizer that reflects linguistic features, lowering training inference costs for LLMs.

FED: Fast and Efficient Dataset Deduplication

GPU를 활용해 중복 문서 제거를 가속화하는 프레임워크입니다.

A GPU-accelerated deduplication framework.

SNU Thunder-DeID Framework

한국어로 작성된 법원 판결문의 비식별화를 위한 프레임워크입니다.

Framework for de-identification of Korean court judgments.

TCCL

PCIe 기반 GPU 클러스터 시스템을 위한 효율적인 집합 통신 라이브러리입니다.

An efficient collective communication library for PCIe-based GPU cluster systems.

SPipe

LLM 학습의 메모리 병목 개선 및 가속을 위한 GPU-CPU 파이프라인 병렬화 프레임워크입니다.

Hybrid GPU and CPU Pipeline for Training LLMs under Memory Pressure.

Datasets

Datasets

Llama-Thunder-LLM 사후학습 데이터셋
Llama-Thunder-LLM Post-Training Datasets

Llama-Thunder-LLM의 사후학습(Post-Training)에 사용된 데이터셋입니다.

Datasets used for post-training Llama-Thunder-LLM.

SNU Thunder-DeID Dataset
SNU Thunder-DeID 데이터셋

한국어 법원 판결문 비식별화를 위한 데이터셋입니다.

Datasets for de-identification of Korean court judgments.

SNU Thunder-LLM 한국어 벤치마크
SNU Thunder-LLM Korean Benchmark Suite

언어 모델의 다양한 한국어 능력을 평가할 수 있도록 구성된 벤치마크 집합입니다. 연구진이 직접 구축한 벤치마크들과, 직접 선별한 공개 데이터셋으로 구성되어 있습니다.

A benchmark suite designed to evaluate various Korean capabilities of language models. It includes both newely constructed datasets and curated public benchmarks.

SNU Thunder-LLM 영어 벤치마크
SNU Thunder-LLM English Benchmark Suite

언어 모델의 다양한 영어 능력을 평가할 수 있도록 구성된 벤치마크 집합입니다. 연구진이 직접 구축한 벤치마크들과, 직접 선별한 공개 데이터셋으로 구성되어 있습니다.

A benchmark suite designed to evaluate various English capabilities of language models. It includes both newely constructed datasets and curated public benchmarks.

UDC-SIT
UDC-SIT

언더-디스플레이 카메라 이미지의 딥러닝 복원모델 학습을 위한 실제 데이터셋입니다.

A real-world image dataset for training deep learning restoration models on under-display camera images.

UDC-VIT
UDC-VIT

언더-디스플레이 카메라 비디오의 딥러닝 복원모델 학습 및 안면인식 연구를 위한 실제 데이터셋입니다.

A real-world video dataset for training deep learning restoration models and face recognition research on under-display camera videos.