SNU Thunder-DeID Framework는 한국어 법원 판결문 내 개인정보 등의 비식별화(De-identification)를 자동화하기 위한 프레임워크입니다. 개체명 인식(Named Entity Recognition, NER) 기술을 기반으로 판결문 내 사건 관계인을 식별할 수 있는 정보를 탐지하고, 이를 알파벳으로 치환하여 비식별화합니다.
SNU Thunder-DeID Framework 는 자체 개발한 트랜스포머 인코더(transformer encoder) 기반 언어 모델을 활용해 한국어 법원 판결문 비식별화를
수행합니다.
모델은 340M, 750M, 1.5B의 세 가지 크기를 활용합니다.
각 모델은 한국어 및 영어로 구성된 대규모 데이터셋(한국어 22B 토큰, 영어 38B 토큰)으로 사전학습(pretraining)되었고,
SNU Thunder-DeID 데이터셋을 활용해 생성한 학습용 데이터로 미세조정(Fine-tuning)되었습니다.
한국어 개체 경계 분리에 특화된 토크나이저
모델에 사용된 토크나이저는 형태소 분석기 MeCab-ko와 BPE(Byte Pair Encoding)를 결합해 구성되었습니다.
이 토크나이저는 명사와 조사를 우선적으로 분리한 뒤 토큰화를 진행하도록 특별히 설계되어
교착어적 특성을 지닌 한국어에서도 개체의 경계를 정밀하게 분리할 수 있습니다.
예를 들어 "홍길동이"와 같은 어절에서 "홍길동"만을 정확히 비식별화해야 하는 상황에서,
"홍길동이" 전체가 하나의 토큰으로 묶이면 개체 경계를 올바르게 식별하기 어렵습니다.
그러나 본 토크나이저는 명사(홍길동)와 조사(이)를 분리함으로써 정확한 개체 단위의 탐지와 대체가 가능하도록 설계되어 있습니다.
비식별화 성능
SNU Thunder-DeID 모델의 성능 평가는 두 가지 기준으로 수행되었습니다.
첫째, 입력 문장의 모든 토큰에 대해 비식별화 대상 여부를 판별하는 기준으로 평가되었으며,
이때 산출된 F1 점수는 비식별화 대상 토큰 탐지 성능을 나타냅니다 (비식별화 대상 토큰 탐지 F1-score).
둘째, 탐지된 토큰이 어떤 유형(예: 이름, 주소 등)에 속하는지를 분류하는 기준으로 평가되었고,
이에 따른 F1 점수는 비식별화 대상 토큰의 유형 분류에 관한 성능을 나타냅니다 (비식별화 대상 토큰 유형 분류 F1-score).
검증 데이터셋을 이용한 평가 결과, 비식별화 대상 토큰 탐지에서는 약 0.99의 F1 점수를,
비식별화 대상 토큰 유형 분류에서는 약 0.89의 F1 점수를 기록하였습니다.
2019년 기준 15%의 정확도* 와 2025년 기준 8%의 처리율**을 기록한 대법원 법원행정처의 '지능형 비식별 시스템'과 비교할 때,
SNU Thunder-DeID는 비식별화 대상 탐지 성능에서 현저히 우수한 결과를 보였습니다.
* 2019년에 공개된 금태섭 국회의원의 『판결문 공개 확대를 위한 국회토론회』자료에 근거(39쪽).
** 2025년에 공개된 법원행정처의 『재판업무 지원을 위한 AI 모델 개발 ISP』자료에 근거(26쪽).
| 모델 크기 | 비식별화 대상 토큰 탐지 F1-score |
비식별화 대상 토큰 유형
분류 F1-score |
|---|---|---|
| 340M | 0.9894 | 0.8917 |
| 750M | 0.9891 | 0.8862 |
| 1.5B | 0.9910 | 0.8974 |
| Model sizes | Detection of tokens
subject to de-identification F1-score |
Classification of token
types subject to de-identification F1-score |
|---|---|---|
| 340M | 0.9894 | 0.8917 |
| 750M | 0.9891 | 0.8862 |
| 1.5B | 0.9910 | 0.8974 |
SNU Thunder-DeID의 추론 코드는 Hugging Face 저장된 ThunderDeID 모델을 불러온 뒤, 사용자가 입력한 텍스트 또는 파일에 대해 비식별화를 수행합니다. 결과는 터미널에 출력하거나 텍스트 파일로 저장할 수 있습니다.
피고인 이규성은 서울대학교 데이터사이언스대학원 박사과정에 재학 중이며, 같은 연구실 소속 함성은, 박현지와 함께 AI 모델 비식별화와 관련된 연구를 진행 중이다. 그는 해당 기술이 이미 여러 공공기관 및 대기업으로부터 상용화 제안을 받고 있다고 허위로 주장하며, 커뮤니티 사이트 ‘에브리타임’에 “비식별화 기술 투자자 모집”이라는 제목의 글을 게시하였다. 해당 글에는 “이미 검증된 알고리즘, 선점 투자 시 지분 우선 배정”, “특허 수익 배분 예정” 등의 문구와 함께 자신 명의의 우리은행 계좌 (9429-424-343942)를 기재하고, 1인당 10만 원의 초기 투자금을 요구하였다. 이에 따라 이규성은 손영준, 조경제, 이동영, 소연경, 석지헌 등 5명으로부터 총 50만 원을 송금받아 편취하였다.
피고인 A은 B대학원 박사과정에 재학 중이며, 같은 연구실 소속 C, D와 함께 AI 모델 비식별화와 관련된 연구를 진행 중이다. 그는 해당 기술이 이미 여러 공공기관 및 대기업으로부터 상용화 제안을 받고 있다고 허위로 주장하며, 커뮤니티 사이트 ‘E’에 “비식별화 기술 투자자 모집”이라는 제목의 글을 게시하였다. 해당 글에는 “이미 검증된 알고리즘, 선점 투자 시 지분 우선 배정”, “특허 수익 배분 예정” 등의 문구와 함께 자신 명의의 F 계좌 (G)를 기재하고, 1인당 10만 원의 초기 투자금을 요구하였다. 이에 따라 A은 I, J, K, L, M 등 5명으로부터 총 50만 원을 송금받아 편취하였다.
The defendant, Gyuseong Lee, is a Ph.D. student at the Seoul National University Graduate School of Data Science, conducting research on AI-based de-identification models together with Sungeun Hahm and Hyunji Park, who belong to the same lab. He falsely claimed that the technology had already received commercialization offers from several public institutions and major companies, and posted a message titled “Recruiting Investors for De-identification Technology” on the online community site Everytime. The post included statements such as “Algorithm already verified, priority equity allocation for early investors,” and “Patent profit sharing planned,” along with his personal Woori Bank account number (9429-424-343942), requesting an initial investment of 100,000 KRW per person. As a result, Gyuseong Lee fraudulently received a total of 500,000 KRW from five individuals: Youngjun Son, Gyungje Cho, Dongyoung Lee, Yeongyeong So, and Jiheon Seok.
The defendant, A, is a Ph.D. student at the B, conducting research on AI-based de-identification models together with C and D, who belong to the same lab. He falsely claimed that the technology had already received commercialization offers from several public institutions and major companies, and posted a message titled “Recruiting Investors for De-identification Technology” on the online community site E. The post included statements such as “Algorithm already verified, priority equity allocation for early investors,” and “Patent profit sharing planned,” along with his personal F account number (G), requesting an initial investment of 100,000 KRW per person. As a result, A fraudulently received a total of 500,000 KRW from five individuals: I, J, K, L, and M.
본 연구는 과학기술정보통신부 선도연구센터사업(ERC)의 지원을 받아 수행된 연구입니다 (과제번호: RS-2023-00222663, 초거대 AI 모델 및 플랫폼 최적화 센터). 또한, GPU 장비는 과학기술정보통신부·광주광역시가 공동 지원한 '인공지능 중심 산업융합 집적단지 조성사업'의 지원을 받았습니다.
This work was supported by the National Research Foundation of Korea (NRF) under Grant No. RS-2023-00222663 (Center for Optimizing Hyperscale AI Models and Platforms, ERC). This research was also supported by Artificial intelligence industrial convergence cluster development project funded by the Ministry of Science and ICT(MSIT, Korea)&Gwangju Metropolitan City.
함성은+, 김희진+, 이규성+, 박현지+,
이재진*+
* 서울대학교 컴퓨터공학부
+ 서울대학교 데이터사이언스대학원
Sungeun Hahm+, Heejin Kim+, Gyuseong Lee+, Hyunji Park+
Jaejin Lee*+
*Department of Computer Science and Engineering, Seoul National
University
+Graduate School of Data Science, Seoul National University