์ด์ค์
(Junwon Lee)
*iD
Copyright ยฉ The Korean Institute of Electrical Engineers
Key Words
AI, anomaly detection, abnormal behavior, ssh, rdp, GAN, LLM, synthetic dataset
1. ์ ๋ก
๋คํธ์ํฌ ํธ๋ํฝ์ ์ํธํ ํ์คํ๋ ํต์ ๊ธฐ๋ฐ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์์ผฐ์ผ๋, ์ญ์ค์ ์ผ๋ก ๋ณด์ ๊ด์ ์ธก๋ฉด์์ ์นจํด ๋ฐ ์ ๋ณด์ ์ถ ํ์ง๋ฅผ ์ ํดํ๋ ์์๋ก ์์ฉํ๋ค.
๊ณต๊ฒฉ์๋ค์ SSH (Secure Shell), RDP (Remote Desktop Protocol)๊ณผ ๊ฐ์ ์๊ฒฉ ์ ์ ํ๋กํ ์ฝ์ ์ฐํ ์ ์ํ๋ ๋ฐฉ์์ผ๋ก
์
์ฑ์ฝ๋ ์ ์
, ๋ด๋ถ ์์คํ
์๊ฒฉ ์ ์, ๋ด๋ถ ๋ฐ์ดํฐ ์ ์ถ ๋ฑ ๊ณ ๋ํ๋ ์ฌ์ด๋ฒ ๊ณต๊ฒฉ์ ์ง์์ ์ผ๋ก ์๋ํ๊ณ ์๋ค. ๋์ฑ์ด ์ ์๋ ค์ง ํ์ค ํฌํธ ๋ฒํธ๋ฅผ
์์๋ก ๋ณ๊ฒฝํ๋ ์ฐํ ๊ธฐ๋ฒ์ด ์ผ๋ฐํ๋จ์ ๋ฐ๋ผ, ํฌํธ ์ ๋ณด๋ก ํ ๋๋ก ์์ฌ๋๋ ์๋น์ค๋ฅผ ํ์งํ๋ ๊ธฐ์กด์ ์๊ทธ๋์ฒ ๋ฐฉ์์ ๊ทธ ์คํจ์ฑ์ด ํ์ ํ ๊ฐ์ํ๊ณ ์๋ค[1]. Salt Typhoon๊ณผ ๊ฐ์ ๊ณต๊ฒฉ ๊ทธ๋ฃน์ ํ์ง ์์คํ
์ ์ฐํํ๊ธฐ ์ํด ๋นํ์ค TCP 57722ํฌํธ์ ํตํด SSH ์๋น์ค๋ฅผ ํ์ฑํํ์ฌ ์ฅ๊ธฐ์ ์ธ
์ ๊ทผ ๊ถํ์ ์ ์งํ๊ธฐ๋ ํ์์ผ๋ฉฐ[2], Symbiote์ ๊ฐ์ ์
์ฑ์ฝ๋๋ ํน์ ํฌํธ ๋ฆฌ์คํธ๋ฅผ ๋์ ์ผ๋ก ์ํํ๋ ํฌํธ ํธํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ณด์ ๋ชจ๋ํฐ๋ง์ ๋ฌด๋ ฅํํ๊ธฐ๋ ํ๋ค[3].
์ด์ ๋ฐ๋ผ ํ๊ณ์ ์ฐ์
๊ณ๋ ํต๊ณ์ ํน์ฑ๊ณผ ํ์์ ํจํด์ ํ์ตํ๋ AI ๊ธฐ๋ฐ ์ด์ ํ์ง ๊ธฐ์ ๋ก ์ ํ๋ ์ด์ํ์ ํ์ง๋ฅผ ์ง์์ ์ผ๋ก ๊ทน๋ณตํด ๋๊ฐ๊ณ ์๋ค.
ํ์ง๋ง AI ๊ธฐ๋ฐ ํ์ง ์ญ์ ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ ํ๋ณด๊ฐ ์ ํ๋จ์ ๋ฐ๋ผ ํ์ง์ ์ ํ๋๋ฅผ ๊ฐ์ ํ๋๋ฐ ๋ง์ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค[4, 5]. ์ต๊ทผ์๋ ์ด๋ฌํ ์ ์ฝ ์ฌํญ๋ค์ AI ์์ฑ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ๊ณต๋ฐฑ์ ๊ฐ์ ํ๋ ์ฐ๊ตฌ๊ฐ ์ง์์ ์ผ๋ก ์งํ ์ค์ด๋ค.
๋ณธ ๋
ผ๋ฌธ์ ์ด์ ํธ๋ํฝ ํ์ง ๋ชจ๋ธ์ ๋ฌธ์ ์ ๊ณผ ๊ธฐ์ ๋ฐ์ ์ถ์ด, ๊ด๋ จ ์ฐ๊ตฌ, ์๋ฃจ์
์ ๊ธฐ์ ํ๋ฉด์ ํ๋ค. ๋๋ถ์ด ๊ธฐ์กด ์ฐ๊ตฌ ์ฑ๊ณผ์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ค๋ช
ํ๋ฉด์
๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ์ฐ๊ตฌ์๋ค์๊ฒ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํ๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๊ธฐ์ฌ๋๋ ๋ค์๊ณผ ๊ฐ๋ค. ๋จผ์ ์ด์ํ์ ํ์ง ๋จ๊ณ์ ๊ธฐ์ ๋ฐ์ ์ถ์ด๋ฅผ ์ธ๋๋ณ๋ก ๊ตฌ๋ถํ์ฌ ๊ด๋ จ๋
์ฐ๊ตฌ๋ฅผ ์ค๋ช
ํ๋ค. ์ด์ด์ AI ๊ธฐ์ ์ ์ด์ฉํ 2์ธ๋, 3์ธ๋ ์ด์ํ์ ํ์ง์ ๊ด๋ จํ์ฌ ๊ธฐ์กด ์ ๊ด ์ฐ๊ตฌ๋ฅผ ์ค๋ช
ํ์ฌ ํฅํ ์ด์ด์ง ์ฐ๊ตฌ์ ๋ํ ์ธ์ฌ์ดํธ๋ฅผ
์ ๊ณตํ๋ฉฐ, ๋ง์ง๋ง์ผ๋ก 4์ธ๋ ์ด์ํ์ ํ์ง ๋ถ๋ถ์์ LLM ๊ธฐ๋ฐ ํธ๋ํฝ ํฉ์ฑ์ ๊ฐ๋
์ ์คํ์ ํตํด ๊ฒ์ฆํจ์ผ๋ก์จ ๊ด๋ จ ์ฐ๊ตฌ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ค.
๋ณธ ๋
ผ๋ฌธ์ 2์ฅ์์ ์ํธํ ํธ๋ํฝ ๋ถ์์ ์ฐ๊ตฌ ๋ํฅ๊ณผ ์์ ๊ธฐ์ ์ ๊ณ ์ฐฐํ๊ณ , ์ฌ์ธต ํจํท ๊ฒ์ฌ(Deep Packet Inspection, DPI) ๊ธฐ๋ฐ
ํ์ง์ ํ๊ณ์์ ์์ํ์ฌ ์ฌ์ธต ํ์ต, ๋น์ง๋ยท์๊ธฐ ์ง๋ ํ์ต, ์์ฑํ AI, LLM ๊ธฐ๋ฐ ์ํ ์์ธก์ผ๋ก ์ด์ด์ง๋ ๊ธฐ์ ํ๋ฆ์ ์ค๋ช
ํ๋ค. 3์ฅ์์๋
์ด์ ํธ๋ํฝ ํ์ง ํ๋ซํผ์ ์ค๊ณ ๊ฐ์์ ๋ฐ์ดํฐ ์์ง, ์ ์ฒ๋ฆฌ, ํ์ง๋ชจ๋ธ ์ค๊ณ์ 3๋จ๊ณ ๋ณ ์์ธ ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํ๋ฉฐ, ๊ฐ ๋จ๊ณ์์ ๊ธฐ์กด ์ค์ฆ ์ฐ๊ตฌ
์ฑ๊ณผ๋ฅผ ํจ๊ป ๊ธฐ์ ํ๋ค. 4์ฅ์ LLM ๊ธฐ๋ฐ ํ๋ จ ๋ฐ์ดํฐ ํฉ์ฑ์ ์ํ ๊ฐ๋
๊ฒ์ฆ ์คํ์ ๋ํด ์ค๋ช
ํ๋ค. 5์ฅ์์๋ 4์ธ๋ LLM ๊ธฐ๋ฐ ๊ธฐ์ ์ ๊ธฐ๋ํจ๊ณผ์
์ ์ฉ ์ ๊ณ ๋ ค์ฌํญ์ ๋
ผ์ํ๊ณ , ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๋ฉฐ ๋
ผ๋ฌธ์ ๋ง๋ฌด๋ฆฌํ๋ค.
2. ๊ด๋ จ ์ฐ๊ตฌ ๋ฐ ์์ ๊ธฐ์
์ํธํ ํธ๋ํฝ ๋ถ์ ์ฐ๊ตฌ๋ ํฌ๊ฒ ์ธ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํด ์๋ค. ํฌํธ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ด๊ธฐ ์ฐ๊ตฌ๋ Well-known Port๋ฅผ ํ์ฉํ์ฌ ํธ๋ํฝ์
๋ถ๋ฅํ์์ผ๋, ์ด๋ ๋์ ํฌํธ ํ ๋น๊ณผ ํฌํธ ์์ฅ ๊ธฐ๋ฒ์ ๋ฑ์ฅ์ผ๋ก ๊ทธ ์คํจ์ฑ์ด ๊ธ๊ฐํ์๋ค. ๋ค์์ผ๋ก DPI ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ ํ์ด๋ก๋ ์ง์ ๊ฒ์ฌ๋ก ๋์ ์ ํ๋๋ฅผ
๋ฌ์ฑํ์์ผ๋, TLS ํต์ ์ด ์ผ๋ฐํ ๋๋ฉด์ ํ์ด๋ก๋ ์ํธํ๋ก ์ธํด ๊ทธ ์ ์ฉ ๋ฒ์๊ฐ ํฌ๊ฒ ์ ํ๋์๋ค.
2.1 DPI์ AI ๊ธฐ๋ฐ ํ์ง ๋ชจ๋ธ ๋น๊ต
์ ํต์ ์ธ ๋คํธ์ํฌ ์นจ์
ํ์ง ์์คํ
(IDS)์ ํจํท ํ์ด๋ก๋๋ฅผ ์ง์ ๊ฒ์ฌํ์ฌ ์๋ ค์ง ๊ณต๊ฒฉ ์๊ทธ๋์ฒ์ ๋น๊ตํ๋ DPI ๋ฐฉ์์ผ๋ก ์ด์ ํธ๋ํฝ์ ํ์งํ์๋ค.ํ์ง๋ง
์ํธํ ํธ๋ํฝ์ด ๋๋ค์๋ฅผ ์ฐจ์งํจ์ ๋ฐ๋ผ ํ์ด๋ก๋์ ์ปจํ
์ธ ๋ฅผ ๋ถ์ํ๋ DPI ๋ฐฉ์์ ํ์ง ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋์๊ณ , Table 1.๊ณผ ๊ฐ์ด ํธ๋ํฝ์ ๋ฉํ ๋ฐ์ดํฐ ๋ฐ ํจํด์ ๋ถ์ํ๋ AI ๊ธฐ๋ฐ ํ์ง ๋ชจ๋ธ์ด ๋์์ผ๋ก ๋๋๋์์ผ๋ฉฐ, ์ค์ง์ ์ผ๋ก๋ ๋์ ํ์ง ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋ค.
ํ 1. DPI์ AI๊ธฐ๋ฐ ํ์ง ๋ชจ๋ธ ๊ฐ ํน์ง ๋น๊ต
Table 1. Comparison of DPI and AI-Based Detection Models
|
๋ถ์ ์งํ
|
DPI ๋ฐฉ์
|
AI ๊ธฐ๋ฐ ํ์ง ๋ชจ๋ธ
|
|
๋ถ์ ๋์
|
ํจํท ํ์ด๋ก๋ ๋ฐ ์๊ทธ๋์ฒ
|
ํธ๋ํฝ ํต๊ณยทํ๋ฆ ๋ฉํ๋ฐ์ดํฐ
|
|
์ํธํ ๋์
|
๋ณตํธํ ์์ด ๋ถ์ ๋ถ๊ฐ
|
๋ณตํธํ ์์ด ํ๋ ํจํด ํ์ง
|
|
ํ์ง ๋ฒ์
|
์๋ ค์ง ๊ณต๊ฒฉ ์์ฃผ
|
๋ฏธ์งยท์ ๋ก๋ฐ์ด ๊ณต๊ฒฉ ํ์ง ๊ฐ๋ฅ
|
|
์ค๋ฒํค๋
|
๋ณตํธํ ์ ๋งค์ฐ ๋์
|
๋ชจ๋ธ ์ถ๋ก , ์๋์ ์ผ๋ก ํจ์จ์
|
|
ํ๋ผ์ด๋ฒ์
|
ํ์ด๋ก๋ ๋
ธ์ถ ์ํ
|
๋ฉํ๋ฐ์ดํฐ ๊ธฐ๋ฐ, ํ๋ผ์ด๋ฒ์ ๋ณดํธ
|
2.2 ํธ๋ํฝ ๋ฉํ๋ฐ์ดํฐ ๋ฐ ํ๋ ํน์ง ์ถ์ถ
AI ํ์ง ๋ชจ๋ธ์ ํธ๋ํฝ์์ ์ํธํ๋์ง ์๋ ์ธํ์ ํน์ง์ ๋ถ์ํ๋ค. ์๋ฅผ ๋ค์ด ํจํท ํฌ๊ธฐ ๋ณ ๋ถํฌ, ํจํท ๊ฐ ๋์ฐฉ ๊ฐ๊ฒฉ, ์ธ์
์ ์ง ์๊ฐ, ํ๋กํ ์ฝ
๋ฉํ๋ฐ์ดํฐ ๋ฑ์ ์ฃผ์ ํผ์ฒ๋ก ํ์ฉํ ์ ์๋ค.
์ ๋ณด ์ด๋ก ์ ๊ด์ ์ ์ํธ๋กํผ ๋ถ์๊ณผ ์ฃผ๊ธฐ์ฑ ํ์ง, ๊ณ์ธต์ ๊ตฌ์กฐ ๋ถ์์ ํตํด ์ ์ ํธ๋ํฝ๊ณผ ์
์์ ํด์ปค ์๋ฒ ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ฐํ๋ผ ์ ์๋ค[6]. ํนํ ์ต๊ทผ ์ฐ๊ตฌ ์ค ์ธ์
์ ์ด๊ธฐ 784๋ฐ์ดํธ๋ฅผ 2์ฐจ์ ๊ทธ๋ ์ด์ค์ผ์ผ ์ด๋ฏธ์ง๋ก ๋ณํํ์ฌ CNN์ ์
๋ ฅํ๋ ์๊ฐํ ๊ธฐ๋ฒ์ ์ฑํํ ์ฐ๊ตฌ๋ ์ฐพ์๋ณผ ์ ์๋ค[7]. ์ด ๋ฐฉ์์ ์ํธํ๋ ํ๋กํ ์ฝ ๋ด ๊ตฌ์กฐ์ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํ๋ฉฐ, VPN๊ณผ non-VPN ํธ๋ํฝ ๊ตฌ๋ถ์์ 99% ์ด์์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ค๋ค[8].
ํธ๋ํฝ ๋ฉํ๋ฐ์ดํฐ๋ ํฌ๊ฒ ํจํท ์์ค, ํ๋ก์ฐ ์์ค, ์ธ์
์์ค์ ์ธ ๊ณ์ธต์ผ๋ก ๊ตฌ๋ถ๋๋ค[9]. ํจํท ์์ค์์๋ ๊ฐ๋ณ ํจํท์ ํฌ๊ธฐ, ํจํท ๊ฐ ๋์ฐฉ ์๊ฐ(Inter-Packet Arrival Time, IPA), ์ ์ก ๋ฐฉํฅ ๋ฑ์ ํผ์ฒ๋ฅผ ์ถ์ถํ
์ ์๋ค[10]. ํ๋ก์ฐ ์์ค์์๋ ์ถ๋ฐ์งIP, ๋ชฉ์ ์งIP, ํฌํธ, ํ๋กํ ์ฝ ๋ณ๋ก ์ง๊ณ๋ ํจํท๋ค์ ํต๊ณ ๊ฐ์ธ ๋ฐ์ดํธ ์ ์ก๋ฅ , ํจํท ์ ์ก๋ฅ , ํต์ ์ ์ง์ ์๊ฐ ๋ฑ์
ํ์ฉํ๋ค[11]. ์ธ์
์์ค์์๋ ์ธ๋ฐ์ด๋ยท์์๋ฐ์ด๋ ํ๋ก์ฐ๋ฅผ ์๋ฐฉํฅ์ผ๋ก ๊ฒฐํฉํ์ฌ ์ก์์ ๋ฐ์ดํธ ๋น์จ, ์๋ต ์๊ฐ ๋ถํฌ ๋ฑ ์์ฉ ๊ณ์ธต์ ํ๋ ํน์ฑ์ ๋ฐ์ํ๋ ํผ์ฒ๋ฅผ
์ถ๊ฐ๋ก ๋์ถํ ์ ์๋ค.
์ด๋ฌํ ๋ฉํ๋ฐ์ดํฐ ํผ์ฒ ์ค์์๋ ํนํ ํฌํธ์ ๋ฌด๊ดํ ํผ์ฒ์ ์ค์์ฑ์ด ๋ถ๊ฐ๋๋ค. ๊ธฐ์กด์ ํฌํธ ๋ฒํธ ๊ธฐ๋ฐ ํ์ง๋ ๋นํ์ค ํฌํธ๋ฅผ ์ฌ์ฉํ๋ ์ฐํ ๊ณต๊ฒฉ์ ์ทจ์ฝํ๋ฏ๋ก,
ํฌํธ ๋ฒํธ๋ฅผ ๋ฐฐ์ ํ๊ณ ํต์ ์ ํ๋ ํจํด๋ง์ผ๋ก ํ๋กํ ์ฝ์ ์๋ณํ๋ ์ ๊ทผ์ด ์๊ตฌ๋๋ค. ํจํท ๋์ฐฉ ๊ฐ๊ฒฉ์ ํ๊ท ๋ฐ ๋ถ์ฐ, ํจํท ํฌ๊ธฐ ๋ถํฌ, ์ธ์
๋ฐฉํฅ ๋น์จ,
์ํธ๋กํผ ๊ธฐ๋ฐ ๋๋ค์ฑ ์งํ ๋ฑ์ ์ํธํ ์ฌ๋ถ์ ๋ฌด๊ดํ๊ฒ ์ถ์ถ ๊ฐ๋ฅํ๋ฉฐ, ์๋น์ค ์ ํ์ ๋ฐ๋ผ ๊ณ ์ ํ ํต๊ณ์ ํน์ฑ์ ๋ํ๋ด๋ฏ๋ก ํฌํธ ๋
๋ฆฝ์ ๋ถ๋ฅ์ ํต์ฌ
ํผ์ฒ๋ก ํ์ฉ๋๋ค[5, 12]. ํนํ ๋ด๋ท ํธ๋ํฝ์ ์ผ์ ํ ๋น์ฝ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋ฏ๋ก, ํจํท ๋์ฐฉ ๊ฐ๊ฒฉ์ ์ฃผ๊ธฐ์ฑ ๋ถ์์ด ์
์ฑ ํธ๋ํฝ ํ์ง์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉ๋ ์ ์๋ค[6].
ํํธ ํธ๋ํฝ ๋ฉํ๋ฐ์ดํฐ์ ํด์ ๊ฐ๋ฅ์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ์ฐ๊ตฌ๋ ํ๋ฐํ ์งํ๋๊ณ ์๋ค. ๊ฐ ํผ์ฒ๊ฐ ํ์ง ๋ชจ๋ธ์ ์์ธก์ ๋ฏธ์น๋ ๊ธฐ์ฌ๋๋ฅผ ์ ๋ํํ๊ธฐ ์ํด
๊ฒ์ ์ด๋ก ๊ธฐ๋ฐ์ SHAP(SHapley Additive exPlanations) ๋ฐฉ๋ฒ๋ก ์ด ์ ์ฉ๋๋ฉฐ, ์ด๋ฅผ ํตํด ์ด๋ค ํผ์ฒ๊ฐ ํน์ ๊ณต๊ฒฉ ํ์ง์ ํต์ฌ์ ์ธ
์ญํ ์ ํ๋์ง ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ผ๋ก ๋ถ์ํ ์ ์๋ค[13]. ์ด๋ ๋ณด์ ์ ๋ฌธ๊ฐ์ ์ง๊ด์ ์์กดํ๋ ํผ์ฒ ์ ์ ๊ณผ์ ์ ๊ฐ๊ดํํ๊ณ , ํ์ง ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ์ ๊ณ ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ๋ค.
2.3 ์ฌ์ธต ํ์ต ๋ชจ๋ธ ์ ์ฉ
๋คํธ์ํฌ ํธ๋ํฝ์ ์๊ฐ์ ์์๊ฐ ์ค์ํ ์๊ณ์ด ๋ฐ์ดํฐ์ด๋ฏ๋ก RNN, LSTM, GRU ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ๋๋ฆฌ ํ์ฉ๋๋ค. CNN๊ณผ GRU๋ฅผ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋
๋ชจ๋ธ์ ๊ณต๊ฐ์ , ์๊ฐ์ ํน์ง์ ๋์์ ํฌ์ฐฉํ์ฌ ๋จ์ผ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๊ธฐ๋ ํ๋ค[14]. ๋ํ Graph Neural Network(GNN)์ IP์ ํฌํธ๋ฅผ ๋
ธ๋๋ก, ํธ๋ํฝ ํ๋ฆ์ ์ฃ์ง๋ก ๋ชจ๋ธ๋งํ์ฌ ๊ณต๊ฒฉ์์ ์ธก๋ฉด ์ด๋ ๊ณต๊ฒฉ์ด๋ ๋ด๋ท
ํต์ ๊ตฌ์กฐ๋ฅผ ํ์
ํ๋๋ฐ ์ฉ์ดํ๋ค[15, 16]. GNN ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ HyperVision์ ํ๋ฆ ์ํธ์์ฉ ๊ทธ๋ํ๋ฅผ ํตํด ์ํธํ ํ์ด๋ก๋์ ์์กดํ์ง ์๋ ํ์ง ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค[17]. Table 2๋ ์ฃผ์ ์ฌ์ธต ํ์ต ๋ชจ๋ธ์ ๋น๊ตํ๊ณ ์๋ค.
ํ 2. ์ฃผ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํน์ง ๋น๊ต
Table 2. Comparison of Major Deep Learning Models
|
๋ชจ๋ธ
|
์ฃผ์ ๋ฉ์ปค๋์ฆ
|
์ฅ์
|
|
CNN
|
์ด๋ฏธ์ง ๊ธฐ๋ฐ ํน์ง ์ถ์ถ
|
๊ณต๊ฐ์ ํจํด ํ์
, ์๋ ํน์ง ํ์ต
|
|
RNN/LSTM
|
์ํ์คยท์๊ฐ ์ ๋ณด ํ์ต
|
์๊ณ์ด ์์กด์ฑ ํ์
์ ํ์
|
|
Autoencoder
|
์ฌ๊ตฌ์ฑ ์ค์ฐจ ๊ธฐ๋ฐ ํ์ง
|
๋ผ๋ฒจ ์๋ ๋ฐ์ดํฐ ํ์ต ๊ฐ๋ฅ
|
|
GNN
|
๊ทธ๋ํ ๊ตฌ์กฐยท๊ด๊ณ ํ์ต
|
์ ์ฒด ๋คํธ์ํฌ ๋งฅ๋ฝ ํ์
|
2.4 ๋น์ง๋ ํ์ต ๋ฐ ์๊ธฐ ์ง๋ ํ์ต ์ ์ฉ
๋น์ง๋ ํ์ต์ ๋ฐ์ดํฐ์ ๋ณ๋ ๋ ์ด๋ธ์ ์ฌ์ ์ ์ ์ํ์ง ์๊ณ ๋ฐ์ดํฐ๋ค์ ์จ๊ฒจ์ง ๊ตฌ์กฐ๋ ํจํด์ ์ฐพ์๋ด๋ ๊ฒ์ผ๋ก ์ด๋ฅผ ์ด์ ํธ๋ํฝ ํ์ง ๊ธฐ์ ์ ์ ์ฉํ๋ฉด
๋ณ๋ ์ํ ํธ๋ํฝ์ ์ฌ์ ํ์ต ์์ด ์ด์ ํธ๋ํฝ์ ํ์งํ ์ ์๋ค. ์ด๋ ๋ณ๋ ๋ผ๋ฒจ ์์ด๋ ์๋ ค์ง์ง ์์ ๊ณต๊ฒฉ์ ํ์งํ ์ ์์ด ์ํ ํธ๋ํฝ์ด ์ถฉ๋ถํ
ํ๋ณด๋์ง ์์ ์ํฉ์์ ์ ์ฉํ๋ฉฐ, ํนํ ์ ๋ก๋ฐ์ด ์ํ ๋์์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ ์ ์๋ค.
๋น์ง๋ ํ์ต ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์๋ ์ฌ๊ตฌ์ฑ ์ค์ฐจ๋ฅผ ํ์ฉํ๋ Autoencoder, ๋ฐ์ดํฐ ๊ฐ ๋ฐ๋ ๋ฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ One-Class SVM(OCSVM),
์
์ฒด์ ์ธ ์ด๊ตฌ๋ฅผ ๊ฒฝ๊ณ์ ์ผ๋ก ๊ตฌ๋ถํ๋ Deep Support Vector Data Description(SVDD) ๋ฑ์ ์๊ณ ๋ฆฌ์ฆ์ ์ดํด๋ณผ ์ ์๋ค.
Autoencoder ๊ธฐ๋ฐ ์ด์ ํธ๋ํฝ ํ์ง ๋ชจ๋ธ์ ์ฌ๊ตฌ์ฑ ์ค์ฐจ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ ํธ๋ํฝ ๋ถํฌ๋ฅผ ํ์ตํ ํ ํด๋น ์๊ณ ๊ฐ์ ์ด๊ณผํ๋ ์ธ์
์ ๋ํด์๋
์ด์ ํธ๋ํฝ์ผ๋ก ๋ถ๋ฅํ๋ ๋ฐฉ์์ด๋ค. ์ ์ ํธ๋ํฝ ๋ฐ์ดํฐ๋ง์ผ๋ก ์
๋ ฅ์ ๋ฐ์ ์์ถยท๋ณต์ํ ์ฌ๊ตฌ์ฑ ์ค์ฐจ์ ๋นํด ์ด์ ํธ๋ํฝ์ ์ฌ๊ตฌ์ฑ ์ค์ฐจ๊ฐ ํฌ๊ฒ ๋ฐ์ํ๊ฒ
๋๋ฏ๋ก ํ์ง๊ฐ ๊ฐ๋ฅํ๊ฒ ๋๋ ์๋ฆฌ์ด๋ค.
์๊ธฐ ์ง๋ ํ์ต(Self-Supervised Learning, SSL)์ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ์์ ํ์ต ์ ํธ๋ฅผ ์๋์ผ๋ก ์์ฑํ์ฌ ์๋ฏธ์๋ ๋ฐ์ดํฐ ํํ์
๋ง๋ค์ด ๋ด๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์ด์ค ๋์กฐ ํ์ต์ ์ ์ฌยท๋น์ ์ฌ ์์ ๊ตฌ๋ถ์ ํตํด ๋ ์ด๋ธ์์ด ๋ถ๋ฅ๊ฐ ๊ฐ๋ฅํ๋ค[18]. ๋์กฐ ํ์ต์ ๋ํ์ ์ธ ํ๋ ์์ํฌ์ธ ET-SSL์ ์ ์ ํธ๋ํฝ์ด ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ๊ฐ๊น๊ฒ ๋ญ์น๋๋ก ํ๊ณ , ์ด์ ํธ๋ํฝ์ ๋ฉ๋ฆฌ ๋ถ๋ฆฌ๋๋๋ก ์ ๋ํ๋ ๋ฐฉ์์
ํตํด 10Gbps ๊ณ ์ ํ๊ฒฝ์์๋ 15~25ms์ ๋ฎ์ ์ง์ฐ์ผ๋ก ์ค์๊ฐ ํ์ง๊ฐ ๊ฐ๋ฅํ ํ์ฅ์ฑ์ ์ ๊ณตํ๋ค[19].
2.5 ์์ฑํ AI ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ
๋์๊ฐ ์์ฑํ AI๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ํฉ์ฑํ ๊ฒฝ์ฐ ์๊ธฐ ์ง๋ ํ์ต์ ํตํด ๋ ์ด๋ธ์ ๋งตํํ์ฌ ํ์ต ๋ฐ์ดํฐ๋ก์์ ํ์ฉ๋๋ฅผ ๋์ผ ์ ์๋ค. GAN๊ณผ VAE๋ฅผ
ํ์ฉํ์ฌ ์ค์ ๊ณต๊ฒฉ ํธ๋ํฝ๊ณผ ํต๊ณ์ ์ผ๋ก ์ ์ฌํ ํฉ์ฑ ๋ฐ์ดํฐ๋ฅผ ์์ฑํจ์ผ๋ก์จ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด์ํ๋ ์ ๊ทผ๋ฒ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค. CTGAN, CopulaGAN
๋ฑ ํ
์ด๋ธํ ๋ฐ์ดํฐ ํนํ ์์ฑ ๋ชจ๋ธ์ ์ ์ฉํจ์ผ๋ก์จ ์์ ํด๋์ค ํ์ต ์ํ์ ๋ํญ ๋ณด๊ฐํ ์ ์๋ค[20].
2.6 LLM ๊ธฐ๋ฐ ์ํ ์์ธก
๋คํธ์ํฌ ๋ก๊ทธ๋ฅผ ๊ตฌ์กฐํ ํ
์คํธ ํํ๋ก ๋ณํํ์ฌ LLM์ด ์๋งจํฑ ์๋ฏธ๋ฅผ ๋ถ์ํ๊ณ ์ํ์ ์์ธกํ๋ค. ๊ฒ์ ์ฆ๊ฐ ์์ฑ(Retrieval-Augmented
Generation, RAG)์ ๊ฒฐํฉํ๋ฉด ์ต์ ์ํ ์ธํ
๋ฆฌ์ ์ค๋ฅผ ์ค์๊ฐ ์ฐธ์กฐํ์ฌ ์ฌํ์ต ์์ด๋ ์๋ก์ด ๊ณต๊ฒฉ ์ ํ์ ๋์ํ ์ ์๋ค. LLM ๊ธฐ๋ฐ ์ด์
ํธ๋ํฝ ์์ธก์ ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค. ๋จผ์ ํจํท ํฌ๊ธฐ, ํจํท ๋์ฐฉ ๊ฐ๊ฒฉ, ์ธ์
์ ์ง ์๊ฐ ๋ฑ ์์น ํผ์ฒ๋ฅผ ์์ฐ์ด ํํ๋ก ๋ณํํ๋ ์ ์ฒ๋ฆฌ ๋จ๊ณ,
๋๋ฒ์งธ๋ก ๋ณํ๋ ํ
์คํธ๋ฅผ LLM์ ์
๋ ฅํ์ฌ ํธ๋ํฝ์ ์๋งจํฑ ํจํด๊ณผ ๊ณต๊ฒฉ ์๋๋ฅผ ์ถ๋ก ํ๋ ๋จ๊ณ, ๋ง์ง๋ง์ผ๋ก RAG๋ฅผ ํตํด ์ต์ ์ํ ์ธํ
๋ฆฌ์ ์ค๋ฅผ ์ค์๊ฐ
์ฐธ์กฐํ์ฌ ์ฌํ์ต ์์ด๋ ๋ฏธ์ง์ ๊ณต๊ฒฉ ์ ํ์ ๋์ํ๋ ๋จ๊ณ์ด๋ค. ์ด ๊ณผ์ ์ ํตํด ๋จ์ ์ด์ ์ฌ๋ถ ํ๋ณ์ ๋์ด ๊ณต๊ฒฉ ์ ํ ์์ธก, ํ์ง ๊ทผ๊ฑฐ ์์ฑ, ์ฌ๋์ด
์ดํด ๊ฐ๋ฅํ ํ์ง ๊ท์น ์๋ ์์ฑ ๋ฑ์ด ๊ฐ๋ฅํ๋ค[21, 22].
3. ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก
3.1 ํ๋ซํผ ์ค๊ณ ๊ฐ์
Table 3์ ์ํธํ ํธ๋ํฝ ํ์ง ํ๋ซํผ์ 3๋จ๊ณ ํ๋ก์ธ์ค๋ณ ๋ฌธ์ ์ , ๊ธฐ์ ๋ฐ์ ์ถ์ด, ๊ด๋ จ ์ฐ๊ตฌ ๋ฐ ์๋ฃจ์
์ ํตํฉ ์ ๋ฆฌํ ๋ด์ฉ์ด๋ค. ์ฐธ๊ณ ๋ก ๊ฐ ๋จ๊ณ์ ๊ธฐ์ ๋ฐ์
์ถ์ด์ ํด๋นํ๋ ๊ธฐ์กด ์ค์ฆ ์ฐ๊ตฌ ์ฑ๊ณผ๋ฅผ ๋ช
์ํ์ฌ, ์ ์ฌ ์ฐ๊ตฌ ์ํ ์ ์ฐธ๊ณ ํ ์ ์๋๋ก ๊ตฌ์ฑํ์๋ค.
ํ 3. ์ด์ํ์ ํ์ง ํ๋ซํผ ๋จ๊ณ ๋ณ ๊ธฐ์ ๋ฐ์ ์ถ์ด ๋ฐ ๊ด๋ จ ๊ธฐ์ ์๊ฐ
Table 3. Technological Evolution and Related Technologies for Anomaly Traffic Detection
Platforms
|
๋จ๊ณ
|
1๋จ๊ณ:
๋ฐ์ดํฐ ์์ง
|
2๋จ๊ณ:
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
|
3๋จ๊ณ:
ํ์ง๋ชจ๋ธ ์ค๊ณ
|
|
๋ฌธ์ ์
|
์ํ ํธ๋ํฝ ํ๋ณด
๊ณผ๋ํ ๋ผ๋ฒจ๋ง ๋น์ฉ
|
ํฌํธ ์ฐํ ํธ๋ํฝ
์ ํจ ํผ์ฒ ์ ์
|
์ค์๊ฐ ์ฒ๋ฆฌ ์ง์ฐ
์ ํ๋์ ๊ฒฝ๋ํ ์์ถฉ
|
|
๊ธฐ์ ๋ฐ์ ์ถ์ด
|
1์ธ๋
(DPI:์๊ทธ๋์ฒ ๋งคํ)
|
ํจํท ํธ๋ํฝ
[1, 2, 3]
|
ํค๋ ๋จ์ ์ถ์ถ[7]
|
๊ท์น/์๊ทธ๋์ฒ[23]
|
2์ธ๋
(ML/DL:์ด์ง ๋ถ๋ฅ)
|
ํ๋ก์ฐ/์ธ์
ํธ๋ํฝ
[5, 12]
|
์๋ ํน์ง ๊ณตํ
[5, 12]
|
์ง๋ํ์ต(ML/DL)
[5, 12, 14]
|
3์ธ๋
(์ฆ๊ฐ/ํฉ์ฑ:๋์ ๋ถ์)
|
ํฉ์ฑ ํธ๋ํฝ ์์ฑ
[12, 20]
|
์๋ ํน์ง ์ถ์ถ
[4, 24, 25]
|
๋น์ง๋/์์๋ธ
[4, 24, 25, 26, 27]
|
4์ธ๋
(LLM: ๋ฌธ๋งฅ ๊ธฐ๋ฐ ๋ถ์)
|
LLM ํธ๋ํฝ ํฉ์ฑ
[28, 29, 30]
|
ํ
์คํธ ์๋ฒ ๋ฉ
[29, 31, 32]
|
LLM ์ถ๋ก ยท์์ธก
[21, 22, 33, 34]
|
|
๊ด๋ จ AI ๊ธฐ์
|
CTGAN, CopulaGAN,
WGAN-GP, VAE, TVAE
|
SHAP ๊ธฐ๋ฐ ํน์ง ํด์,
AutoML
|
TinyML, QLoRA,
๊ฒฝ๋ Transformer,
RAG ๊ธฐ๋ฐ ์ ๋ก์ท,RuleLLM
|
|
๊ด๋ จ ์๋ฃจ์
|
Zeek, Wireshark,
Splunk
|
ELK Stack, Pandas
Scikit-learn
|
PyTorch, TensorFlow,
ONNX Runtime
|
3.2 (1๋จ๊ณ) ๋ฐ์ดํฐ ์์ง
๊ณต๊ฒฉ ํธ๋ํฝ์ ์ค์ด์ ํ๊ฒฝ์์ ์ ์ ํธ๋ํฝ ๋๋น ์์ ์๋์ผ๋ก ์กด์ฌํ๋ ๊ทน๋จ์ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ๋ดํฌํ๋ค. 1์ธ๋ DPI ๊ธฐ๋ฐ ์์ง์ ์ํธํ ํ๊ฒฝ์์
์ ์ฉ์ด ์ด๋ ค์ฐ๋ฉฐ, 2์ธ๋์ ํ๋ก์ฐ ๋ฐ์ดํฐ(NetFlow/IPFIX) ์์ง์ด ํ์ฌ ์ฃผ๋ฅ๋ฅผ ์ด๋ฃจ๊ณ ์๋ค.
๋คํธ์ํฌ ํธ๋ํฝ ์์ง ๋ฐฉ์์ ํฌ๊ฒ ํจํท(Packet) ๊ธฐ๋ฐ, ํ๋ก์ฐ(Flow) ๊ธฐ๋ฐ, ์ธ์
(Session) ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ๋ถ๋๋ค. ํจํท ๊ธฐ๋ฐ ๋ฐ์ดํฐ๋
์์ธํ ํต์ ์ ๋ณด๋ฅผ ํฌํจํ์ง๋ง ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ๋ฐฉ๋ํ์ฌ ๋ถ์์ ๋ง๋ํ ์ปดํจํ
์์์ด ์๊ตฌ๋๋ค. ํ๋ก์ฐ ๊ธฐ๋ฐ ๋ฐ์ดํฐ(NetFlow)๋ ์ถ๋ฐ์งยท๋ชฉ์ ์ง ์ฃผ์๊ฐ
๋์ผํ ํจํท๋ค์ ํ๋๋ก ์ง๊ณํ์ฌ ํฌ๊ธฐ๋ฅผ ๋ํญ ์ค์ผ ์ ์์ง๋ง, ๋จ๋ฐฉํฅ์ฑ์ผ๋ก ์ธํด ์ ์ฒด ์ธ์
์ ๋งฅ๋ฝ์ ํ์
ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ
์ํด ์ธ์
๊ธฐ๋ฐ ๋ฐ์ดํฐ๋ ์๋ฐฉํฅ์ ์ธ๋ฐ์ด๋, ์์๋ฐ์ด๋ ํ๋ก์ฐ๋ฅผ ํ๋๋ก ๊ฒฐํฉํ ๋ฐ์ดํฐ๋ก ํํํ์ฌ, ํ๋ก์ฐ ๋ฐ์ดํฐ ๋จ๋
์ผ๋ก๋ ํํํ์ง ๋ชปํ๋ ํต์ ์
๋งฅ๋ฝ์ ๋ถ์ํ ์ ์๋ค[12]. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก DARPA99 Week4 ๋ฐ์ดํฐ์
๊ธฐ์ค์ผ๋ก ํจํท ๊ธฐ๋ฐ ๋๋น ์ธ์
๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ํ์ 6,461,795๊ฑด์์ 175,330๊ฑด์ผ๋ก
์ฝ 97% ๊ฐ์์์ผ ํ์ต ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ ํจ์จ์ ๋ํญ ๊ฐ์ ํ์๋ค.
3์ธ๋์์๋ GAN, VAE ๋ฑ ์์ฑํ AI๋ฅผ ํ์ฉํ์ฌ ์์ ํด๋์ค ๊ณต๊ฒฉ ํธ๋ํฝ์ ํฉ์ฑํจ์ผ๋ก์จ ์๋ณธ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ๋ ๋ชจ๋ธ ํ์ง ์ฑ๋ฅ ๋๋น ์ฌํ์จ(Recall)์
์ต๋ 35% ํฅ์์ํค๋ ์ฐ๊ตฌ๊ฐ ์งํ๋์๋ค[20].
์ค์ ๋คํธ์ํฌ ํ๊ฒฝ์์ SSH ๊ณต๊ฒฉ ํธ๋ํฝ์ ์ ์ ํธ๋ํฝ ๋๋น ๊ทนํ ํฌ์ํ์ฌ ์ฌ๊ฐํ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ
ํด๊ฒฐํ๊ธฐ ์ํด WGAN-GP(Wasserstein GAN with Gradient Penalty) ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ์ฌ SSH ํธ๋ํฝ์ ํ์ต ๋ฐ์ดํฐ๋ก
์์ฑํ์๋ค. ๊ธฐ์กด GAN์ ๋ชจ๋ ๋ถ๊ดด(Mode Collapse)๋ก ์ธํด ์ ํ๋ ๋ค์์ฑ์ ์ํ๋ง ์์ฑํ๋ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, WGAN์ ๊ฐ์ค์น ํด๋ฆฌํ์ผ๋ก
์ธํ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค. ํ์ง๋ง ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ ์ฉํ WGAN-GP๋ EM(Earth Mover) ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ ๋ชฉ์ ํจ์์ ๊ฒฝ์ฌ ํ๋ํฐ(Gradient
Penalty)๋ฅผ ์ถ๊ฐํ์ฌ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ค. ์คํ์ ์ผ๋ก GAN๊ณผ WGAN์ด Softmax ์ถ๋ ฅ๊ฐ 0.75 ์ด์์ ์ ํจ ์ํ์ ์ ํ ์์ฑํ์ง
๋ชปํ ๋ฐ๋ฉด, WGAN-GP๋ ์ถฉ๋ถํ ์์ ์ ํจ ์ํ์ ์์ฑํ์ฌ ์ฐ์ํ ํฉ์ฑ ์ฑ๋ฅ์ ์
์ฆํ์๋ค. ๋ํ Generator Loss ๊ฐ์ ๋ฐ๋ผ ์ํ์ ์ ์ฌ๋๋ฅผ
ํ๊ฐํ์ฌ ๊ณ ์์คยท์ ์์ค ๋ฒ์ ์ํ์ ํผํฉํ์ฌ ์ฌ์ฉํ๋ ์ํ ์ ๋ณ ์ ๋ต์ ํตํด F1โScore 0.999๋ฅผ ๋ฌ์ฑํ์๋ค[12].
4์ธ๋์์๋ LLM์ด ๋ค์ํ ๊ณต๊ฒฉ ์๋๋ฆฌ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด์ ํ์ ํธ๋ํฝ์ ์์ฑํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๊ฐ ์์๋๋ค. LLM์ ํ์ฉํ์ฌ ๋ค์ํ ๊ณต๊ฒฉ ์๋๋ฆฌ์ค๋ฅผ
๊ธฐ๋ฐ์ผ๋ก ๋ ์ด๋ธ์ ๊ณ ๋ คํ์ง ์๊ณ ๋ ์ง์ ํธ๋ํฝ์ ํฉ์ฑํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๊ฐ ์์๋๋ค. ET-BERT๋ ๋๊ท๋ชจ ๋น๋ ์ด๋ธ ํธ๋ํฝ์ผ๋ก๋ถํฐ BERT ๊ธฐ๋ฐ ๋ฐ์ดํฐ๊ทธ๋จ
ํํ์ ์ฌ์ ํ์ตํ์ฌ ์๋์ ๋ ์ด๋ธ๋ง์ผ๋ก ์ํธํ ํธ๋ํฝ ๋ถ๋ฅ์์ F1โScore 99.2%๋ฅผ ๋ฌ์ฑํ์๋ค[29]. TrafficLLM์ ํธ๋ํฝ ์ ์ฉ ํ ํฌ๋์ด์ ์ ์ด์ค ๋จ๊ณ ํ์ธํ๋ ํ์ดํ๋ผ์ธ์ ํตํด ํ์ง์ ํฉ์ฑ์ ๋์์ ์ง์ํ๋ฉฐ, ๊ธฐ์กด GAN ๊ธฐ๋ฐ ๋ฉํ๋ฐ์ดํฐ
ํฉ์ฑ์ ํ๊ณ๋ฅผ ๋์ด ์ ํํ ํค๋์ ํ์ด๋ก๋๋ฅผ ํฌํจํ ์ ์ฒด ํจํท ํฉ์ฑ์ด ๊ฐ๋ฅํจ์ ์
์ฆํ์๋ค[30]. ํนํ Knowledge-to-Data ์ฐ๊ตฌ๋ ์ค์ ๋ฐ์ดํฐ ์ํ์ด๋ ํ
์คํธ๋ฒ ๋ ์์ด LLM์ ๋๋ฉ์ธ ์ง์๋ง์ผ๋ก ํ๋กํ ์ฝ ์ ์ฝ ์กฐ๊ฑด์ ์ค์ํ๋ ๊ตฌ์กฐํ๋
ํธ๋ํฝ์ ํฉ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ด๋ ๋ ์ด๋ธ ํ๋์ด ๊ทนํ ์ด๋ ค์ด ํ๊ฒฝ์์์ ๋ฐ์ดํฐ ๋ณด๊ฐ ์ ๋ต์ผ๋ก์ ์ฃผ๋ชฉ๋๋ค[28].
4์ธ๋์์ LLM ๊ธฐ์ ์ ์ ์ฉํ ์ ๊ณ ๋ คํ ์ฌํญ์ผ๋ก๋ ์ฐ์ ํ ๋ฃจ์๋ค์ด์
์ ๋ฐ๋ฅธ ์ ๋ขฐ์ฑ ๊ฒฐ์ฌ ๋ฌธ์ ๊ฐ ์๋ค. LLM์ด ์ค์ ์กด์ฌํ์ง ์๋ ๊ฐ์์ ๊ณต๊ฒฉ
ํจํด์ด๋ ํ๋กํ ์ฝ ๊ท๊ฒฉ์ ๋ถํฉํ์ง ์๋ ํธ๋ํฝ ์์ฑ ๋ก์ง์ ์ถ๋ ฅํ๋ ํ ๋ฃจ์๋ค์ด์
๋ฌธ์ ๋ ์น๋ช
์ ์คํ์ผ๋ก ์ด์ด์ง ์ ์๋ค. ์ด๋ฌํ ์ค๋ฅ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด,
LLM ๋ชจ๋ธ์๋ง ์์กดํ์ง ์๊ณ ์ต์ ์ํ ์ธํ
๋ฆฌ์ ์ค๋ฅผ ์ ๋ณด๋ฅผ ์ค์๊ฐ์ผ๋ก ์
๋ฐ์ดํธํ๋ RAG๋ฅผ ๊ณ ๋ คํ ์ ์์ผ๋ฉฐ, LLM์ด ์ค๊ณํ ํธ๋ํฝ ์์ฑ ๋ก์ง์ด
์ค์ ๋คํธ์ํฌ ๊ท๊ฒฉ์ ๋ง๋์ง ์ปดํจํฐ๊ฐ ์๋์ผ๋ก ๊ฒ์ฌํ๋ ๋ชจ๋์ ์ถ๊ฐํ์ฌ ์์ฑ ๋ฐ์ดํฐ์ ์ ๋ขฐ์ฑ์ ๋์ด๊ณ ์ ํ๋ค. ์ถ๊ฐ๋ก ๋คํธ์ํฌ ํจํท์ ์์น ์ํ์ค
๋ฐ์ดํฐ๋ ์ผ๋ฐ์ ์ธ ์์ฐ์ด ํ
์คํธ์ ๊ตฌ์กฐ์ ์ผ๋ก ์ด์ง์ ์ด๋ฏ๋ก ํ์ค ํ ํฌ๋์ด์ ๋ก๋ ์๋ฏธ ์๋ ํํ ํ์ต์ด ์ ํ๋๋ค. ๋คํธ์ํฌ ํธ๋ํฝ์ ํนํ๋ ๋๋ฉ์ธ ์ ์ฉ
ํ ํฌ๋์ด์ ์ค๊ณ์ Structured-to-Text ๋ณํ ์ ๋ต์ ํตํด LLM์ด ํธ๋ํฝ ๋ฐ์ดํฐ์ ์๋งจํฑ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ํ๋ ๊ฒ
๋ํ ํ์์ ์ผ๋ก ๊ณ ๋ ค๋์ด์ผ ํ๋ค.
3.3 (2๋จ๊ณ) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
IP ์ฃผ์, ํฌํธ ๋ฒํธ ๋ฑ ๊ฐ๋ณ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ๊ณ ํจํท ๊ธธ์ด ์ํ์ค, ํจํท ๋์ฐฉ ๊ฐ๊ฒฌ, ์ธ์
๋ฐฉํฅ ๋น์จ ๋ฑ ํฌํธ ๋
๋ฆฝ์ ํผ์ฒ๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด ํต์ฌ์ด๋ค.
์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ์ ํจ ํผ์ฒ ์ ์ ์ ํ์ง ์ฑ๋ฅ์ ์ง๊ฒฐ๋๋ ํต์ฌ ๊ณผ์ ์ด๋ค. ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ํ์ฉํ์ฌ ํผ์ฒ ์ค์๋๋ฅผ ๋ถ์ํ๊ณ , ์์ฌ๊ฒฐ์ ๋
ธ๋์์
๋น๋ฒํ๊ฒ ์ฌ์ฉ๋ ํผ์ฒ๋ฅผ ์ฃผ์ ํผ์ฒ๋ก ์ ์ ํ์๋ค[5]. ์ก์์ ๋น์จ, ์ธ์
์๊ฐ, ํจํท ๋์ฐฉ ๊ฐ๊ฒฉ์ ํ๊ท , ํจํท ๋์ฐฉ ๊ฐ๊ฒฉ์ ๋ถ์ฐ ์ด์ 4๊ฐ์ง ํผ์ฒ๊ฐ ์ ์ ํ์์ผ๋ฉฐ, ๋๋จธ์ง ํผ์ฒ๋ค์ ์ฃผ์ฑ๋ถ ๋ถ์(Principal
Component Analysis, PCA)๋ฅผ ์ ์ฉํ์ฌ ์ฃผ์ฑ๋ถ(PC) ๊ฐ์ผ๋ก ๋์ฒดํ์๋ค. ํนํ ํจํท ๋์ฐฉ ๊ฐ๊ฒฉ ์๊ฐ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ธฐ์กด ์ฐ๊ตฌ์์๋
์ธ์
๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ ์ฉ๋์ง ์์๋ ์ ๊ท ํผ์ฒ๋ก, ํ๋ก์ฐ ๊ธฐ๋ฐ์ Duration์ด ๋จ๋ฐฉํฅ ํจํท ํน์ฑ๋ง ๋ฐ์ํ๋ ํ๊ณ๋ฅผ ๋ณด์ํ๋ค. IPA ์๊ฐ์ ์ก์์
๋ฐฉํฅ์ ๋ฌด๊ดํ๊ฒ ์ฐ์ ํจํท ๊ฐ์ ์๊ฐ ๊ฐ๊ฒฉ์ ์ธก์ ํ์ฌ ์์ฉ ๊ณ์ธต์ ์๋ต ํน์ฑ์ ํฌ์ฐฉํ๋ฉฐ, ์ด ํผ์ฒ๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ์ฌํ์จ 11.8%,
์ ๋ฐ๋ 50.1%๊ฐ ํฅ์๋์๋ค. ๋ํ ์ผ๋ถ ํผ์ฒ์ ๋ก๊ทธ(Log) ํจ์๋ฅผ ์ ์ฉํ์ฌ ๋ถํฌ ๋ฐ๋๋ฅผ ์ค์ด๊ณ ์ ํ์ ํน์ฑ์ ๊ฐํํ์์ผ๋ฉฐ, ์ ์ฒด ํผ์ฒ๋ฅผ 0~100
๋ฒ์๋ก ์ ๊ทํํ์ฌ ํ์ต ์์ ์ฑ์ ํ๋ณดํ์๋ค[12].
3์ธ๋์์๋ ์คํ ์ธ์ฝ๋๊ฐ ์์ ํธ๋ํฝ์ผ๋ก๋ถํฐ ์๋ฏธ ์๋ ์ ์ฌ ํํ์ ํ์ตํ๋ ์๋ ํน์ง ์ถ์ถ์ ์ฑํํ๋ฉฐ, SHapley Additive exPlanations(SHAP)
๊ธฐ๋ฐ ํน์ง ์ค์๋ ๋ถ์์ผ๋ก ํด์ ๊ฐ๋ฅ์ฑ์ ์ ๊ณ ํ์๋ค[13]. ๋์๊ฐ 4์ธ๋์์๋ ํ๋ฆ ํต๊ณ๋ฅผ ์์ฐ์ด ํ๋กฌํํธ ํํ๋ก ๋ณํํ์ฌ LLM์ด ๋งฅ๋ฝ์ ์ดํดํ๋๋ก ๊ตฌ์ฑํ๊ฒ ๋๋ค.
4์ธ๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐฉ์์ผ๋ก ํ
์คํธ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ์ ์ฒ๋ฆฌ๋ ํผ์ฒ ๊ฐ ๊ด๊ณ์ ๋งฅ๋ฝ์ ํจ๊ป ์ค๋ช
ํ ์ ์๋ค๋ ์ ์์ ๊ธฐ์กด ์์น ๋ฒกํฐ ๋ฐฉ์ ๋๋น ์ฅ์ ์
๊ฐ์ง๋ค. ๋ค์์ 3๊ฐ์ง ์ฐ๊ตฌ๋ ์ค์ ์ฅ์ ์ ์์น์ ์ผ๋ก ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ET-BERT๋ ๋๊ท๋ชจ ๋น๋ ์ด๋ธ ํธ๋ํฝ์ผ๋ก๋ถํฐ BERT ๊ธฐ๋ฐ ๋ฐ์ดํฐ๊ทธ๋จ ํํ์
์ฌ์ ํ์ตํจ์ผ๋ก์จ ์๋ ํผ์ฒ ์ค๊ณ ์์ด๋ ์ํธํ ํธ๋ํฝ ๋ถ๋ฅ์์ F1โScore 98.9%๋ฅผ ๋ฌ์ฑํ์ฌ ์ ์ด ํ์ต์ ์ ํจ์ฑ์ ์
์ฆํ์๋ค[29]. ๋์งธ, GPT-2 ๋ฐ LLaMA ๊ธฐ๋ฐ TrafficLLM์ ์ต์ํ์ ํ์ธํ๋์ผ๋ก CNN ๊ธฐ๋ฐ ๋ชจ๋ธ ๋๋น ์ต๋ 21.5%์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ฌ
์๋ ค์ง์ง ์์ ํธ๋ํฝ์ ๋ํ ์ผ๋ฐํ๊ฐ ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ์๋ค[31]. ์
์งธ, MET-LLM์ ๋๋ฉ์ธ ํนํ ํ ํฌ๋์ด์ ๋ฅผ ํตํด ์์ฐ์ด์ ๋คํธ์ํฌ ๋ฐ์ดํฐ ๊ฐ์ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ณ ์
์ฑ ํ๋ฆ๊ณผ ์ ์ ํ๋ฆ์ ๋งฅ๋ฝ์ ์ฐจ์ด๋ฅผ
ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ์๋ค[32]. ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ํ
์คํธ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ์ ์ฒ๋ฆฌ๊ฐ ์๋ ํผ์ฒ ๊ณตํ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์๋ ค์ง์ง ์์ ์ํ์ ๋ํ ๋ฒ์ฉ์ ํ์ง ์ฑ๋ฅ์ ์ ๊ณตํ๋ ํต์ฌ ์ ์ฒ๋ฆฌ
๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค.
3.4 (3๋จ๊ณ) ํ์ง๋ชจ๋ธ ์ค๊ณ
1์ธ๋ ์๊ทธ๋์ฒ ๋งคํ ํ์ง ๊ธฐ์ ์ Snort ๋ฑ๊ณผ ๊ฐ์ ๋๊ตฌ๋ฅผ ํ์ฉํ์ฌ ์๋ ค์ง ๊ณต๊ฒฉ ํจํด์ ํ์ด๋ก๋ ๊ธฐ๋ฐ ์๊ทธ๋์ฒ์ ๋์กฐํ๋ ์ฌ์ธต ํจํท ๊ฒ์ฌ ๋ฐฉ์์
์์กดํ์์ผ๋, ํธ๋ํฝ ์ํธํ๊ฐ ํ์ฐ๋จ์ ๋ฐ๋ผ ๊ฐ์์ฑ ํ๋ณด์ ํ๊ณ๋ฅผ ๋๋ฌ๋๋ค. 2์ธ๋ ๋ถํฐ๋ ์ค์๊ฐ ํ์ง๋ฅผ ์ํด ๋์ ์ ํ๋์ ๋ฎ์ ์ง์ฐ ์๊ฐ์ ๋์์
๋ง์กฑํด์ผ ํ๋ ๊ทผ๋ณธ์ ์์ถฉ ๊ด๊ณ๊ฐ ๋ณธ๊ฒฉํ ๋๋ค. 2์ธ๋ ํ์ง ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ํธํ ํด์ ์์ด๋ ์ด์ ์งํ๋ฅผ ํฌ์ฐฉํ๊ธฐ ์ํด ํจํท ๊ธธ์ด ๋ถํฌ์ ๋์ฐฉ ์๊ฐ
๊ฐ๊ฒฉ ๋ฑ ์ธํ์ ํต๊ณ ํผ์ฒ๋ฅผ ์ ์๊ณผ ๊ณต๊ฒฉ ํธ๋ํฝ์ ๋ถ๋ฅํ๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ํ๋ ๋ถ์ ๊ธฐ์ ๋ก ๋ฐ์ ํ์๋ค. Random Forest, CNN-LSTM
๋ฑ๊ณผ ๊ฐ์ 2์ธ๋ ์ง๋ ํ์ต ๊ธฐ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ์ 95% ์ด์์ ํ์ง ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ณ ์์ผ๋ฉฐ, 3์ธ๋์์๋ ์์๋ธ๊ณผ ๋น์ง๋ ํ์ต์ ๊ฒฐํฉํ์ฌ ๋ฏธ์ง ๊ณต๊ฒฉ์
๋ํ ํ์ง ๋ฒ์ฉ์ฑ์ ์ถ๊ฐ๋ก ํ๋ณดํ์๋ค.
4์ธ๋์์๋ QLoRa์ ๊ฐ์ ๊ฒฝ๋ LLM(Llama-1B ๋ฑ)์ ๋์
ํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ ๊ฐํ๋ฉด์ ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋ ์ฐ๊ตฌ๊ฐ ์งํ ์ค์ด๋ค.
4์ธ๋์์๋ LLM์ด ์ด์ ํธ๋ํฝ ํ์ง์ ์ง์ ํฌ์
๋๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์๋ค. ๊ฒฝ๋ํ ์ธก๋ฉด์์๋ QLoRA ํ์ธํ๋๊ณผ RAG๋ฅผ ๊ฒฐํฉํ LLaMA-1B
๋ชจ๋ธ์ด ์ฌํ์ต ์์ด ๋ฏธ๊ด์ธก ๊ณต๊ฒฉ์ ์ ๋ก์ท์ผ๋ก ํ์งํ๋ ๊ฐ๋ฅ์ฑ์ ์ค์ฆํ์๋ค[34]. Lin ๋ฑ[21]์ LLM ๊ธฐ๋ฐ ํ์ง ๊ท์น ์๋ ์์ฑ ํ๋ ์์ํฌ์ธ RuleLLM์ ์ ์ํ์ฌ ์ ๋ฌธ๊ฐ ๊ฐ์
์์ด 91.8%์ ์ ํ๋๋ก ํ์ง ๊ท์น์ ์์ฑํ์์ผ๋ฉฐ, Lian
๋ฑ[33]์ ์๋ก์ด ๊ณต๊ฒฉ์ ๊ฐ๋
์ฆ๋ช
๋ง์ผ๋ก๋ IDS ๊ท์นยท์ค๋ช
ยท๋ฐฉ์ด ๊ถ๊ณ ๋ฅผ ๋์์ ์ถ๋ ฅํ๋ RuleMaster+๋ฅผ ์ ์ํ์๋ค.
4. ๊ฐ๋
๊ฒ์ฆ ์คํ
4.1 ์คํ ๋ชฉ์ ๋ฐ ์ค๊ณ
๋ณธ ์ฅ์์๋ 4์ธ๋ LLM ๊ธฐ๋ฐ ํธ๋ํฝ ํฉ์ฑ ๊ธฐ๋ฒ์ ์คํ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋
์ฆ๋ช
์์ค์์ ๊ฒ์ฆํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ค์ SSH ํธ๋ํฝ ํผ์ฒ๋ฅผ Structured
to Text(S2T) ๋ฐฉ์์ผ๋ก ์์ฐ์ด ํ๋กฌํํธ๋ก ๋ณํํ์ฌ LLM์ ์
๋ ฅํ๊ณ , LLM์ด ์ถ๋ ฅํ ํ
์คํธ๋ฅผ ๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ก ํ์ฑํ๋ ๋ฐฉ์์ผ๋ก ํฉ์ฑ ์ํ์
์์ฑํ ์ ์๋์ง๋ฅผ ํ์ธํ์๋ค.
ํ 4. ์๋ณธ ๋ฐ์ดํฐ์
ํญ๋ชฉ ์ค๋ช
Table 4. Feature description of Original Dataset
|
Dataset feature
|
Description
|
count total connect
(Total Connect)
|
Number of connections to the same Destination IP
|
count connect IP
(Connect IP)
|
Number of source IP connected to the same destination IP
|
count avg connect
(Avg Connect)
|
Average number of connections per IP to the same destination IP
|
speed transmit BPS
(Speed BPS)
|
Average transfer speed
|
byte send
(CS Byte)
|
Transmit data size
|
ratio trans receive
(T/R Ratio)
|
Send byte byte/Receive byte
|
|
time taken
|
Time per session
|
mean of IPA time
(IPA Mean)
|
Mean of inter-packet arrival (IPA) time
|
var of IPA time
(IPA Var)
|
Variance of inter-packet arrival (IPA) time label
|
์คํ์ ์ฌ์ฉ๋ ์๋ณธ ๋ฐ์ดํฐ๋ ์ ํ ์ฐ๊ตฌ[12]์์ ๊ตฌ์ถํ DARPA99 ๊ธฐ๋ฐ ์ธ์
๋ฐ์ดํฐ์
์ด๋ฉฐ, Table 4๋ ํด๋น ๋ฐ์ดํฐ์
์ ํผ์ฒ์ ๋ํด ์ค๋ช
ํ๋ค. DARPA 99์ ํธ๋ ์ด๋ ๋ฐ์ดํฐ์
์์ ์๋ณธ SSH ํธ๋ํฝ 1,000๊ฑด์ ๋๋คํ๊ฒ ์ ํํ์์ผ๋ฉฐ, ์ด๋ฅผ WGAN-GP
ํฉ์ฑ ์ํ 1,000๊ฑด, LLM์ผ๋ก ํฉ์ฑํ ์ํ 1,000๊ฑด๊ณผ ํจ๊ป ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋น๊ตํ์๋ค.
๋ณธ ์คํ์์ LLM ๊ธฐ๋ฐ ํธ๋ํฝ ํฉ์ฑ ์์๋ ๊ณ ๋น์ฉ ์์คํ
์ ํ์๋ก ํ๋ ๋ํ ๋ชจ๋ธ ์์ด๋ ์ผ๋ฐ์ ์ธ LLM ๋ชจ๋ธ๋ก๋ ํต๊ณ์ ์ผ๋ก ์ ํจํ ํฉ์ฑ๋ฐ์ดํฐ๋ฅผ
๊ฒ์ฆํ๋ ๊ฒ์ ๊ฒ์ฆํ๊ธฐ ์ํ์ฌ llama-3.2-3b-instruct์ ์ฌ์ฉํ์๋ค.
LLM ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ์ฑ ํธ๋ํฝ์ ์์ฑํ์ฌ ํ์ง ๋ชจ๋ธ์ ์ ์ฉํ๋ ๊ณผ์ ์ โ1๋จ๊ณ:์์ง ๋ฐ์ดํฐ์
ํผ์ฒ ๋ถ์โ, โ2๋จ๊ณ:๊ฐ ํผ์ฒ์ ํต๊ณ์ ๋ฒ์ ์ ์โ,
โ3๋จ๊ณ:์ ๊ท๋ก ์์ฑํ ํผ์ฒ์ ๋ํ ์ค๋ช
๋ฐ ์์ ํํโ, โ4๋จ๊ณ:์์ฑํ ํฉ์ฑ ๋ฐ์ดํฐ์ ๋ถํฌ ๋น๊ตโ, โ5๋จ๊ณ:ํ๋ จ ๋ฐ์ดํฐ๋ท์ ๋ณด๊ฐํ์ฌ ํ์ง ๋ชจ๋ธ์
์ ์ฉโ์ผ๋ก ๊ตฌ๋ถํ์๋ค. ํฉ์ฑ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ถ๋ถ์ ์์ด GAN, WGAN๊ณผ ๊ฐ์ ๊ธฐ์กด ์์ฑํ ๋ชจ๋ธ๊ณผ์ ์ฐจ์ด์ ์ ์๋ณธ ๋ฐ์ดํฐ์
์ ์ง์ ์
๋ ฅํ์ง ์๊ณ
๋ฐ์ดํฐ์
์ ํน์ฑ์ LLM ํ๋กฌํํธ์ ์
๋ ฅํ๋ ๋ถ๋ถ์ด๋ค.
ํ 5. ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ์ ์ํด LLM ํ๋กฌํํธ์ ์
๋ ฅํ๋ ํญ๋ชฉ ์ค๋ช
Table 5. Feature relationships entered into the LLM prompt
๋คํธ์ํฌ ํธ๋ํฝ ํฉ์ฑ์ ์ํด ํ๋กฌํํธ์ ์
๋ ฅํ๋ ์ ๋ณด๋ก๋ ์๋ณธ ๋ฐ์ดํฐ์ ํต๊ณ์ ํน์ฑ์ธ ํ๊ท , ํ์คํธ์ฐจ, ์ต์๊ฐ, ์ต๋๊ฐ ๊ทธ๋ฆฌ๊ณ ํผ์ฒ ๊ฐ์ ๊ด๊ณ๋ฅผ ์์ฐ์ด
ํ๋กฌํํธ๋ก ๋ณํํ์ฌ ์
๋ ฅํ๋ ๋ฐฉ์์ผ๋ก ํฉ์ฑ์ ์ํํ์๋ค. Table 5๋ ์์ 1โผ3๋จ๊ณ์์ ํ์ธํ ๊ฐ ํผ์ฒ ๊ฐ์ ๊ด๊ณ์ ๋ํ ์์๊ณผ ์ค๋ช
์ผ๋ก LLM ํ๋กฌํํธ์ ์
๋ ฅํ๋ ์ ๋ณด์ด๋ค. ๋ณธ ์คํ์ ๊ฐ๋
๊ฒ์ฆ์ ์ํ ์คํ์ผ๋ก
LLM์ ๋ํ ๋ณ๋ ํ์ธํ๋์ ์งํํ์ง ์์์ผ๋ฉฐ, NVIDIA RTX 2000 Ada 16GB, Intel Xeon w5-2445์ด ์ค์น๋ ์ํฌ์คํ
์ด์
ํ๊ฒฝ์์ 1,000๊ฐ์ ์ํ์ LLM ๊ธฐ๋ฐ์ผ๋ก ์์ฑํ๋๋ฐ 706์ด๊ฐ ์์๋์๋ค.
4.2 LLM ํฉ์ฑ ํธ๋ํฝ ๋ฐ์ดํฐ ๋ถํฌ ๋น๊ต
Fig. 1์ ์๋ณธ ๋ฐ์ดํฐ์
, WGAN-GP ํฉ์ฑ ๋ฐ์ดํฐ์
, LLM ํฉ์ฑ ๋ฐ์ดํฐ์
๊ฐ ์ ์ฌ๋ ๋น๊ต๋ฅผ ์ํ t-SNE ๋ถํฌ ๋ค์ด์ด๊ทธ๋จ์ด๋ค. LLM์ด ์์ฑํ ํฉ์ฑ
ํธ๋ํฝ์ ๊ธฐ์กด ์ฐ๊ตฌ์์ ์ฌ์ฉํ WGAN-GP ๋ชจ๋ธ๋ก ์์ฑํ ํธ๋ํฝ์ ๋๋นํ์ฌ ์๋ณธ ํธ๋ํฝ๊ณผ ์ข ๋ ์ ์ฌํ ํํ๋ฅผ ๋ํ๋ด๊ณ ์๋ค. ์ด๋ ๊ฐ ํผ์ฒ๋ค์
Jensen-Shannon Divergence (JSD)๋ฅผ ์ด์ฉํ Fig. 2.์ ๋ถํฌ ๋น๊ต์์๋ LLM์ผ๋ก ์์ฑํ ํธ๋ํฝ์ JSD ํ๊ท 0.2105๋ก WGAN-GP์ 0.6746 ๋ณด๋ค 68.8% ๋ฎ์ WGAN-GP๋ก ํฉ์ฑํ
๋ฐ์ดํฐ์ ๋๋นํ์ฌ ์๋ณธ๊ณผ ์ ์ฌํ ๋ถํฌ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
๊ทธ๋ฆผ 1. ํฉ์ฑ ํธ๋ํฝ ๋ถํฌ ๋น๊ต (t-SNE)
Fig. 1. Synthetic traffic distribution (t-SNE)
๊ทธ๋ฆผ 2. ํญ๋ชฉ ๋ณ ์ ์จ-์๋ ๋ฐ์ฐ ๋น๊ต
Fig. 2. Jensen-Shannon Divergence per Features
LLM์ด ์์ฑํ ํฉ์ฑ ํธ๋ํฝ์ด ์๋ณธ๊ณผ ๋ถํฌ๊ฐ ์ ์ฌํ ์ด์ ๋ ์๋ณธ ๋ฐ์ดํฐ ๊ฐ ํผ์ฒ์ ํ๊ท , ๋ถ์ฐ, ์ต๋๊ฐ, ์ต์๊ฐ์ ํ๋กฌํํธ์ ์
๋ ฅํ ๋ถ๋ถ์ด ๋ฐ์๋
๊ฒ์ผ๋ก ์์ธกํ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ก ๋ฏธ๋ฃจ์ด ๋ณด์, ํฅํ LLM์ ์ด์ฉํ ํธ๋ํฝ ํฉ์ฑ ์ฐ๊ตฌ๊ฐ ๋์ ์คํจ์ฑ์ ๋ณด์ฌ์ค ๊ฒ์ผ๋ก ์์ํ ์ ์๋ค.
4.3 LLM ํฉ์ฑ ํธ๋ํฝ ๋ฐ์ดํฐ ๋ถํฌ ๋น๊ต
์๊ฒฉ์ ์ ํต์ ์ ๋ถ๋ฅํ๋ ํ์ง ๋ชจ๋ธ์ Random Forest๋ฅผ ์ด์ฉํ์์ผ๋ฉฐ, 4.1์ฅ์์ ์์ฑํ 1,000๊ฐ์ ์ํ์ ํ๋ จ ๋ฐ์ดํฐ์
์ ๋ฐ์ํ์ ๋
ํ์ง ์ฑ๋ฅ์ ํ์ธํ์๋ค. 4.2 ๋ฐ์ดํฐ ๋ถํฌ์์ ์์ํ ์ ์๋ฏ์ด WGAN-GP๋ณด๋ค ๋์ ๋ถํฌ๋ฅผ ๊ฐ์ง LLM ๊ธฐ๋ฐ ํฉ์ฑ ๋ฐ์ดํฐ์
์ด ํ์ง ๋ชจ๋ธ์ Recall์
ํฐ ํญ์ผ๋ก ํฅ์์ํค๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค. Table 6์์ LLM ๋ชจ๋ธ๋ก ์์ฑํ ํฉ์ฑ ๋ฐ์ดํฐ 1,000๊ฐ๋ฅผ ์ถ๊ฐํ ์ํฉ์์ Recall 42.3%, F1โScore๊ฐ 21.4% ๊ฐ์ ๋๋ ๊ฒ์ ํ์ธํ ์
์์๋ค. ์ฐธ๊ณ ๋ก ๋ณธ ์คํ์ ์ฌ์ฉํ ๋ฐ์ดํฐ์
๊ณผ ํ์ง ๋ชจ๋ธ์ Github ๋ ํ์งํ ๋ฆฌ ํตํด ๊ณต๊ฐํ๊ณ ์๋ค[35].
ํ 6. ํฉ์ฑ ๋ฐ์ดํฐ ์ ์ฉ์ ๋ฐ๋ฅธ ํ์ง ์ฑ๋ฅ ๊ฐ์ ๋น๊ต
Table 6. Comparison of Detection Performance Improvement by Synthetic Data
|
Synthetic Data Generation Model
|
Precision
|
Recall
|
F1-Score
|
|
Original Dataset
|
100%
|
65.55%
|
79.18%
|
|
WGAN-GP
|
100%
|
71.26%
|
83.22%
|
|
LLM
|
100%
|
93.25%
|
96.14%
|
5. ๊ฒฐ ๋ก
5.1 ๊ธฐ๋ํจ๊ณผ
๋ณธ ๋
ผ๋ฌธ์ SSHยทRDP ๋ฑ๊ณผ ๊ฐ์ ์ํธํ๋ ์๊ฒฉ ์ ์ ์ ์์ ํจ๊ณผ์ ์ผ๋ก ํ์งํ๊ธฐ ์ํด AI ๊ธฐ๋ฐ ํ์ง ํ๋ซํผ์ ์ค๊ณ ๊ฐ์ด๋๋ผ์ธ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ๊ณ
์๋ค. ๋ฐ์ดํฐ ์์ง๋ถํฐ ์ ์ฒ๋ฆฌ, ํ์ง๋ชจ๋ธ ์ค๊ณ์ ์ด๋ฅด๊ธฐ ๊น์ง 3๋จ๊ณ ํ๋ก์ธ์ค๋ณ ํต์ฌ ๋ฌธ์ ์ ์ ๊ท๋ช
ํ๊ณ , 1์ธ๋ DPI์์ 4์ธ๋ LLM ๊ธฐ๋ฐ ์์ธก์ผ๋ก์
๊ธฐ์ ์งํ ๊ณผ์ ์ ๊ธฐ์กด ์ค์ฆ ์ฐ๊ตฌ์ ์ฐ๊ณํ์ฌ ์ค๋ช
ํ์๋ค.
4์ธ๋ ๊ธฐ์ ์ด ์ฑ์ ๋จ๊ณ์ ๋๋ฌํ ๊ฒฝ์ฐ, ๋ณด์ ๊ด์ ์๋ํ ์์ค์ด ํ๊ธฐ์ ์ผ๋ก ํฅ์๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค. ์์ฐ์ด ๊ธฐ๋ฐ ํ์ง ๊ท์น ์๋ ์์ฑ์ผ๋ก ๋ณด์ ์ ๋ฌธ์ธ๋ ฅ
์์กด๋๋ฅผ ๋ฎ์ถ๊ณ , ์ ๋ก๋ฐ์ด ๊ณต๊ฒฉ์ ๋ณ๋ ์ฌํ์ต ์์ด ์ ๋ก์ท ํ์ง ๋ฅ๋ ฅ์ผ๋ก ํ์งํ๊ฒ ๋์ด APT ๋ฑ ๊ณ ๋ํ๋ ์ํ์ ์ ์ ๋์์ด ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ์์ํ๋ค.
์ถ๊ฐ์ ์ผ๋ก LLM ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฉํ ๊ณต๊ฒฉ ์๋ ๋ถ์์ผ๋ก ๋์ ์ฐ์ ์์ ์๋ํ๋ฅผ ๊ตฌํํ ์ ์์ ๊ฒ์ผ๋ก ์์ํ๋ค. ์ด๋ฌํ ํ์ง ์ฑ๋ฅ์ ๊ฐ์ ์ ๋ณด์
๊ด์ ์ ํจ๋ฌ๋ค์์ ๊ธฐ์กด์ ๋ฐ์์ (Reactive) ๋ณด์ ๊ด์ ์์ ์์ธก์ (Predictive) ๋ณด์ ๊ด์ ๋ก ๋ณํ์์ผ ๊ฐ ๊ฒ์ด๋ค.
5.2 ํฅํ ์ฐ๊ตฌ๊ณํ
๊ธฐ์กด ์ฐ๊ตฌ์์๋ 2์ธ๋ ์ฐ๊ตฌ๋ ํฌํธ์ ์๊ด์์ด ๋ค์ค ๋ถ๋ฅ๋ก ์ฐํ ๊ณต๊ฒฉ ํ์ง์ ์คํจ์ฑ์ ์
์ฆํ์๊ณ [5], GAN ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก ๊ทน๋จ์ ๋ถ๊ท ํ ํ๊ฒฝ์์์ ํ์ง ์ฑ๋ฅ์ ํฅ์์ํค๋ ์ฐ๊ตฌ๋ฅผ ์ํํ์๋ค[12]. ํฅํ์๋ LLM ๊ธฐ๋ฐ 4์ธ๋ ๊ธฐ์ ์ด ์ด์ ํธ๋ํฝ ํ์ง์ ํต์ฌ์ ์ผ๋ก ์ถ์ผ๋ก ๋ถ์ํ ๊ฒ์ผ๋ก ์์ํ๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ผ๋ฐ ์์ฐ์ด์ ์์ดํ ์์น ์ํ์ค
์ค์ฌ์ ํธ๋ํฝ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๋๋ฉ์ธ ํนํ ํ ํฌ๋์ด์ ๋ฐ ์ต์ ์ ๋ฐ์ดํฐ ํฉ์ฑ์ ์ํ Structured to Text(S2T)์
๋ํ ์ฐ๊ตฌ๋ฅผ ์ถ๊ฐ๋ก ์งํํ ์์ ์ด๋ค.
References
Mandiant, cloud.google.com/blog/ko/topics/threat-intelligence/m-trends-2025, "M-Trends
2025," Google Cloud Blog, 2025.

Cisco Talos, 11 Nov. 2025. blog.talosintelligence.com/salt-typhoon-analysis/, "Seeing
Inside the Vortex: Detecting Living off the Land Techniques," Cisco Talos Blog, 2025.

Symantec, broadcom.com/support/security-center/protection-bulletin/symbiote-and-bpfdoor-linux-malware-variants-implement-new-ebpf-filters,
2025., "Symbiote and BPFdoor Linux Malware Variants Implement New eBPF Filters," Protection
Bulletin, Broadcom, 2025.

Yisroel Mirsky, "Kitsune: An Ensemble of Autoencoders for Online Network Intrusion
Detection," 2018.

Junwon Lee, Heejo Lee, "An SSH Predictive Model Using Machine Learning with Web Proxy
Session Logs," International Journal of Information Security, vol. 21, no. 2, pp.
311-322, 2021.

Muhammad Shafiq, "An Efficient Method to Detect Periodic Behavior in Botnet Traffic
by Analyzing Control Plane Traffic," Journal of Advanced Research, vol. 5, no. 4,
2014.

Wei Wang, "End-to-End Encrypted Traffic Classification with One-Dimensional Convolutional
Neural Networks," pp. 43-48, 2017.

Tal Shapira, Yuval Shavitt, "FlowPic: A Generic Representation for Encrypted Traffic
Classification and Applications Identification," IEEE Transactions on Network and
Service Management, 2021.

Gerard Draper-Gil, "Characterization of encrypted and vpn traffic using time-related,"
2016.

Aristide Tanyi-Jong Akem, Guillaume Fraysse, Marco Fiore, e2320, "Real Time Encrypted
Traffic Classification in Programmable Networks with P4 and Machine Learning," International
Journal of Network Management, vol. 35, no. 1, 2025.

Adrian Pekar, Richard Plny, Karel Hynek, arXiv:2601.04089, "Tutorial on Flow-Based
Network Traffic Classification Using Machine Learning," arXiv preprint, 2026.

Junwon Lee, Heejo Lee, "Improving SSH Detection Model Using IPA Time and WGAN-GP,"
Computers & Security, vol. 116, pp. 102672, 2022.

Scott M. Lundberg, Su-In Lee, "A Unified Approach to Interpreting Model Predictions,"
vol. 30, 2017.

X. Zhang, "Network Traffic Grant Classification Based on 1DCNN-TCN-GRU Hybrid Model,"
Applied Intelligence, 2024.

Wai Weng Lo, "XG-BoT: An Explainable Deep Graph Neural Network for Botnet Detection
and Forensics," Internet of Things, 2022.

Tanzeela Altaf, "GNN-Based Network Traffic Analysis for the Detection of Sequential
Attacks in IoT," Electronics, MDPI, vol. 13, no. 12, pp. 2274, 2024.

Chuampu Fu, Qi Li, Ke Xu, "Detecting Unknown Encrypted Malicious Traffic in Real Time
via Flow Interaction Graph Analysis," ISOC, San Diego, CA, 2023.

Sadaf Sattar, "Anomaly detection in encrypted network traffic using self-supervised
learning," Scientific Reports, vol. 15, no. 1, pp. 2658, 2025.

Przemyslaw Berezinski, "An Entropy-Based Network Anomaly Detection Method," Entropy,
vol. 17, no. 4, 2015.

Nikolaos Peppes, "Evaluating Synthetic Malicious Network Traffic Generated by GAN
and VAE Models: A Data Quality Perspective," Future Internet, vol. 17, no. 12, pp.
561, 2025.

Tongcan Lin, J. Wang, "RuleLLM: LLM-Driven Rule Generation for Anomaly Network Traffic
Identification," The Computer Journal, 2026.

Furqan Rustam, "Few-Shot Retrieval-Augmented LLMs for Anomaly Detection in Network
Traffic," Springer Nature Singapore, Singapore, 2025.

Il Hwan Ji, "Artificial Intelligence-Based Anomaly Detection Technology over Encrypted
Traffic: A Systematic Literature Review," Sensors, vol. 24, no. 3, pp. 898, 2024.

Dong Gong, "Memorizing Normality to Detect Anomaly: Memory-Augmented Deep Autoencoder
(MemAE)," 2019.

A. Pinto, "Enhancing Critical Infrastructure Security: Unsupervised Learning Approaches
for Anomaly Detection," International Journal of Computational Intelligence Systems,
vol. 17, pp. 236, 2024.

K. Yang, arXiv:2104.11146, "An Efficient One-Class SVM for Anomaly Detection in the
Internet of Things," arXiv, 2021.

P. Bountzis, "A Deep One-Class Classifier for Network Anomaly Detection Using Autoencoders
and One-Class Support Vector Machines," Frontiers in Computer Science, 2025.

K. E. Kampourakis, arXiv:2601.05022, "Knowledge-to-Data: LLM-Driven Synthesis of Structured
Network Traffic for Testbed-Free IDS Evaluation," arXiv, 2025.

Xinjie Lin, "ET-BERT: A Contextualized Datagram Representation with Pre-training Transformers
for Encrypted Traffic Classification," 2022.

T. Cui, arXiv:2504.04222, "TrafficLLM: Enhancing Large Language Models for Network
Traffic Analysis with Generic Traffic Representation," arXiv, 2025.

Y. Ginige, "TrafficLLM: LLMs for Improved Open-Set Encrypted Traffic Analysis," Computer
Networks, 2025.

Yongjun Huang, "MET-LLM: Enhancing Large Language Models for Malicious Encrypted Traffic
Detection," Expert Systems with Applications, vol. 303, pp. 130621, 2025.

W. Lian, "RuleMaster+: LLM-Based Automated Rule Generation Framework for Intrusion
Detection Systems," Chinese Journal of Electronics, vol. 34, no. 5, pp. 1402-1415,
2025.

Piyumi Bhagya Sudasinghe, "Lightweight LLMs for Network Attack Detection in IoT Networks,"
2025.

J. Lee, [Online]. Available: https://github.com/junimirang/Synthetic-Network-Traffic-using-LLM,
"Synthetic-Network-Traffic-using-LLM," GitHub, 2026.

์ ์์๊ฐ
He is an Assistant Professor in the Department of Computer Science, Engineering, and
Converged Technology at Duksung Womenโs University, Seoul, Korea. Prior to joining
academia, he spent 23 years as a Security Engineer at Samsung SDS, gaining extensive
industry expertise. His current research interests include AI-based anomaly detection
and cloud security.