Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

  1. (Digital Solution Lab., KEPCO Research Institute, Korea.)



Managed Security Service, Feature Analysis, Dataset, IPS event, Precision Rate, AI

1. 서 론

디지털화가 가속되는 현대 사회에서 사이버 보안관제는 사이버공격을 방어하는 첫 번째 관문에서 공격을 신속하게 찾아내 주는 역할을 하므로 매우 중요하다. 현재, 사이버공격을 막기 위해 다양한 보안장비가 설치되어 있고, 실시간으로 공격을 차단하고 의심되는 공격을 관제사에게 보고하는 체제로 수행되고 있지만, 보고되는 이벤트의 양이 너무 방대해져서 제한된 인력으로 처리하는데에는 한계에 다다르고 있다. 사이버 보안관제에서의 핵심은 정확하고 빠른 감시이다. 따라서, 보안이벤트를 분석하여 공격 여부를 판단하는 정탐률 향상이 배우 중요하다. 공격 여부를 판단하기 위해 공격규칙의 상관관계를 이용하여 보안관제를 시행하고 있지만, 이러한 방법은 규칙에서 조금만 벗어나도 탐지해 내는 것이 불가능하다. 이를 위한 대책으로, 사이버 공격을 가능하면 모두 찾아내기 위해, 사이버 공격과 유사한 규칙을 갖는 패킷에 대하여서도 모두 알람을 생성하여 과탐과 오탐이 급격히 증가하는 이유가 되었다. 이에 빈도수 기반 분석 접근 방법과 같은 새로운 방법들이 제시되었는데, 입력되는 로그의 출발/목적지 IP 등을 카운트하여 시스템의 이상 탐지를 시도하는 방법이다. 이는 단독 기능으로는 한계가 있어서 보통 베이스라인 기반 분석에 활용되고 있고, 빈도수의 임계치를 어떻게 정하느냐에 따라 기능의 차이가 좌우된다. 또한, 베이스라인 기반 분석은 전문가들의 피드백을 이용하여, 데이터 집합의 정상범위를 정하고, 중간값, 평균값, 정규 분포, 표준편차 등 통계에 기반하여 분석하는 방법이다. 이러한 접근방법은 통계에 의존하기 때문에 과거 데이터로부터 현재 데이터의 관계를 알아내지 못하는 단점이 있고, 새로운 패턴이나 지능화된 공격에 대해서는 대처가 되지 않고 있다. 이를 극복하기 위해 통계적 방법과 연계하여, 현재 및 미래 데이터의 관계를 예측할 수 있는 머신러닝, 즉 AI 기반의 다양한 분석 방법이 도입되었다 (1). AI 기반의 사이버보안관제 연구에서는 여러 가지 특징과 공격패턴을 학습하여 기존의 공격규칙 기반의 방법에 비해 공격탐지에 대하여 좀더 정확한 결과를 도출하게 되었다. 그러나, AI 기반의 보안관제 연구에서 주로 사용되는 데이터셋은 KDD CUP99, CIC IDS 2017 등 실제 환경에서 수집하여 사용되는 로그가 아니라 임의로 환경을 설정하여 생성된 로그로 구성된 것으로, 실환경에서 수집되는 데이터와는 상이하다.

본 논문에서는 보안관제의 핵심인 정탐율 향상을 위해 어떤 보안이벤트가 인공지능학습에 유용한지, 기존 연구에 사용되었던 데이터셋과 실제 환경에서의 데이터셋의 차이점, 어떤 인공지능 알고리즘이 정탐율을 향상시키는데 유용한지에 대하여 다루고자 한다. 2장에서는 실제 네트워크환경 및 인터넷망에서의 주요 사이버공격의 분류, 실제 환경에서 수집한 보안이벤트 데이터셋과 연구용으로 사용되는 AI 학습용 데이터셋에 대하여 분석하였다. 특히, 보안이 매우 중요시되는 전력회사의 네트워크환경과 보안로그를 기반으로 설명하였다. 3장에서는 각 보안장비에서 생성되는 로그의 상관관계와 인공지능학습에 적합한 데이터셋 도출에 대하여 설명하였다. 4장에서는 정탐률 향상을 위한 최적 AI 알고리즘에 대하여 언급하였다.

2. 네트워크 및 보안 로그 분석

2.1 네트워크 환경 및 실제 보안로그

사이버 보안관제의 측면에서는 사용자 행위분석과 멀웨어 탐지 등의 위협을 탐지하는 기능, 네트워크 침입탐지, 어플리케이션 이용 공격, 특이사항 탐지를 포함하는 보안정보 및 이벤트 관리로 나뉠수 있다. 이중에서 인증우회, 인젝션, 디도스, 봇넷 공격 등에 대한 보안이벤트가 대량으로 발생하여 이를 처리하느라 다른 보안관제 업무를 처리하지 못하고, 또한, 보안이벤트 대부분 오탐으로 판명되어 많은 보안관제사의 리소스가 낭비되는 실정에 있다. 즉, 이벤트 증가로 인한 오탐과 미처리 이벤트 및 경보로 인한 보안관제 업무가 증가하고 있다. 보안관제시스템의 핵심업무는 모니터링이지만 현실적으로 이 모니터링을 방해하는 요인은 보안장비로부터 발생하는 대량의 이벤트 로그이다. 로그가 많이 발생하는 이유는 실제 공격이 많아서가 아니라, 부정확한 룰셋에 의한 오탐이 많아서 이다 (2).

현재 사용할 수 있는 보안로그는 방화벽과 IPS, DDoS, Anti- Spam, 악성코드 방지시스템, 접근제어시스템 등 에서 생성되는 로그로써, 장비에 탐지룰이 탑재되어있지만, 인공지능 학습을 위해 탐지룰 정보를 적용할 수 없고, 보안로그를 생성하였지만, 정확한 이유를 알 수 없는 로그가 존재하여서, 룰셋과 전체 서비스 등의 연관관계를 파악해야 한다.

아래 그림 1은 전력회사의 일반적인 네트워크 구조이다. 대부분이 인터넷망, 업무망, FA망, DAS, SCADA 망등이 분리되어 운영중에 있고, 대부분의 사이버공격은 인터넷망에서 이루어지고 있다.

인터넷망에서는 1일 평균 약 12,000건 정도의 보안이벤트가 발생하고 있고, 이중 10,000건은 IPS 등에서 자동 차단되며, 약 2,000건 이 보안관제사가 상세 분석해야하는 대상으로 표출되고 있다. 대부분 Payload Header/Body에 공격 인자를 포함하여 불법수정, 위변조, 시간 변경, 가장, 재연, 부인 등의 공격이다. 그리고 전송되는 데이터에 멀웨어, 바이러스, 트로이 목마, 스파이웨어, 랜섬웨어 등을 포함하여 공격을 시도하는 것을 알 수 있었다. 또한, 데이터의 무결성을 위협하기 위해 Spoofing, 악성 Bot, 버퍼 오버플로우 공격 등도 있다. 인터넷망은 네트워크, 서버, 보안장비, PC, DBMS 등의 기술적 취약점과 웹 및 이메일 공격에 대한 기술적 취약점을 갖고 있음을 알 수 있다. 표 1에 인터넷망에 대한 업무내역과 주요 데이터경로를 도시하였다.

그림. 1. 전력회사의 일반적인 네트워크 연결도

Fig. 1. General network connection diagram of utility company

../../Resources/kiee/KIEE.2020.69.7.1046/fig1.png

한전 인터넷망으로 유입되는 공격에 대하여, KISA 에서 제공하는 Web 취약점 정보를 이용하여 공격유형을 분류하였고, KISA 및 OWASP Top 10 유형과 현재 한전 관제 항목의 연관 관계를 분석하여 5개 공격 유형으로 매핑을 하였으며 그림 2와 같이 관계도를 도출하였다. 다양한 공격유형이 있지만, 결국에는 SQL Injection, 크로스사이트 스크립팅, 파일 다운로드/업로드, 비인가접근 의 5가지 공격유형으로 분류할 수 있다.

표 1. 전력회사의 인터넷망 업무내역

Table 1. Tasks in the Internet network for utility company

업무 역할

이용자

데이터 경로

홈페이지

외부인

직원

회사 외부단말 ↔ 홈페이지

내부 인터넷PC ↔ 홈페이지

인터넷메일

직원

회사 내・외부 ↔ 인터넷PC/Mobile단말

인터넷PC

직원

내부 인터넷PC ↔ 인터넷 ISP

공개망

외부인

직원

회사 외부단말 ↔ 전자입찰/ 사이버지점・교육, 내부 OA망PC ↔ 전자입찰/사이버지점・교육

그림. 2. 공격 유형 정의

Fig. 2. Definition of Cyber Attack type

../../Resources/kiee/KIEE.2020.69.7.1046/fig2.png

현재 보안관제시스템은 IPS에서 발생하는 보안이벤트에 의존하여 관제를 진행중에 있다. IPS에서 발생하는 이벤트 중 하루 2,000여건의 허용(알람) 이벤트는 대부분 오탐 및 무의미 데이터이며, 이 중 실제 공격이벤트는 평균 약15건으로 낮은 비율(0.75%)이지만 허용이벤트 중에 실제 공격이 포함되어 있으면 치명적이므로 필히 분석하여 대응하여야 한다. 그러므로 허용이벤트 속에 포함된 실제 공격을 찾아내기 위해 관제사가 2,000여건(1일) 을 일일이 다 분석해야만 하는 상황이다.

실제 전력회사의 보안로그 중 인터넷망에서 발생하는 이벤트를 수집하여 인공지능학습에 사용하였으며, 이는 4장에서 다루기로 한다. 네트워크는 약 200개의 서버, 13대의 IPS, 5개의 공격, 수량을 알 수 없는 클라이언트 PC로 구성된다. 수집기간은 2020년 2월 6일부터 3월 11일 까지 총 35일이며, IPS에서 수집한 로그는 394,369건으로 724종의 탐지명을 포함하고 있다. 이중 약 40%에 해당하는 로그만 학습 가능하고 나머지 로그는 페이로드가 없거나, 단순 Test 패킷등으로 무의미 데이터로 사용할 수 없는 것으로 판단되었다. 특히, 보안이벤트 중 60%를 차지하는 무의미데이터는 페이로드가 눈으로 식별할 수 없는 형태로 되어있어서, 보안관제사가 처리할 수 없는 형태의 데이터이지만, 이벤트를 클릭해서 보기 전에는 알 수 없는 형태로 되어있다. 따라서 보안관제사는 이러한 무의미데이터를 일일이 열어보고 제외하는 반복적이고 시간소비적인 일을 어쩔 수 없이 진행해 오고 있었다. 주요 이벤트 유형과 예시 내용은 그림 3과 같다.

그림. 3. 주요 보안이벤트 유형

Fig. 3. Major security event types

../../Resources/kiee/KIEE.2020.69.7.1046/fig3.png

IPS에서 생성되는 보안이벤트는 Defense 와 Alarm 으로 구분되며, Defense의 경우는 차단 룰셋과 정확히 일치하여 해당 패킷을 차단한 후 통보하는 경우이고, Alarm의 경우에는 룰셋과 일치하지는 않지만 유사한 경우로써, 보안관제사의 분석이 필요한 이벤트로 분류된다.

보안관제사가 분석해야 하는 Alarm 이벤트를 5가지 공격유형으로 분리하고, 면밀히 분석한 결과, 35일 동안 수집한 총 2,451개 중 1,942개 가 공격패킷이 아닌 정상패킷으로 분류되었고, 이는 전체 이벤트의 79.23% 를 IPS가 잘못 판단하여 이벤트로 전송하였다는 결과를 도출할 수 있었다. 결국 509개(35일, 평균 14.5개/1일)의 공격만이 네트워크에 존재하였다는 것을 알 수 있다. 이러한 현상은 어느 특정 IPS 장비의 문제가 아니라, 이미 알려진 룰셋에 의존하여 보안이벤트를 생성하는 모든 IPS 장비에 해당하는 문제이다. 이를 표 2에 나타내었다.

표 2. 실제 네트워크에서의 IPS 오탐율

Table 2. False Positive Rate in real network

공격명

이벤트수

오탐수

오탐률

SQL 인젝션

152

131

86.18

Cross Site Scripting

375

0

0

File Upload

58

36

62.07

File Download

504

475

94.25

비인가접근

1362

1300

95.45

2,451

1,942

79.23

2.2 인공지능학습을 위한 데이터셋

KDD CUP99, CICIDS2018 등 사이버보안 테스트를 위한 유명한 데이터셋은 대부분 임의로 만들어진 로그로써, 실제 이벤트로그와는 많은 부분 다르다. 실제 데이터에는 비정상 데이터를 많이 수집할 수 없어서 이를 이용한 인공지능학습은 비지도학습을 제외하고는 사실상 불가능하고, 실계통에서의 문제 해결에는 전혀 도움이 되지 않을 수 있다. 사이버 보안 관련하여 다양한 데이터셋이 제공되고 있지만, 실환경과 유사한 완벽한 데이터셋은 아직 나오지 않았다.

KDD-CUP99는 DARPA에서 네트워크 이상탐지 또는 공격판별 테스트를 위해 만든 데이터셋으로써, 지속시간, 프로토콜 종류 등 41개의 속성과 공격여부를 라벨링한 정보까지 총 42개의 속성을 가지고 있다 (3). CIC-IDS-2018 은 캐나다 사이버보안연구소에서 Brute force, Heartbleed, Botnet, DDos 등 6가지 공격시나리오를 생성하여 수집한 데이터셋으로써 80개의 속성을 가지고 있다 (4). HTTP CSIC 2010은 스페인의 국립연구소에서 웹공격 방어시스템의 테스트 용도로 생성한 데이터셋으로서 18개의 속성을 가지고 있다 (5). CSIC 2010 은 HTTP 페이로드의 위변조 등 일부분을 피쳐로 가지고 있는 것이 특징이다. KDD CUP 99 와 CIS IDS 2018 데이터셋은 이상탐지학습으로 사용가능하며, CSIC 2010이 정오탐 탐지를 위해 사용가능함을 알 수 있다.

다음장에서는 실제 네트워크에서 수집가능한 피처들을 설명하고, 또한 수집된 피처와 CSIC 2010 데이터셋을 이용하여 인공지능학습 수행후, 비교분석해 보도록 하겠다.

3. 보안장비별 이벤트 상관관계 및 Feature 분석

보안장비별 이벤트 상관관계를 분석하기 위해, 현재 수집 가능한 방화벽, IPS, 네트워크 트래픽 로그에 대하여 각각의 데이터에 대한 상관관계를 도출해 보았다. 각 데이터별 상관관계를 바탕으로 Feature를 선별하여 특징점을 추출하고, 산점도 분포를 통해 데이터 군집정도에 대한 데이터 분석을 진행하였다.

3.1 네트워크 트래픽 로그

수집한 데이터 중 인공지능 학습에 사용할 수 있는 피처는 출발지IP, 출발지 국가, 목적지IP, 목적지포트, 프로토콜, in-out, client, URL레퍼러, url, query, method, http_status 필드가 있다. 트래픽 로그에서 의미있는 피처는 표 3과 같다. 사용할 수 없는 피처들 대부분은 내부정책이나 변화가 없는 의미 없는 값으로 사용되는 값들이다.

트래픽 로그 분석결과 목적지 IP와 목적지 Port간의 산점도가 세로로 일직선으로 표시되며, 데이터 간 상관관계가 없음을 확인하였다. Method와 http_status간의 산점도는 중복된 데이터가 많았으며, 데이터 간 상관관계가 없었으며, 출발지IP와 Client 간의 산점도는 특정 구간에서의 기이한 분포를 보여 특정 영역에서만 데이터가 발생, 데이터 상관관계에 대한 특징을 확인하지 못하였다.

표 3. 네크워크 트래픽 로그에서 의미 있는 피쳐

Table 3. The features which can use in traffic log for AI training

피처명

설 명

출발지IP

패킷의 출발지 IP

출발지 국가

패킷의 출발지 국가 명

목적지IP

패킷의 목적지 IP

목적지포트

패킷의 목적지 PORT

프로토콜

80(HTTP), 443(SSH) 프로토콜 종류

in_out

in bound, out bound 구분

client

user-agent를 담은 부분

URL레퍼러

서비스를 요청하기 이전의 유입경로

url

서비스를 요청하는 값

query

실제 요청을 하는 파라미터값

method

요청 형식

http_status

요청에 대한 응답값

그림. 4. 네트워크 트래픽 로그의 Feature별 상관관계

Fig. 4. Correlation of each features in traffic log

../../Resources/kiee/KIEE.2020.69.7.1046/fig4.png

네트워크 트래픽 로그는 Feature 간의 상관관계가 비교적 적으며, 원활한 학습이 제대로 되지 않아 학습 후 검증 데이터에 대한 정확도가 평균 29% 미만의 결과를 보여 사용하기에 어려움이 있다. 또한, 네트워크 트래픽 로그는 IPS에서 이미 차단된 데이터는 가지고 있지 않으므로, 트래픽 로그를 이용하여 공격을 찾아내는 것은 시나리오를 가정하지 않고서는 네트워크 트래픽 로그를 이용하여 공격 패킷을 찾아내는 것은 불가능하다.

3.2 Firewall 이벤트 로그

Firewall 장비로부터 수집한 데이터 중 인공지능 학습에 사용할 수 있는 피처는 Action, 출발지IP, 목적지IP, 목적지포트, 출발지 국가, 프로토콜, in_out, duration, sent_pkt 필드가 있다. Firewall 로그에서 의미있는 피처는 표 4와 같다.

Firewall 로그의 목적지 IP와 목적지 포트 간의 산점도가 가로로 발생되며, 데이터 간 상관관계가 없음을 그림 5의 산점도를 통해 확인할 수 있었다. 목적지IP와 Duration의 산점도가 일정부분 군집화 됨을 보였으나 어느 구간에선 분산되어지는 것을 볼 수 있었으며, 이러한 의미는 데이터 간 상관관계가 없음을 나타낸다. Send_pkt과 Duration의 산점도는 매우 불규칙적이어서 데이터 간 상관관계를 확인하기 어려웠다. Firewall 로그는 Feature 간의 상관관계가 적으며, 원활한 학습이 제대로 되지 않았으며, 또한 학습 후 검증 데이터에 대한 정확도도 평균 31% 미만으로 학습 및 탐지모델 데이터로 적합하지 않았다.

표 4. Firewall 로그에서 의미 있는 피쳐

Table 4. The features which can use in firewall log for AI training

피처명

설 명

Action

allow, expire, deny 등 패킷 처리 상태 값

출발지IP

패킷의 출발지 IP

목적지IP

패킷의 목적지 IP

목적지포트

패킷의 목적지 PORT

출발지 국가

패킷의 출발지 국가 명

프로토콜

tcp/icmp/udp 등 패킷전송에 사용된 프로토콜

in_out

in bound, out bound 구분

duration

연결 지속 시간

sent_pkt

보내진 패킷의 크기

그림. 5. Firewall 로그의 Feature별 상관관계 및 분석

Fig. 5. Correlation of each features in firewall log

../../Resources/kiee/KIEE.2020.69.7.1046/fig5.png

3.3 IPS 이벤트 로그

IPS 장비로부터 수집한 데이터 중 인공지능 학습에 사용할 수 있는 피처는 Action, 출발지IP, 목적지IP, 목적지포트, 공격명, risk, 출발지 국가, 프로토콜, in_out 필드가 있다. IPS 장비에서 발생되고 AI 학습에 사용가능한 피처는 표 5와 같다.

표 5. IPS 로그에서 의미 있는 피쳐

Table 5. The features which can use in IPS log for AI training

피처명

설명

Action

alarm, defense 등 패킷 처리 상태 값

출발지IP

패킷의 출발지 IP

목적지IP

패킷의 목적지 IP

목적지포트

패킷의 목적지 PORT

공격명

탐지룰셋 명

risk

위험도

출발지 국가

패킷의 출발지 국가 명

프로토콜

tcp/icmp/udp 등 패킷전송에 사용된 프로토콜

in_out

in bound, out bound 구분

페이로드

이벤트를 발생시킨 원인이 되는 데이터

수집된 IPS 이벤트 로그를 이용하여 상관관계분석을 시행하였지만, 목적지 IP와 목적지 Port간의 산점도가 세로로 일직선으로 표시되며, 데이터 간 상관관계가 없음을 확인했다. 프로토콜과 In_out 간의 산점도가 가로로 일정 부분 결측치가 발생되며, 데이터 간 상관관계가 없었으며, Risk와 In_out 간의 상관관계는 중복이 많아 특정 부분에서만 발생되며, 데이터 간 상관 관계가 없어 비지도학습으로 사용하기 어려우며, IPS 이벤트로그는 Feature 간의 상관관계가 없었기 때문에, 이벤트를 발생시킨 원인이 되는 데이터인 페이로드 부분을 이용하여 가능성을 실험한 결과 약 80%이상 정확도를 보였고, 검증 데이터에 대한 정확도가 평균 71% 으로 학습 및 탐지모델로 어느 정도의 가능성을 확인하였다.

우선적으로 각 로그에 대하여 비지도학습(데이터군집화)을 수행하여 가능성을 확인하였지만, 데이터의 군집이 어려운 것을 확인하였고, 지도학습을 하기 위해 데이터에 라벨링을 추가하여 정오탐 모델 작성 및 검증을 시도해 보았다. 트래픽로그는 정오탐라벨링이 불가능하여 Firewall 로그와 IPS 로그를 대상으로 수행하였다.

그림. 6. IPS 이벤트 로그 Feature별 상관관계 및 분석

Fig. 6. Correlation of each features in IPS log

../../Resources/kiee/KIEE.2020.69.7.1046/fig6.png

3.4 비교분석

침입여부에 대한 정보(Label)가 있어야 이를 학습하고, 신규 데이터 대상으로 자동화된 결과를 산출하는 것이므로, 정상적인 트래픽 로그는 학습에 사용하기 어렵다. 즉 라벨없는 학습(비지도학습 기반)이 가능하지만 정확도가 낮다. Firewall은 네트워크 가장 앞단에서 침입데이터를 차단(Deny)하기 때문에, 이 정보가 트래픽 로그 및 IPS에서는 존재하지 않아 정확한 분석에는 한계가 존재한다. 정확한 통합분석을 위해서는 별도의 데이터 Cleaning 작업이 필요하고, 트래픽 로그, Firewall, IPS에서의 수집 정보는 본질적으로 전혀 다른 것이 아니므로, 통합 분석의 효과가 작업 소요 대비 크지 않다. 대부분 IP, Port 등의 기본정보에서 크게 벗어나지 않으므로, 지능적인 학습이 아니라 단순히 차단해야 할 IP/Port 학습하는 역할에 한정될 수 있다. IPS 는 IP, Port 등의 기본정보 뿐 아니라, 실제 침입정보가 담긴 페이로드를 포함하고 있어서, 이를 AI 학습에 활용하면 효과적인 분석이 가능하다. 위 제반의 특징을 고려할 때, 페이로드를 포함한 IPS 이벤트를 대상으로 AI 학습을 하는 것이 가장 적절하다는 결론을 얻을 수 있었다.

기존 연구에서는 Support Vector Machine, Naive Bayes, Random Forest, Decision Tree 또는 몇가지 알고리즘을 같이 사용하는 Ensemble 등의 머신러닝계열 알고리즘이 많이 사용되었다. 이중 몇 개의 알고리즘을 적용해 본 결과 아래표와 같은 결과를 도출하였다.

표의 마지막은 IPS 로그에 Payload 영역을 추가하여 정오탐 라벨링을 진행한뒤 학습한 결과이며, 다음장에서는 페이로드 기반의 IPS 로그를 이용한 AI 정오탐 탐지모델 개발에 대하여 다루기로 한다.

표 6. 로그별/알고리즘별 정확도

Table 6. Accuracy of AI algorithm by each log

보안장비

알고리즘

방화벽

IPS

Support Vector Machine

54.41%

75.22%

Gaussian Mixture Model

59.78%

73.24%

K-means

60.61%

79.87%

KNN

81.84%

80.98%

CNN

N/A

91.78%

(페이로드)

4. 정탐률 향상을 위한 AI 알고리즘 적용

4.1 학습데이터 추출

입력데이터로 사용할 데이터는 수치 형태이다. 이렇게 변환하기 위해 Word2Vec로 사전학습하기 전에 문장에서 단어를 추출한다. Tokenizer는 특수문자(`!@#$%^&*()-= _+\|{}[];':",./ <>?~)와 중첩 Space를 기준으로 문자와 특수문자를 분리하고 옵션에 따라 입력 데이터에 특수문자를 단어와 같이 포함하기도 한다.

그림. 7. 전처리를 이용한 정오탐 탐지 과정

Fig. 7. Process of detecting false positives using pre-processing

../../Resources/kiee/KIEE.2020.69.7.1046/fig7.png

4.2 정오탐 학습모델 개발

지도학습에 사용되는 데이터는 많은 유형과 데이터가 확보 될수록 생성되는 모델의 정확도의 편차가 줄어들어 안정적인 모델생성에 도움이 된다. 실제 모델을 생성하여 모델을 운영하더라도 정확도가 낮아질 수 있으므로 모델의 정확도를 유지하기 위해서는 라벨링된 데이터를 지속적으로 확보하여 재학습하는 과정이 필요하다. 전처리 기능 개발에서 학습데이터의 식별작업과 실제 보안이벤트 로그 데이터가 유사한 데이터의 집중이 되는 형태가 발생한다고 판단하여 해당 기능을 개발하였고 데이터 셔플에 의한 기계학습 모델 평가에 영향도가 미치는지 확인하는 실험을 진행하였다. 기존 데이터와 셔플한 데이터를 비교하여 실험한 결과, 셔플하지 않은 데이터보다 셔플을 수행한 데이터의 정확도가 평균 약 12%의 정확도가 향상됨을 확인하였다.

앞 절에서 설명한 것처럼, IPS 에서 발생하는 보안이벤트 로그에서 payload 필드의 데이터는 http 통신을 하는 통신 데이터로 URL 형태 구조에서 Percent-Encoding 형식으로 URL 인코딩된 문자들이 있다. URI에 문자를 표현하는 방식으로 <%xx>의 형태를 가진다. 문자 집합(character set)으로 표현되는 문자를 16진수로 표현하고 앞에 %를 붙인다. 공격이 가능한 문장이 URL 인코딩되어 숨겨지는 경우가 있기 때문에 페이로드를 디코딩할 필요가 있다. 전처리 기능에서 개발된 코드를 적용하여 모델을 생성하였고 URL 중첩 Encoding 처리 적용 여부를 판단하였다. 전처리 기능에서 Tokenize 하기 전에 payload를 URL Decoding 1회 이상 하는 코드를 작성해서 적용하였다.

4.3 하이퍼 파라미터 튜닝

학습모델에 대한 좋은 결과를 얻고자 하이퍼 파라미터 튜닝을 통해 반복적인 실험을 시행하였다. 최적의 값을 찾고자 학습률과 반복횟수 등 설정값을 다양하게 변경하여 최적값을 찾았다. 모델 강화를 위해 특징을 추출하는 전처리 기법 고도화로 CNN의 하이퍼 파라미터는 Kernel Size를 8 → 2로, Pooling 방식은 MaxPooling → AveragePooling으로, Dense Layer의 입력값은 256 → 512로 튜닝하여 최종 하이퍼 파라미터값을 설정하였다. 최종모델 검증에 적용되는 모델을 생성하기까지 설정값을 변경하면서 하이퍼 파라미터 튜닝을 계속 수행하였다.

데이터 확보, 데이터 셔플, URL Decoding 처리, Over-Sampling, Tokenizer, 특수문자 Binary 변환으로 데이터를 전처리하고 네트워크 Convolution과 Pooling을 3계층, Dense Layer 3계층 구조와 네트워크 Convolution과 Pooling을 4계층으로, Dense Layer 4계층 구조를 변경한 공격 유형별 2개 모델을 생성하였다. 또한, 특수단어를 추출하여 유형을 추가 처리하는 전처리 방법을 사용하고 Network를 기존 3계층으로 실험하였을 때 평균 91.4%의 검증데이터에 대한 모델 평가결과를 확인하였다. 또한, Network를 기존 3계층에서 4계층으로 변경하여 실험하였을 때 평균 92.8%의 검증데이터에 대한 모델 평가결과를 확인하였다.

특수단어 유형추가와 기계학습 알고리즘 튜닝을 통해 Network를 4계층으로 생성된 모델 생성과정으로 정오탐 학습모델을 최종적으로 결정하였고 사용된 파라미터는 다음과 같다. 필터사이즈 : 2, 풀사이즈 : 2, 풀링 함수 : Max1D, 드롭아웃 : 0.5, 초기 가중치 1.0, 최적화 함수 : Adadelta, 활성화함수 : Tanh, 필터개수 : 64, 학습률 : 0.0005, MaxLength : 500, 학습횟수 : 1000.

4.4 인공지능학습 및 결과분석

실제 네트워크에서 수집한 데이터셋은 총 151,045 건이며, 5가지 공격유형으로 분류하여 데이터를 정제하였다. 학습의 정확도를 높이기 위해 IPS에서 Defense로 분류한 이벤트도 학습데이터로 사용하게 되었고, Defense 이벤트는 총 148,594 건이며, 이 중 오탐건수는 3,999건으로 오탐률이 약 2% 정도로 Alarm 이벤트에 비해 현저히 적은데, 이는 룰셋과 정확히 일치하는 것만 차단하기 때문이다. 따라서, 정탐학습건수는 145,104, 오탐학습건수는 5,941이다.

Cross Site Scripting 의 경우는 실제 데이터에서 오탐이 거의 없기 때문에 좋은 결과를 얻을 수 있었다.

표 7. 실환경 데이터를 이용한 학습결과

Table 7. Results with dataset in real network

공격명

Accuracy

Recall

Precision

SQL Injection

90%

75%

89%

XSS

97%

100%

100%

FileUpload

91%

85%

78%

FileDownload

97%

84%

91%

비인가 접근

98%

89%

92%

CSIC 2010 데이터셋을 이용한 학습결과는 아래 표 8과 같다. CSIC 2010 데이터셋은 공격유형이 따로 분리되어있지 않고, 모두 하나의 셋으로 되어있어서, 공격유형별로 분류하여 각각에 대한 학습결과를 도시하였다. 학습을 위한 전체 데이터는 223,585 건이며 이중 119,585건이 정탐, 104,000건이 오탐으로 분류되어 학습되었다.

표 8. CSIC 2010 데이터셋을 이용한 학습결과

Table 8. Results with CSIC 2010

공격명

Accuracy

Recall

Precision

SQL Injection

54%

59%

89%

XSS

77%

67%

72%

FileUpload

61%

75%

68%

FileDownload

67%

64%

61%

비인가 접근

79%

79%

72%

앞에서 적용한 똑같은 알고리즘으로 CSIC 2010 데이터셋을 적용하였지만 상대적으로 저조한 결과를 얻게 되었는데, 실제환경에 인공지능을 적용하기 위해서는 각각의 환경에 적합한 데이터셋을 직접 선정 및 정제하여 사용해야 한다는 결론을 얻었다.

5. Conclusion

본 논문에서는 전력회사의 네트워크 구성 현황과 인공지능학습을 위해 방화벽, IPS, 정상트래픽 로그 등에 대한 특성 및 사용가능여부를 분석하였고, 실환경에서의 보안관제시스템에서 수집가능한 데이터셋과 AI학습을 하기 위해 임의로 생성된 보안관제 데이터셋의 구성과 차이점을 설명하였으며, 각각의 데이터셋을 이용한 실제 알고리즘 적용시 검증 효과를 분석하였다. 또한, IPS 이벤트 데이터에 페이로드값을 추가한 데이터를 이용한 정오탐 모델 생성에 대한 내용을 다루었다. 향후에는 정오탐모델의 정확도 유지방안, 신규 사이버공격 탐지 방안에 대한 연구를 진행할 예정이다. 또한, 학습비율이 비대칭되어서, 좋은 결과를 도출할 수 는 없겠지만, 좀더 많은 데이터를 수집하고, 오버샘플링 등의 기법을 도입하여 모델을 업데이트할 예정이다.

탐지모델이 아무리 정확하다고 해도, 지능화되고 시시각각 변하고 있는 사이버공격에 대응하기 위해서는 신규 공격유형에 따라 탐지모델의 업데이트도 매우 중요하다. 이에 대응하기 위해, 탐지 결과에 대한 후처리 프로세스를 적용하여 미탐 이벤트를 분류하고 재학습을 통한 최적화 및 고도화를 진행할 예정이다. 데이터의 건수가 많아 보안관제사가 모두 검사하기에는 무리가 있으므로 사람이 봐야할 영역을 선별하여 선별 데이터의 건수를 줄여주는 것이 향후 계획이며, 어떠한 영역을 대응할 것이냐에 대한 기준을 선별하고 검증하는 것이 가장 중요하다. 이러한 선별 및 검증 결과는 의사결정을 위하여 관제팀에 전달하여 신규 공격유형에 따른 모델 정확도를 향상시킬 뿐만 아니라 주기적인 재학습을 통한 모델 최적화를 진행할 예정이다.

References

1 
Liu Qiang, March 2018, A Survey on Security Threats and Defensive Techniques of Machine Learning: A Data Drive View, IEEE Access, pp. 12103-12117DOI
2 
Myonghoon Kang, 2013, Completion of IDS and security moni- toring through Big Data analysis, WOWbooks, pp. 83-88Google Search
3 
Tavallaee Mahbod, July 2009, A Detailed Analysis of the KDD CUP 99 Data Set, Proceedings of the 2009 IEEE Sym- posium on Computational Intelligence in Security and Defense Applications, pp. 1-6DOI
4 
http://unb.ca/cic/datasets/ids-2018.thmlGoogle Search
5 
http://impactcybertrust.org/dataset_view?idDataset=940Google Search

저자소개

최승환(Seunghwan Choi)
../../Resources/kiee/KIEE.2020.69.7.1046/au1.png

He received his Ph.D. from Myongji University.

He has worked in Korea Electric Power Re- search Institute (KEPRI) as a researcher for 30 years.

He is presently a Research Director of Digital Solution Laboratory.

His research interests include Energy Software Platform

장민해(Minhae Jang)
../../Resources/kiee/KIEE.2020.69.7.1046/au2.png

She received a M.S. Degree from Myongji University.

She has been a researcher at the Korea Electric Power Research Institute (KEPRI) since 2019.

She is currently a researcher at the Digital Solution Laboratory.

Her field of interest is research on power ICT convergence technology based on AI.

김명수(Myongsoo Kim)
../../Resources/kiee/KIEE.2020.69.7.1046/au3.png

He received Ph.D. degree in Computer Science and Engineering at Pennsylvania State Uni- versity, University Park, USA.

Since 1996, he has been a researcher of the Korea Electric Power Corporation.

His special fields of interest are utility automation and communication in Smart Grid including utility protocol and se- curity.