로그 데이터 정규화를 머신러닝을 통해 할 수 없을까??
보안 장비 로그는 장비 제작사에서 지정한 형식을 가지고 있다. 따라서 원격관제와 같이 여러 고객사의 보안을 관리하기 위해서는 각 고객사의 장비와 장비의 로그를 정규화라는 작업을 통해 하나의 동일한 형태로 변경해야 한다. (추가로 장비의 펌웨어 버전에 따라 로그 형태가 다를 수 있다)
로그 형태는 기본적인 값인 아이피와 포트 정보를 포함하고 있으며 추가적으로 payload나 url, domain, time 등의 광범위한 내역을 담고 있다.
정규화는 이 중 꼭 필요한 값을 동일한 형태로 만들기 위해 일반적으로 정규식을 이용한다.
이때 크게 2가지 문제가 있다.
- 정규식을 작성 시 로그 형태 분석 실수로 처리가 제외되는 로그가 발생한다. (인적 실수)
- 장비의 펌웨어 업데이트 또는 교체로 로그 형태 변화로 인한 로그 유실이 발생한다.
이에 대한 해결을 지금까지는 사람이 모니터링하여 처리하였다.
유입되는 로그의 정규화 부분을 머신러닝으로 처리할 수 있다면 상당한 비용의 절감을 이룰 수 있다.