• Home
  • About
    • lahuman photo

      lahuman

      열심히 사는 아저씨

    • Learn More
    • Facebook
    • LinkedIn
    • Github
  • Posts
    • All Posts
    • All Tags
  • Projects

출근 하면서 생각난 아이디어

20 Sep 2018

Reading time ~1 minute

로그 데이터 정규화를 머신러닝을 통해 할 수 없을까??

보안 장비 로그는 장비 제작사에서 지정한 형식을 가지고 있다. 따라서 원격관제와 같이 여러 고객사의 보안을 관리하기 위해서는 각 고객사의 장비와 장비의 로그를 정규화라는 작업을 통해 하나의 동일한 형태로 변경해야 한다. (추가로 장비의 펌웨어 버전에 따라 로그 형태가 다를 수 있다)

로그 형태는 기본적인 값인 아이피와 포트 정보를 포함하고 있으며 추가적으로 payload나 url, domain, time 등의 광범위한 내역을 담고 있다.

정규화는 이 중 꼭 필요한 값을 동일한 형태로 만들기 위해 일반적으로 정규식을 이용한다.

이때 크게 2가지 문제가 있다.

  1. 정규식을 작성 시 로그 형태 분석 실수로 처리가 제외되는 로그가 발생한다. (인적 실수)
  2. 장비의 펌웨어 업데이트 또는 교체로 로그 형태 변화로 인한 로그 유실이 발생한다.

이에 대한 해결을 지금까지는 사람이 모니터링하여 처리하였다.

유입되는 로그의 정규화 부분을 머신러닝으로 처리할 수 있다면 상당한 비용의 절감을 이룰 수 있다.

뻘글

정규식 짜다가



단상 Share Tweet +1