본문 바로가기
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

비정형데이터 암호화(1) – 비정형데이터가 무엇일까?

 

비정형데이터(Unstructured Data)란 일정한 규격이나 형태를 지닌 숫자데이터(Numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다. 비정형 데이터의 사례로는 책, 잡지, 문서의료 기록, 음성 정보, 영상 정보와 같은 전통적인 데이터 이외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있다.  가장 대표적인 비정형 데이터로는 문서가 있다. 문서에는 문자가 가장 많은 비중을 차지하고 있지만 숫자와 도표, 그림도 포함하고 있다. 이러한 문서 정보는 정보의 관점에서 보면 유형이 불규칙하고 의미를 파악하기 모호해서 기존의 컴퓨터 처리 방식을 적용하기 어렵다. 기존의 컴퓨터 시스템은 연산과 처리 절차가 숫자 데이터 중심으로 설계되어 있기 때문에 이름이나 성별과 같은 문자 변수는 숫자로 변환해 처리하는 방법을 주로 사용했다. 그러나 이런 방법은 트위터나 블로그처럼 모바일과 온라인에서 생성되는 대규모의 비정형 데이터에 적용하는 것이 불가능하다. 비정형 데이터는 불규칙 정도에 따라 반정형 데이터(semi-structured data)로 구분하기도 한다.  [1]

 

네이버 지식백과의 사전적인 의미로 먼저 올려봤습니다. 이와 대변되는 말로 정형데이터가 있는데 이것은 저 위의 정반대되는 개념으로 형식이 정해져 있는 데이터를 말합니다. 

가장 의미적으로 가까운 것이 데이터베이스에 올려서 사용하는 데이터 모델이 있을 것이고, 데이터의 의미(속성)을 부여해줄 수 있는 XML이나 JSON 등의 Text 포맷도 일종의 정형데이터라고 할 수 있습니다. 

 

C:\Users\HP\AppData\Local\Temp\enhtmlclip\Image(2).png

 

 

비정형데이터를 암호화 해야 한다는데 저렇게 컴퓨터가 알아보기도 힘든 데이터를 무엇 하러 암호화를 해야 할지 의문이 들 수 있습니다. 

그래서 준비한 것이 비정형데이터도 충분히 분석되어 데이터로 활용할 수 있다는 것을 보여드리겠습니다. 

 

요즘 트랜드로 통하고 있는 빅데이터(Big Data)를 많이 들어보셨을 겁니다. 빅데이터 분석을 통해 마케팅 이나 위험예지 등에 많이 사용되고 있습니다. 
여기서 빅데이터에는 정형데이터뿐만 아니라 비정형데이터까지 포함하여 분석하는 기술과 표현하는 기술이 나날이 발전되고 있습니다. 대표적인 빅데이터 분석기술은 다음과 같습니다.

 

  • 텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공
  • 오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
  • 소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
  • 군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴[2]
 

이뿐만 아니라 시맨틱 검색기술을 통해 집단지성(예: 위키피디아) 또는 딥러닝/ 머신러닝을 통해 특정의 비정형데이터에 의미를 부여해 온톨로지[3]로 표현하여 분석을 좀 더 원활히 할 수 있도록 하고 있습니다.

 이미지는 많이 사용되는 OCR기술[4]을 통해 이미지 내의 텍스트를 추출이 가능하며, 영상의 경우 움직이는 영상이 이루는 것은 Frame이라는 이미지를 연속적으로 보여주고 그것을 압축하는 방식에 따라 인코딩/디코딩을 하여 동영상 플레이어를 통해 영상을 보여주는 방식이기 때문에 이미지와 같은 방식으로 추출이 가능합니다. 

이번 개인정보보호법 개정내용에는 개인정보뿐만 아니라 개인을 식별 할 수 있는 얼굴이 포함되어 있습니다. 영화에서처럼 CCTV에서 얼굴을 찾아 동일한 이미지를 빠르게 검색하여 누구인지 범죄기록은 있는지가 바로 검색되어 보여지는 방식으로 여러 알고리즘과 툴이 이미 나와있습니다.[5][6]  

음성 데이터는 예전부터 Speech to String(Text)기술과 String(Text) to Speech기술이 동시에 발달이 되고 있는 상태로 이미 자동차 네비게이션이나 ARS에서 사용되고 있는 string to speech기술이 적용되어 이미 익숙한 상태이며 Speech to String는 영문은 거의 완벽에 가깝고 한글은 약간 미진한 부분이 있으나 추출이 가능한 상태입니다. 

 

이런 기술들의 발전으로 인해 국내 역시 비정형데이터에 포함된 개인정보나 민감정보를 좌시할 수 없다는 입장으로 이번 개인정보보호법 개정이 되지 않았나 생각해봅니다. 다음은 개인정보보보법 개정내용과 개정된 내용으로 인해 어떤 방향으로 흘러갈지에 대해 알아보도록 하겠습니다. 
?