한컴시큐어 기고 - 비정형데이터 암호화 [1] - 비정형데이터가 무엇일까?
비정형데이터 암호화(1) – 비정형데이터가 무엇일까?
비정형데이터(Unstructured Data)란 일정한 규격이나 형태를 지닌 숫자데이터(Numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다. 비정형 데이터의 사례로는 책, 잡지, 문서의료 기록, 음성 정보, 영상 정보와 같은 전통적인 데이터 이외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있다. 가장 대표적인 비정형 데이터로는 문서가 있다. 문서에는 문자가 가장 많은 비중을 차지하고 있지만 숫자와 도표, 그림도 포함하고 있다. 이러한 문서 정보는 정보의 관점에서 보면 유형이 불규칙하고 의미를 파악하기 모호해서 기존의 컴퓨터 처리 방식을 적용하기 어렵다. 기존의 컴퓨터 시스템은 연산과 처리 절차가 숫자 데이터 중심으로 설계되어 있기 때문에 이름이나 성별과 같은 문자 변수는 숫자로 변환해 처리하는 방법을 주로 사용했다. 그러나 이런 방법은 트위터나 블로그처럼 모바일과 온라인에서 생성되는 대규모의 비정형 데이터에 적용하는 것이 불가능하다. 비정형 데이터는 불규칙 정도에 따라 반정형 데이터(semi-structured data)로 구분하기도 한다. [1]
네이버 지식백과의 사전적인 의미로 먼저 올려봤습니다. 이와 대변되는 말로 정형데이터가 있는데 이것은 저 위의 정반대되는 개념으로 형식이 정해져 있는 데이터를 말합니다.
가장 의미적으로 가까운 것이 데이터베이스에 올려서 사용하는 데이터 모델이 있을 것이고, 데이터의 의미(속성)을 부여해줄 수 있는 XML이나 JSON 등의 Text 포맷도 일종의 정형데이터라고 할 수 있습니다.
비정형데이터를 암호화 해야 한다는데 저렇게 컴퓨터가 알아보기도 힘든 데이터를 무엇 하러 암호화를 해야 할지 의문이 들 수 있습니다.
그래서 준비한 것이 비정형데이터도 충분히 분석되어 데이터로 활용할 수 있다는 것을 보여드리겠습니다.
- 텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공
- 오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
- 소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
- 군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴[2]
이뿐만 아니라 시맨틱 검색기술을 통해 집단지성(예: 위키피디아) 또는 딥러닝/ 머신러닝을 통해 특정의 비정형데이터에 의미를 부여해 온톨로지[3]로 표현하여 분석을 좀 더 원활히 할 수 있도록 하고 있습니다.
이번 개인정보보호법 개정내용에는 개인정보뿐만 아니라 개인을 식별 할 수 있는 얼굴이 포함되어 있습니다. 영화에서처럼 CCTV에서 얼굴을 찾아 동일한 이미지를 빠르게 검색하여 누구인지 범죄기록은 있는지가 바로 검색되어 보여지는 방식으로 여러 알고리즘과 툴이 이미 나와있습니다.[5][6]
음성 데이터는 예전부터 Speech to String(Text)기술과 String(Text) to Speech기술이 동시에 발달이 되고 있는 상태로 이미 자동차 네비게이션이나 ARS에서 사용되고 있는 string to speech기술이 적용되어 이미 익숙한 상태이며 Speech to String는 영문은 거의 완벽에 가깝고 한글은 약간 미진한 부분이 있으나 추출이 가능한 상태입니다.
번호 | 제목 | 글쓴이 | 날짜 | 조회 수 |
---|---|---|---|---|
5 | 한컴위드(HANCOM WITH)의 과거 그리고 미래 | 다물칸 | 2021.06.16 | 101 |
4 | [2020.11] 디지털 자산 플랫폼이 뭐지? 1 | 다물칸 | 2020.11.03 | 137 |
3 | 한컴시큐어 기고 : 비정형데이터 암호화(2) – 개인정보보호법 변경내용과 적용될만한 산업 군은? [쓰다말음] | 다물칸 | 2016.11.29 | 232 |
» | 한컴시큐어 기고 - 비정형데이터 암호화 [1] - 비정형데이터가 무엇일까? | 다물칸 | 2016.11.22 | 199 |
1 |
한컴시큐어 기고 - 비정형데이터 암호화: 프롤로그
![]() |
다물칸 | 2016.11.21 | 200 |