ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • NISTIR 8053
    GDPR 2020. 8. 1. 19:07
    728x90

    PPDM(Privacy Preserving Data Mining): 개인정보 공개 x. 통계적 처리나 기계학습에 사용됨

    PPDP(Privacy Preserving Data Publishing): 개인정보를 처리하여 사용자에게 배포할 수 있는 새로운 비식별처리 or 합성된 정보 생산

     

     

    PPDM 프라이버시 보호 정보 마이닝

    통계적 공개 한도(Statistical Disclosure Limitation): 제 3자가 정보를 이용하여 정보에 있는 개인을 인식하는 것을 방지하기 위해 통계적 정보를 변경하는 원칙 (정보를 더 큰 범주로 일반화, 유사한 개체 간에 정보 교환, 문서에 노이즈를 삽입 등)

     

    차분프라이버시(Differential Privacy): 정보 집합의 계산에서 비롯되는 신원 공개와 정보 누출에 관한 수학적 정의를 사용하는 기법.

    수학적 계산의 결과를 보고하기 전에 비결정적 잡음(non-deterministic noise)을 삽입함으로 공개 방지.

    예:

    미국 통계국의 온더맵(OnTheMap) 웹사이트- 합리적이고 정확한 블록 단위의 합성 인구조사 정보를 생성

    크롬 웹브라우저 - 통계는 총계 수준에서 정확하지만 임의화를 하기 때문에 사용자의 데이터에 신뢰성이 없음

     

    특징: 결과의 정확도가 낮아짐

    PPDP 프라이버시 보호 정보 간행

    비식별처리(de-identification) : 식별 정보와 정보주체 간의 연계성을 제거하는 과정

    합성 정보 생성(synthetic data generation) : 원본 정보와 유사한 정보 집합을 생성

     


    리스크 분석: 잠재적인 공격자를 나열하고 각 공격자의 성공 확률을 분석함

     

    통상적인 재식별 공격 이유:

    • 비식별처리 효과 입증.
    • 재식별 수행에 관한 대중의 관심과 전문가적 관점을 얻기 위해
    • 비식별처리를 수행한 기관을 곤경에 처하게 하거나 해할 목적
    • 재식별된 개인정보에서 이익 취득
    • 재식별을 통해 취득한 개인정보로 개인을 위협하기위해

    신원 공개(identify disclosure) 시나리오

    • 비식별처리가 불충분한 경우(식별정보가 남아 있는 경우)
    • 연결을 통한 재식별
    • 가명 역추적

    추론적 공개: 공개된 정보의 통계적 특징으로부터 높은 신뢰도로 개인정보를 추론할 수 있는 경우 (L-diversity로 다양성 증가시킬 수 있음)

     

     

    재식별의 가능성을 줄이는 방법

    1. 개인정보를 획득하고 사용하는 방식을 통제

    • 일반 공개 모형: 통상적으로 인터넷에 게시함으로써 비식별처리된 개인정보를 대중에 공개할 수 있음
    • 데이터 이용 합의서(DUA) 모형: 개인정보를 어떻게 이용할 수 있는가를 세부적으로 규정한 법적 구속력이 있는 데이터 이용 합의서에 따라 비식별처리된 개인정보를 공개할 수 있음. 정보를 다운로드하기 전에 사용자 클릭 라이선스 합의서로 인터넷에 쉽게 게시할 수 있음.
    • 밀실 모형: 비식별처리된 개인정보를 원본 정보의 수출을 제한하는 일종의 밀실에 유지하고, 대신에 유자격 연구자의 문의를 수락하고 비식별처리된 개인정보에 대한 문의를 운영하며 결과를 응답할 수 있음.

    HIPPA 프라이버시 규칙은 직접 식별자를 성명, 전화번호, 이메일 주소, 기타 고유 식별번호, 특징 또는 코드 등의 특정한 개인정보를 포괄하고 있음.

    직접 식별자 비식별처리 방법

    • 제거
    • 범주 명칭 또는 정보로 대체 ( 성명 -> 성명 / 주소 -> 거리명 , 타운명, 미국)
    • ***** 또는  xxxxx 같은 기호로 대체
    • 임의 값으로 대체. 같은 신원이 두 번 등장하면 각각 다른 값을 받음. 개인정보와 개인을 다시 연계시키긴 어려움
    • 가명처리 -> 쉽게 역으로 돌릴 수 없게 해야됨
    • 연결 공격(Linkage Attack)-> 1. 한 사람이 두 정보 집합에 모두 있어야 함. 2. 두 정보 집합에 모두 있는 변수를 연결해 분간되는 개인기록부만 연결. 3. 두 정보 집합에서 변수가 같지 않다면 정보를 정규화하거나 일관되도록 해야 함.

    준식별자 비식별처리 방법

    • 범주화: 준식별자를 범주화하거나 제거
    • 일반화: 준식별자 값을 주어진 범위 안에 있다고 변화
    • 인자변화: 각 개인에 대해 일관된 방식으로 특정한 값을 다른 값으로 교체. 
    • 교환: 규정된 일반화 수준 이내에서 개인기록부 간에 준식별자 값을 교환
    • 하위샘플링: 비식별처리를 수행하는 기관은 전체 정보 집합을 공개하는 대신에 샘플을 공개

    HIPPA 전문가 활용법 : 개인정보 검토 전문가를 통해 적절한 비식별처리 수단 정함

    예) Khaled El Emam 교수와 Bradley Malin 교수의 11 단계로 된 개인정보의 비식별처리를 위한 과정

    1. 정보 집합에서 직접 식별자 결정
    2. 직접 식별자 마스킹
    3. 위협 모형화: 가상의 적 설정
    4. 최소 허용 정보 효용을 결정
    5. 재식별 리스크 한계치 결정 : 선례와 기준을 이용
    6. 데이터베이스 샘플 정보 수입
    7. 실제 재식별 리스크 평가
    8. 실제 리스크 한계치와 비교 : 5단계와 7단계 비교
    9. 변수를 설정하고 정보 변환을 적용
    10. 해법에 대한 진단 수행
    11. 변환된 정보를 외부 정보 집합으로 수출

    HIPAA 세이프하버 방식: 개인, 친척 직원 또는 개인의 가족에 관한 18가지 특정 유형의 개인정보를 삭제함으로써 개인정보를 비식별처리된 것으로 다루도록 함.

    (A) 성명
    (B) 주(state) 이하의 모든 지리적 행정구역으로서, 거리 주소(street address), 시(city), 카운티(county), 지구(precinct), 우편번호(ZIP code) 및 그와 동등한 지오코드(geocode)를 포함하나, 미국 통계국이 현재 공개한 우편번호의 앞 세 자리는 제외한다.

               (1) 앞자리 세 개가 동일한 모든 우편번호를 조합하여 형성된 지리적 단위에는 20,000 명 이상이 포함된다.
               (2) 20,000 명 내외의 사람이 포함된 그러한 모든 지리적 단위의 우편번호 앞 세 자리를 000 으로 변경한다.

    (C) 생일, 입원일, 퇴원일, 사망일, 89 세 이상의 모든 연령 등, 개인과 직접적으로 관련된 모든 날짜의 모든 날짜 요소(년은 제외) 및 그러한 연령을 나타내는 날짜의 모든 요소(년 포함), 단, 단일한 90 세 이상의 범주로 종합할 수 있는 연령 및 요소는 제외한다.
    (D) 전화 번호
    (E) 팩스 번호
    (F) 이메일 주소
    (G) 사회보장번호
    (H) 의료기록번호
    (I) 의료보험(Health Plan) 수혜자 번호
    (J) 계좌번호
    (K) 자격증/면허 번호
    (L) 차량 식별자 및 일련번호, 차량 번호판 번호 포함
    (M) 기기 식별자 및 일련번호
    (N) 웹 URL(Universal Resource Locator)
    (O) 인터넷 프로토콜(IP) 주소
    (P) 지문이나 성문(voiceprint)을 포함한 생체인증 식별자
    (Q) 얼굴 전체의 사진 및 그와 유사한 이미지
    (R) 기타 특이한(unique) 식별 번호, 특징 또는 코드


    HIPAA 제한된 정보 집합

    제한된 정보 집합: 부분적 비식별처리 but 날짜, 시, 주, 우편번호, 연령을 포함하고 있는 정보 집합

     


    사진과 비디오 비식별 처리

    ICT COST Action IC1206 식별자 분류체계

    • 생체인증 식별자 - 개인을 식별하는데 사용하는 구분되고, 측정할 수 있으며, 일반적으로 특이성이 있고 영구적인 개인적 특징. 생리학적 생체인증 식별자(얼굴, 홍채, 귀, 지문) / 행동학적 생체인증 식별자(음성, 걸음, 자세, 입술움직임, 타이핑 스타일)
    • 연성 생체인증 식별자 - 영구적이거나 구분되지는 않지만 모호한 신체적, 행동적이거나 사람에 부수된 특징
    • 비생체인증 식별자 - 문체, 어조, 특정 사회-정치적, 환경적 문안, 복장 스타일, 헤어스타일 등

    비식별처리:

    1. 이미지 변환 - 구글 스트리트 뷰의 얼굴 흐리게 하기 / 몸 흐리게 하기 (얼굴이 없어도 몸을 식별 가능) / 특정 문신 흐리게 하기

    2. 통제 음향 왜곡

     

    멀티미디어 비식별처리 효과 검증의 문제

    • 비식별처리가 필요한 대상의 식별 정밀도와 정확성 - 기자들은 많은 얼굴들이 흐리게 처리되지 않은 채로 있다고 구글을 비판. 종교적 조상의 얼굴을 흐리게 처리하였다고 비판 -> 특정 사물, 상징, 또는 인물을 흐리게 처리하거나 훼손하는 것이 이슈가 될 수 있음
    • 변환의 가역성 - 복수의 이미지를 조합하여 모자이크를 제거하고 흐린 이미지를 복원하는 기술 존재
    • 생성된 이미지의 시각적 품질 -> 흐리게 하기와 모자이크 처리는 이상한 그림을 만들어냄
    • 선택한 신원 모호화 기법의 실제적인 효과 -> 복장, 자세, 공간-시간적 환경을 조합하여 사람 식별 가능

     

    'GDPR' 카테고리의 다른 글

    ISO/IEC 20889 비식별 처리 표준 개발 동향  (0) 2020.08.01
    개인정보 비식별화 안내서  (0) 2020.08.01

    댓글

Designed by Tistory.