SoK: Security and Privacy in Machine Learning

SoK: Security and Privacy in Machine Learning

SOK 2020. 8. 1. 17:16

728x90

1.소개

컴퓨팅 용량의 성장과 결합한 머신러닝(ML) 과학의 발전은 상용 클라우드 플랫폼의 서비스로서의 머신러닝(Machine Learning)의 자동화에 의해 구현되었듯이 기술 환경을 변화시켰다. 예를 들어, ML 기반 데이터 분석은 의료 및 의료의 관행을 근본적으로 변화시켰다. 보안 영역 내에서 탐지 및 모니터링 시스템은 이제 방대한 양의 데이터를 소비하고 과거에는 불가능했을 만한 실행 가능한 정보를 추출한다. 이러한 눈부신 진보에도 불구하고, ML에 구축된 시스템의 설계에 내재된 취약성과 이에 대한 방어수단에 대한 기술계의 이해는 아직 걸음마 단계에 있다. ML [1]의 보안과 프라이버시 과학을 발전시켜야 한다는 광범위하고 긴급한 요구가 있다.

그런 전화는 조금도 개의치 않고 지나가지 않았다. 많은 조사들이 ML에 구축된 시스템의 위협, 공격, 방어에 대한 우리의 이해를 넓히기 위해 노력해왔다. 그러나 이 연구는 ML, 보안, 통계, 계산 이론을 포함한 여러 연구 커뮤니티에 걸쳐 단편화되어 있다. 아직까지는 이 학문들에 걸쳐서 정의되지 않은 어휘나 과학이 없다. 이러한 단편화는 ML과 관련된 무수한 보안 및 개인 정보 보호 문제에 대한 지식을 체계화하려는 우리의 노력에 동기와 도전을 제시한다.

본 논문에서는, 공격 표면의 특성, 적대적 목표, 그리고 기계 학습에 구축된 시스템에 특정한 가능한 방어 및 공격 능력을 고려하는 위협 모델에 기초하여, 본 문서에 대한 명확한 관점을 개발한다. 이 보안 모델은 ML 시스템의 공격 및 방어에 대한 지식을 조사하는 로드맵의 역할을 한다. 우리는 주요 주제를 다듬고 결과를 이 새로운 연구 분야에 대한 테이크 어웨이 메시지의 형태로 강조한다.

이 영역의 보안과 프라이버시를 탐구할 때, 고전적 확실성, 무결성 및 가용성(CIA) 모델의 프리즘을 통해 ML에 구축된 시스템을 보는 것이 유익하다[2]. 이 연구에서는 모델 또는 그 데이터에 대해 타당성이 정의된다. 타당성에 대한 공격은 모델 구조 또는 매개변수(높은 가치의 지적 재산일 수 있음) 또는 이를 훈련하고 테스트하는 데 사용되는 데이터(예: 환자 데이터)를 노출하려고 시도한다. 후자의 공격 등급은 특히 모델 사용자가 신뢰할 수 없는 경우 데이터 소스의 프라이버시에 영향을 미칠 가능성이 있으며, 의료 진단 모델을 훈련하는 데 사용되는 환자 임상 데이터와 같은 경우에는 매우 민감할 수 있다. 우리는 무결성에 대한 공격을 상대가 선택한 특정한 결과나 행동을 유도하는 것으로 정의한다. 그것들은 종종 ML 시스템이 훈련하거나 예측하는 데이터의 조작을 통해 수행된다. 그러한 적대적 행동이 합법적인 사용자가 의미 있는 모델 출력물 또는 시스템 자체의 특징에 접근하지 못하도록 하려는 경우, 그러한 공격은 가용성 영역에 속한다.

보안과 프라이버시를 평가하는 두 번째 관점은 머신러닝 파이프라인과 관련된 공격과 방어에 초점을 맞춘다. 여기서 우리는 훈련에서 추론에 이르는 ML 기반 시스템의 라이프사이클을 고려하고 각 단계에서 적대적 목표와 수단을 식별한다. 우리는 일반적으로 훈련에 대한 공격이 훈련 샘플을 변경하거나 주입하여 모델을 무력화시키려 한다는 것을 관찰한다. 이는 본질적으로 취약한 모델을 향한 학습 과정을 안내하는 것이다. 추론 시간(런타임)에서의 공격은 더욱 다양하다. 적들은 표적 출력을 유도하기 위해 탐색적 공격을 사용하고, 모델 자체를 추출하기 위해 신탁 공격을 사용한다.

기계 학습을 위한 방어 과학은 다소 덜 발달되어 있다. 우리는 몇 가지 수비 목표를 고려한다. 첫 번째 방법은 훈련과 런타임 입력 분포가 다를 때 가능한 한 성과를 유지하는 분배 편중성에 대한 강건성이다. 두 번째는 학습된 모델에 의해 노출되는 정보의 양을 제한하는 프라이버시 보존에 대한 공식적인 보장을 제공하는 것이다.

셋째, 방어는 공정성(편향된 산출물 방지)과 책임성(특정 산출물이 생성된 이유에 대한 설명, 투명성이라고도 함)을 보장하는 것을 목표로 한다.

머신러닝 공격과 방어의 이러한 측면을 탐구할 때 우리는 다음과 같은 기여를 한다.

• 통합 위협 모델을 도입하여 ML을 통합하는 시스템의 보안과 프라이버시에 대한 체계적인 추론을 허용한다(섹션 3). 이 모델은 ML 알고리즘을 분리하는 대신 ML이 구성 요소인 데이터 파이프라인 전체를 고려함으로써 이전의 노력에서 벗어난다.

• 다양한 기술 커뮤니티에 의해 식별된 공격과 방어를 분류한다. 제4절에서는 학습의 난제를 대립적 환경에서 자세히 설명한다. 섹션 5는 배치된 시스템을 고려한다. 이러한 분야에 대한 이전의 조사 외에도, 우리는 적대적인 예와 실용적인 차등적으로 개인 학습을 향한 최근의 진보를 다룬다.

• 바람직한 특성을 시스템화하여 머신러닝의 보안과 프라이버시를 개선한다(섹션 6).

ML 방법은 분류, 회귀, 정책 학습과 같은 몇 가지 형태를 취한다. 간결하고 쉽게 설명하기 위해, 우리는 현재 논문의 많은 부분을 분류에 집중한다. 사회에서의 안전에 대한 AI의 영향에 대한 관련 연구는 본 논문의 범위 밖에 있으며, 관심 있는 독자들을 아모디 외 연구진[3]의 검토에 참고하도록 한다.

우리는 공격과 방어를 중심으로 보안과 프라이버시에 관한 지식의 체계화를 ML에 제시한다. ML 위협 모델에 대한 분석을 토대로 문헌에서 세미놀과 대표작을 선정했다. 우리는 포괄적이 되려고 노력하지만, 모든 작품을 인용하는 것은 현실적으로 불가능하다. 예를 들어, 우리는 ML [4]에 대한 신뢰할 수 있는 컴퓨팅 플랫폼을 다루지 않는다. 우리는 다음 섹션에서 ML 시스템의 기본 구조와 어휘를 소개한다. 그 논문의 구성은 그림 1에 나와 있다.

2. 머신러닝 정보

우리는 시스템이 어떻게 ML을 적용하는지에 대한 간략한 개요로 시작한다. 특히, 우리는 다양한 종류의 학습 과제와 그들의 실제 구현의 몇 가지 특징을 비교한다.

2.1. 기계 학습 과제 개요

머신러닝(machine learning)은 (일반적으로) 대용량 데이터 세트의 분석을 자동화하고, 해당 데이터에서 발견된 일반적인 관계를 분석하는 모델이나 의사결정 절차를 생성한다[5]. ML 기법은 일반적으로 세 가지 등급으로 나뉘는데, 분석에 이용 가능한 데이터의 특성이 특징이다. 감독 대상 학습: 해당 출력물에 라벨을 붙인 입력 형태의 교육 예제를 제공하는 방법은 감독되는 학습 기법이다. 일반적으로 목적은 모델 매핑 입력(보이지 않는 입력 포함)을 출력으로 유도하는 것이다. 출력 도메인이 범주형인 경우 작업을 분류라고 하며, 작업이 기본인 경우에는 회귀라고 한다. 감독되는 학습 과제의 전형적인 예로는 이미지[6]에서의 객체 인식[6], 기계 번역[7], 스팸 필터링[8] 등이 있다.

감독되지 않은 학습: 이 방법은 라벨이 부착되지 않은 입력값을 부여할 때, 그 작업은 감독되지 않는다. 여기에는 유사성 메트릭에 따른 점 군집화[9], 저차원 서브스페이스에서 프로젝트 데이터에 대한 치수 감소[10], 모델 사전 교육[11] 등의 문제가 포함된다. 예를 들어 이상 징후 검출에 클러스터링을 적용할 수 있다[12]. 강화학습: 행동, 관찰, 보상의 순서(예: 비디오 게임 플레이의 실행) 형태의 데이터는 강화학습(RL)의 범위에 해당된다[13], [14]. RL의 목표는 환경에서의 행동을 위한 정책을 생산하는 것이며, 따라서 그것은 계획과 통제에 관련된 ML의 하위 규정이다. RL 에이전트는 환경을 탐색하는 경험을 통해 학습한다. 최근 컴퓨터가 바둑[15] 게임에서 인간 챔피언을 물리칠 수 있었던 것은 감독되고 감독되지 않은 방법과 결합한 강화 학습이었다.

ML 조사에 관심이 있는 독자들은 이 풍부한 주제를 다루는 많은 책들에 의해 잘 제공되고 있다 [5], [16], [17]. 현재까지 ML 보안 및 개인 정보 보호에 대한 작업은 주로 감독된 환경에서 수행되었으며, 섹션 4와 5의 프레젠테이션에서 다시 확인되었다. 보안 문제는 무감독 및 강화 학습과 마찬가지로 관련되기 때문에 의미 있는 경우 보다 일반적인 설정으로 결과를 제시한다.

2.2. ML 단계: 교육 및 추론

모델을 입력 데이터로부터 학습하는 훈련 단계, 훈련된 모델을 업무에 적용하는 추론 단계와 분리하는 것이 도움이 된다.

교육: 대부분의 ML 모델은 입력 x를 취하는 함수 h θ (x)로 설명할 수 있으며, 벡터 θ ∈ ∈ θ 에 의해 파라메트리된다. 1 출력 h θ (x) 는 일부 관심 속성 x에 대한 모델의 예측이다. 입력 x는 일반적으로 형상이라고 하는 값의 벡터로 표현된다. 함수 H = { x ↦ → h θ (x) | θ ∈ | | } } }의 공간은 후보 가설의 집합이다. 학습 알고리즘은 교육 데이터를 활용하여 θ을 결정한다. 학습을 감독할 때 모델 예측 h θ (x)를 데이터 집합에 표시된 예상 출력 y와 일치시키도록 매개변수를 조정한다. 이는 h θ (x)와 해당 y의 상이한 점을 포착하는 손실 함수를 최소화함으로써 달성된다. 모델 퍼포먼스는

1. 일부 모델(예: 가장 가까운[18])은 비모수적이다.

그림 2. 시스템의 공격 표면. 일반 모델(상단 열)은 두 가지 예시 시나리오(중단열과 하단열)로 설명된다. 즉, 자동차 시스템이 도로 상의 트래피치 표지판과 네트워크 침입 탐지 시스템을 인식하기 위해 사용하는 컴퓨터 비전 모델이다.

그런 다음, 모델의 일반화(보이지 않은 데이터에 대한 성능)를 측정하기 위해 교육 데이터 세트와 분리해야 하는 테스트 데이터 세트에서 검증되었다. 감독되는 문제에 대해, 우리는 시험 데이터와 관련하여 모델 정확도를 평가할 수 있다: 훈련 데이터와 구별되는 라벨이 부착된 데이터 세트. 예를 들어 멀웨어 분류(위 참조)에서 정확도는 테스트 데이터 집합에서 실행 가능한 x와 관련된 y(말웨어 또는 양성)와 일치하는 예측 h θ(x)의 비율을 측정할 것이다. 강화학습에서 h θ은 정책을 암호화하고, 훈련의 목적은 입력 이력 x에 대해 가장 높은 기대 보상을 산출하는 행동을 규정하는 것이다. 온라인 방식(감독, 감독, 감독, 강화)으로 학습을 할 경우 새로운 교육 포인트가 제공됨에 따라 매개변수 θ이 업데이트된다.

추론: 훈련이 완료되면 모델을 배치하여 훈련 중에 보이지 않는 입력에 대한 예측을 추론한다. 즉, 매개변수 값 θ은 fixed이며, 모델은 새로운 입력 x에 대해 h θ (x)를 계산한다. 우리의 멀웨어 분류 예제에서 모델은 마주친 각 실행 파일의 라벨을 예측한다. 모델 예측은 다른 형태를 취할 수 있지만 분류에 가장 일반적인 것은 문제의 각 클래스에 대한 확률을 할당하는 벡터로서, 입력 내용이 해당 클래스에 속할 가능성이 얼마나 큰지를 특징짓는 것이다. 우리의 감독되지 않은 네트워크 침입 탐지 시스템의 경우, 모델은 대신 새로운 입력 네트워크 트라우마 x에 해당하는 패턴 표현 h θ (x)을 반환할 것이다.

저작자표시

댓글

ABOUT ME

코딩하는 변호사 코딩하는 변호사

티스토리툴바