AI에서 데이터 마스킹
- 최종 업데이트2025/06/24
데이터 마스킹은 데이터 난독화 또는 익명화라고도 하며, 민감한 정보를 실제처럼 보이지만 식별할 수는 없는 내용으로 대체하여 보호하는 중요한 기술입니다.
이는 주로 데이터에 무단 접근하거나 데이터를 분석할 수 없도록 하면서도 테스트, 개발, AI 모델 훈련 및 분석과 같은 정당한 목적에 사용될 수 있도록 데이터의 형식과 통계적 특성을 유지하기 위함입니다. 효과적으로 구현된 데이터 마스킹은 데이터 유출 위험을 최소화하고 조직이 다양한 개인정보 보호 규정을 준수하도록 돕습니다.
토큰화는 민감한 데이터 요소를 토큰이라고 하는 민감하지 않은 대체값으로 대체하여 보안을 강화하는 데이터 마스킹 기술입니다. 이러한 토큰은 원본 데이터의 형식과 길이를 유지하여 실제처럼 보이지만 본질적인 정보는 포함되어 있지 않습니다. 토큰화의 핵심 특징은 민감한 원본 데이터가 Control Room 내에 안전하게 저장된다는 사실입니다.
토큰화가 작동하는 방식
- 데이터 식별: 시스템은 보호가 필요한 민감한 데이터 필드(예: 신용 카드 번호(PCI), 사회 보장 번호(PII), 개인 건강 정보(PHI))를 식별합니다.
- 토큰 생성: 각 민감한 데이터 값에 대해 고유하고 무작위적인 토큰이 생성됩니다. 이러한 토큰은 원래 값을 얻기 위해 역설계할 수 없으며 원본 데이터와 수학적 또는 식별 가능한 관계가 없습니다.
- 데이터 대체: 애플리케이션, 데이터베이스 또는 시스템 내에 있는 민감한 원본 데이터는 해당하는 토큰으로 대체됩니다.
- 안전한 저장 공간: 토큰과 민감한 원본 데이터 간의 매핑은 Control Room 내에서 안전하게 저장되고 관리됩니다.
- 토큰화 해제(필요하고 허가된 경우에 한함): 승인된 사용자나 시스템이 정당한 목적으로 민감한 원본 데이터에 액세스해야 할 때, 토큰화 해제 프로세스가 호출됩니다. 이 프로세스에서는 해당하는 토큰을 사용하여 Control Room에서 원본 데이터를 검색합니다.
토큰화의 주요 장점
- 보안 강화: 토큰화는 운영 환경에서 실제 민감한 데이터를 제거함으로써 데이터 유출 위험성과 보안 사고의 영향을 크게 줄입니다. 토큰이 포함된 시스템이 손상되더라도, 공격자는 가치 있는 민감한 정보를 얻지 못합니다.
- 규정 준수 지원: 토큰화는 실제 민감한 데이터를 저장, 처리 및 전송하는 과정을 최소화하여 조직이 PCI DSS, GDPR 및 HIPAA와 같은 엄격한 데이터 보안 및 개인정보 보호 규정을 준수하도록 지원합니다.
- 데이터 유용성: 토큰은 원본 데이터의 형식과 길이를 유지하여 애플리케이션과 시스템이 큰 수정 없이 계속 작동할 수 있도록 합니다. 이에 따라 실제 민감한 값을 사용하지 않아도 되는 테스트, 개발 및 분석에 사용할 수 있어 적합합니다.
- 민감한 정보 보호: LLM과 상호 작용하는 자동화 워크플로 내에서 실제 민감한 데이터 사용을 최소화할 수 있어, 조직은 규정 준수 감사를 진행하는 동안 일부 데이터 처리 및 보안 평가 절차를 간소화할 수 있습니다.
- 제어 및 감사 가능성: 매핑을 저장하는 저장소가 Control Room 외부에 있지만, Control Room은 강력한 인증 및 인가 메커니즘을 통해 이 저장된 데이터에 대한 제어된 액세스를 제공합니다. 이를 통해 무단 액세스에 노출되는 것을 방지합니다. 강력한 업계 표준 인증 프로토콜을 사용하여 데이터를 안전하게 저장할 수 있도록 합니다.
- 유연성: AI 가드레일 프레임워크 내의 토큰화는 특히 LLM(대형 언어 모델)과 상호 작용하는 자동화 내에서 다양한 유형의 민감한 데이터에 적용될 수 있습니다.
데이터 마스킹 규칙 생성
가드레일을 생성하는 동안 새 마스킹 규칙을 정의할 수 있습니다. 규칙 생성을 클릭한 다음 다음을 지정할 수 있습니다.
-
카테고리 선택: 민감한 데이터에 대한 광범위한 카테고리를 선택합니다. 이용할 수 있는 카테고리는 다음과 같습니다.
- PII(개인 식별 정보): 개인을 식별할 수 있는 데이터가 포함되어 있습니다.
- PCI(지불 카드 산업): 신용 카드 및 직불 카드 정보가 포함되어 있습니다.
- PHI(보호된 건강 정보): 개인을 식별할 수 있는 건강 관련 데이터가 포함되어 있습니다.
-
유형 선택:
카테고리를 선택한 후, 마스킹할 해당 카테고리 내에서 하나 이상의 특정 유형을 선택합니다.
-
PII(개인 식별 정보):
- 차량 식별 번호
- 사회보장번호
- 이메일 주소
- IP 주소
- 통합 리소스 위치 지정자
- 사람
- 주소
- 조직
- 운전면허증 번호
- 팩스 번호
- 전화 번호
- 차량 등록 번호
- 모두 선택
-
PCI(지불 카드 산업):
- 신용 카드 번호
- 은행 계좌 번호
- 모두 선택
-
PHI(보호된 건강 정보):
- 의료 기록 번호
- 의료 수혜자 번호
- 라이선스 번호
- 사망 날짜
- 퇴원 날짜
- 입원 시작일
- 미디어 접근 제어 번호
- 보험 번호
- 의료 계정 번호
- 생년월일
- 모두 선택
주: 프롬프트 내에서 식별된 PII, PHI, PCI와 같은 민감한 엔터티는 비민감성 토큰으로 대체되어 LLM에 노출되지 않도록 마스킹됩니다. 모델 응답을 받을 때 이러한 토큰은 원래 값으로 복원되도록 대체됩니다. 민감한 엔터티와 토큰화된 값은 저장소에 안전하게 저장되며, 30일 동안만 유지됩니다. -
-
가드레일 동작 선택
- 마스킹: 민감한 데이터가 토큰화된 값으로 일시적으로 대체되는 가역적인 프로세스입니다. 원본 데이터는 사용자에게 제공되기 전에 LLM의 응답에서 검색되어 복원됩니다.
- 익명화: 민감한 데이터를 토큰으로 영구적으로 대체하는 불가역적인 프로세스입니다. 원본 데이터는 저장되거나 사용되지 않으며, 사용자에게 응답을 재구성하는 데에도 사용되지 않으므로, 엄격한 데이터 보존 제한이 있는 시나리오에 적합합니다.
- 허용: 민감한 데이터에 액세스해야 하는 특정 사용 사례의 경우, 데이터를 일반 텍스트로 LLM에 전송하도록 선택할 수 있습니다.
AI 가드레일을 구성하고 데이터 마스킹을 설정하는 방법에 대한 자세한 내용은 AI 가드레일 생성 및 관리 항목을 참조하십시오.