AI의 유해성
- 최종 업데이트2025/06/02
AI 시스템에서 유해성이란 모델의 입력(프롬프트) 또는 출력(응답) 내에 유해하거나 바람직하지 않은 콘텐츠가 있음을 의미합니다.
여기에는 사용자에게 부정적인 영향을 끼치고 사회적 편견을 강화하며 AI 기술의 신뢰도를 떨어뜨리는 다양한 문제적인 언어 및 개념이 포함됩니다. 다면적으로 유해성의 특징에 대해 이해하는 것은 책임감 있고 윤리적인 AI를 구축하는 데 있어 중요합니다.
유해성의 주요 특징
- 혐오 발언: 인종, 민족, 종교, 성별, 성적 지향, 장애 또는 기타 보호되는 특성을 기반으로 개인이나 집단을 공격하거나 폄하하는 언어를 말합니다. 이러한 발언은 비방, 고정관념 또는 폭력을 요구하는 표현으로 나타날 수 있습니다.
- 괴롭힘: 개인에게 모욕감을 주거나 학대 또는 위협을 가하는 콘텐츠를 말합니다. 이러한 콘텐츠에는 개인적인 공격, 협박, 원치 않는 성적 접근이 포함될 수 있습니다.
- 욕설 및 외설: 사용자에게 부정적이거나 불쾌한 경험을 초래할 수 있는 모욕적이거나 외설적인 언어의 사용을 말합니다. 상황에 따라 다르지만, 과도하거나 불필요한 욕설은 유해한 것으로 간주될 수 있습니다.
- 폭력 및 선동: 폭력, 테러 또는 기타 유해한 행위를 조장하거나 미화하는 콘텐츠를 말합니다. 이러한 콘텐츠에는 증오를 선동하고 다른 사람들이 폭력에 가담하도록 장려하는 내용이 포함됩니다.
- 오정보 및 허위 정보: 감정적인 의미에서 반드시 유해한 것은 아니지만, 잘못되거나 오해의 소지가 있는 정보가 확산되면 개인과 사회에 심각한 해로운 결과를 초래할 수 있기 때문에 이는 AI 안전에서 중요한 문제가 됩니다.
- 편향 및 차별: AI 시스템은 학습 데이터에 존재하는 편견을 반영하고 증폭시킴으로써 의도치 않게 유해한 출력을 생성할 수 있습니다. 이에 따라 특정 집단에 대해 차별적이거나 불공정한 처우가 초래될 수 있습니다.
- 성인 콘텐츠: AI 시스템의 맥락과 용도에 따라, 노골적인 성적 콘텐츠의 생성 또는 유포는 유해하거나 부적절한 것으로 간주될 수 있습니다.
유해성 규칙 구성
유해성 규칙 설정을 사용하여 시스템이 사용자 프롬프트와 모델이 생성한 응답 모두에서 잠재적으로 해롭거나 불쾌감을 줄 수 있는 콘텐츠를 처리하는 방식을 제어합니다. 이러한 규칙을 통해 책임 있는 AI 사용을 장려할 수 있으며 AI Governance와 완전히 통합되어 투명성 및 감사 가능성을 지원할 수 있습니다.
각 규칙 수준을 통해 시스템이 유해성을 기준으로 콘텐츠를 얼마나 엄격하게 평가하고 차단해야 하는지를 정의할 수 있습니다. 프롬프트와 모델 응답에 대해 서로 다른 임계값을 설정할 수 있습니다.
-
모두 허용(기본 설정)
-
✅ 유해성 수준과 관계없이 콘텐츠가 차단되지 않습니다.
-
그러나 백그라운드에서는 프롬프트와 응답에 대해 계속해서 유해성 여부를 스캔합니다.
-
유해성 점수는 기록되고 다음을 통해 검토할 수 있습니다.
-
AI 프롬프트 로그
-
이벤트 로그
-
-
사용자 경험에 영향을 미치지 않으면서 감사 목적으로 사용하기에 이상적입니다.
-
-
유해성이 높은 콘텐츠 차단
-
❌ 다음을 포함하여 유해성이 심각한 콘텐츠를 차단합니다.
-
극심한 모욕
-
노골적인 외설
-
직접적인 위협
-
-
가장 유해하고 불쾌한 입력/출력을 걸러내도록 설계되었습니다.
-
✅ 중간 및 낮은 수준의 유해성은 허용됩니다.
-
-
높은 수준 및 중간 수준의 유해성 콘텐츠 차단
-
❌ 다음 내용이 포함된 높은 수준 및 중간 수준 콘텐츠를 모두 차단합니다.
-
모욕
-
욕설
-
위협
-
-
안전성과 표현의 자유를 조화롭게 조정하므로, 민감한 환경에 이상적입니다.
-
✅ 최소한의 유해 콘텐츠는 허용됩니다.
-
-
모든 유해 콘텐츠(높은 수준, 보통 수준, 낮은 수준) 차단
-
❌ 가장 제한적인 설정으로, 다음 내용을 포함한 모든 수준의 유해 콘텐츠를 차단합니다.
-
미묘하거나 간접적인 모욕
-
가벼운 수준의 불쾌한 언어
-
낮은 수준의 위협적인 표현
-
-
교육, 의료 또는 공공 서비스와 같이 엄격한 콘텐츠 정책이 적용되는 환경에 권장됩니다.
-
Generative AI 패키지 또는 AI Skills package의 작업을 사용하는 자동화에 AI guardrail이 할당되면, 시스템은 AI 모델에 전송된 프롬프트와 수신된 응답의 내용을 모두 모니터링합니다. 프롬프트 또는 응답의 유해성 수준을 평가한 결과 할당된 가드레일 내에서 구성된 임계값을 초과하는 경우 가드레일이 개입하여 잠재적으로 유해한 콘텐츠가 처리되거나 표시되지 않도록 방지합니다. 이러한 시나리오에서는 가드레일이 작동되는 지점에서 자동화 실행이 중단됩니다.

위 스크린샷에 표시된 것처럼, 유해성 위반이 감지되어 가드레일이 자동화 실행을 차단할 때 오류 메시지가 표시됩니다. 이 메시지는 일반적으로 가드레일 또는 유사한 알림에 의해 프롬프트가 차단되었음을 나타내며, 종종 자동화 내에서 차단이 발생한 위치(예: 특정 작업 및 줄 번호)를 표시합니다. 또한 오류 메시지에서는 정의된 유해성 수준을 초과함 등 간략한 차단 이유를 제공합니다. 이 문제를 해결하려면 AI 명령 작업에 의해 처리되는 콘텐츠를 검토하고, 가드레일의 유해성 임계값을 조정하거나 정의된 정책을 준수하도록 프롬프트를 수정해야 합니다.
유해성 색상 코드 이해
사용자 입력(프롬프트)과 응답의 유해성 수준은 쉽게 식별할 수 있도록 색상으로 구분되어 있습니다. 이는 잠재적으로 유해한 콘텐츠의 심각성을 이해하고 적절한 조치를 결정하는 데 도움이 됩니다. 이러한 수준을 나타내는 데 사용되는 일반적인 색상 코드 시스템은 다음과 같습니다.
- ⚪ 회색: 유해성 없음. 회색으로 표시된 콘텐츠는 안전한 것으로 간주되며, 식별 가능한 유해하거나 바람직하지 않은 언어가 포함되어 있지 않습니다.
- 🟢 녹색: 유해성 수준이 낮은 콘텐츠. 녹색으로 표시된 콘텐츠는 잠재적으로 문제가 될 수 있는 언어가 최소 수준으로 포함되어 있습니다. 이러한 콘텐츠에는 경미한 욕설, 약간의 암시적인 내용, 또는 맥락에 따라서는 민감하지 않다고 인식될 수 있는 사소한 언어 사용 등이 있을 수 있습니다. 심각하게 해롭지는 않지만, 주의와 추가 검토가 필요할 수 있습니다.
- 🟠 주황색: 유해성 수준이 중간인 콘텐츠. 주황색으로 분류된 콘텐츠는 유해하거나 공격적인 언어가 눈에 띄는 수준으로 포함되어 있습니다. 이러한 콘텐츠에는 더 강한 욕설, 더 노골적이거나 공격적인 어조 또는 증오 발언이나 괴롭힘에 가까운 콘텐츠가 포함될 수 있지만, 가장 심각한 수준에는 미치지 않는 내용이 포함됩니다. 이러한 콘텐츠는 일반적으로 AI Guardrails에 의해 더 엄격한 조치를 유발합니다.
- 🔴 빨간색: 유해성 수준이 높은 콘텐츠. 빨간색으로 표시된 콘텐츠는 공격성이 높고 심각한 수준의 언어가 포함되어 있음을 나타냅니다. 이러한 콘텐츠에는 종종 특정 집단을 대상으로 한 노골적인 증오 발언, 직접적인 위협, 심각하게 모욕적인 언어 또는 불법 활동을 조장하는 콘텐츠가 포함됩니다. AI Guardrails은 피해를 방지하고 안전을 유지하도록 이러한 수준의 콘텐츠를 차단하거나 플래그를 지정하도록 설정할 수 있습니다.