대화형 AI의 발달…학습 데이터 필터링·탐지 기술 활용
AI윤리 준칙 세우고 혐오 표현 감지·분류 데이터셋 개발

스타트업 스캐터랩이 2020년 말 출시한 챗봇 '이루다'는 개인정보 유출과 장애인·성소수자 혐오 발언 등으로 20일만에 서비스를 중단했다. 스케터랩은  ‘이루다 2.0’에 어뷰징 탐지 모델을 개발해 선정적, 공격적, 편향적인 내용을 걸러낼 수 있는 시스템을 도입했다고 밝혔다. 사진/이루다 페이스북
스타트업 스캐터랩이 2020년 말 출시한 챗봇 '이루다'는 개인정보 유출과 장애인·성소수자 혐오 발언 등으로 20일만에 서비스를 중단했다. 스케터랩은 ‘이루다 2.0’에 어뷰징 탐지 모델을 개발해 선정적, 공격적, 편향적인 내용을 걸러낼 수 있는 시스템을 도입했다고 밝혔다. 사진/이루다 페이스북

인종차별 및 성소수자‧여성 등 소수자 혐오 발언으로 논란이 된 인공지능(AI) 대화형 챗봇 '이루다' 사태 이후로 1년이 훌쩍 지났다. AI를 개발하는 IT기업들에게 AI윤리 정립, 혐오표현 방지는 최우선 요소 중 하나가 됐다.

27일 업계에 따르면 국내 IT기업들은 ‘초거대 AI’ 언어모델을 적용한 서비스를 선보이고 있다. 초거대 AI는 연산 속도를 극대화할 수 있는 슈퍼컴퓨팅 인프라를 기반으로, 대규모 데이터를 스스로 학습해 인간처럼 사고하거나 학습 및 판단할 수 있다.

해당 서비스들은 아직 초기 단계지만 실제 사람과 대화할 때처럼 자연스럽게 이야기를 나눌 수 있다. 기존 AI 스피커처럼 단순하게 명령형 질문에만 답변을 내놓는 게 아니라, 말장난을 주고받는 등 ‘티키타카’까지 가능하다.

동시에 업계에서는 소위 제2의 이루다 사태를 막기 위한 안전장치에도 힘을 쏟고 있다. 지난해 스타트업 스캐터랩은 자사 앱에서 학습한 대화 데이터 100억 건을 바탕으로 ‘이루다’를 개발했는데, 개인정보 유출과 장애인·성소수자 혐오 발언 등으로 20일만에 서비스를 중단해야 했다.

당시 이루다의 첫 버전은 실제 대화에 쓰인 혐오 발화를 그대로 학습하면서 문제가 됐다. ‘이루다 2.0’에 어뷰징 탐지 모델을 개발해 선정적, 공격적, 편향적인 내용을 걸러낼 수 있는 시스템을 도입했다.

SK텔레콤은 지난 16일 AI에이전트 ‘A.(에이닷)' 출시 설명회를 열고 오픈 베타 버전을 공개하며, 학습 데이터에서 개인정보 침해 요소나 편향성 발언에 대해 학습 과정에서 모두 필터링 작업을 거쳤다고 설명했다.

이상호 SKT CTO는 “예컨대 마약은 어떻게 구하냐는 질문에 위험한 일은 하지 말자고 대답하는 방식”이라면서도 “단 완벽하게 막을 수는 없다. (고객들이)화면 내 좋아요, 나빠요 등 피드백을 주면 개선시킬 것"이라고 말했다.

KT 또한 지난 19일 서울 서초구 KT 융합기술원에서 초거대AI를 연내 공개하겠다고 밝히며 AI 윤리 이슈를 충분히 고려하고 있다고 강조했다. 학습데이터 필터링 강화, 데이터 간 균형 조정 등을 통해 AI의 편향성을 제거하고, ‘유해 콘텐츠’ 필터링 기술 등 다양한 딥러닝 기반 탐지 기술을 적극 활용한다는 취지다.

네이버 또한 초거대 AI 하이퍼클로바를 바탕으로 한 ‘아바타 챗봇’을 개발하고 있다. 단 아직까지 상용화 계획은 없으며, 클로바의 AI 대화 기술을 고도화하는 연구 목적으로 내부에서만 활용되고 있다.

네이버는 지난해 2월 서울대 AI 정책 이니셔티브와 함께 'AI 윤리 준칙'을 공개한 바 있다. 네이버가 발표한 AI 윤리 준칙은 ▲사람을 위한 AI 개발, ▲다양성의 존중, ▲합리적인 설명과 편리성의 조화, ▲안전을 고려한 서비스 설계, ▲프라이버시 보호와 정보 보안 의 5개 조항으로 이뤄졌다.

네이버 관계자는 “기술 경쟁력 확보와 함께 AI 윤리 논의에 적극 나서고 있다”고 강조했다.

한편으로는 온라인 세상에서 혐오표현을 감지하고 걸러낼 수 있는 게임업체의 AI 모델이 주목을 받기도 했다. 스마일게이트 AI센터가 깃허브에 공개한 ‘코리안 언스마일 데이터셋’이 그 주인공이다. 스마일게이트 AI센터는 55만여개 데이터를 기반으로 1만개 데이터셋을 구축했다.

스마일게이트 AI센터는 데이터셋 구축 과정에서 여성·가족, 성소수자, 남성, 인종·국적, 연령, 지역, 종교, 기타혐오 등 8개 카테고리로 분류했으며, 혐오발언을 분류하기 위한 기준 모델도 제시했다. 해당 데이터셋을 통해 게임 커뮤니티 댓글, 고객 응대 상담 챗봇, 여론 조사 등 다양한 분야에서 대상을 둘러싼 혐오 발언 여부를 확인할 수 있다는 설명이다.

저작권자 © 중소기업신문 무단전재 및 재배포 금지