mediaCORPUS with

문화체육관광부 국립국어원

한국인의 메신저 대화 사용 관습과, 윤리적 언어 사용 기준을 데이터로 구축해 누구나 사용할 수 있게 공개하고 있습니다.


Online Chat

― 한국어 메신저 고유의 대화 방식을 담은 데이터

우리 일상의 중요한 의사소통 수단으로 자리 잡은 카카오톡 등의 메신저 대화에는 독특한

사용 방식과 표현이 나타납니다.

메신저, 온라인 대화 데이터는 AI의 온라인 대화 이해, 구사 능력 향상에 필요한 데이터입니다.

온라인 & 메신저 대화 자료 수집 및 말뭉치 구축 2019, 2021

  • 지역별 구성 비율 고려한 10 ~ 70대 한국인 14,000명 실사용 메신저 대화 수집
  • 2천만 발화 데이터 수집 및 정제
  • 기기 및 키보드 유형 등 매체 특성 고려한 라벨링
  • 개인정보 비식별화 / 비윤리 표현 정제 지침 수립
  • 수집 기간별 시사, 일상 트렌드 주제 반영

AI Ethics

― 언어 표현에 대한 인간의 윤리적인 가치 판단을 담은 데이터

소통을 위해서는 상대방에게 상처를 주는 표현이 무엇인지를 알고 가려 쓸 수 있어야 합니다.

AI가 우리 인간과 소통하기 위해서도 표현에 문제가 없는지를 판단하고 가려서 사용하는

능력이 필요합니다.

윤리 라벨링 데이터는 보편적인 윤리 판단 기준을 체계화해 언어 표현의 윤리성에 대한 AI의

판단 능력 향상을 돕는 데이터입니다.

말뭉치 언어의 사회적 인식 조사 / 비윤리적 표현 말뭉치 구축 2020, 2021

  • 비윤리적 표현 라벨링 기준 설계
  • 구어, 웹, 메신저 대화 2천 6백만 어절 비윤리 표현 라벨링
  • 차별, 혐오, 비난, 선정, 욕설, 범죄 등 비윤리 유형 분류와 강도 3단계 라벨링