mobile background

mediaCORPUS with

과학기술정보통신부

더욱 진화한 AI, 실용적인 AI 서비스 연구와 개발의 토대가 되는 데이터를 구축해 누구나 사용할 수 있게 공개하고 있습니다.


BlenderBot

― 인터넷 검색으로 지식을 확장해 대화하는 방법을 담은 데이터

우리가 대화할 때는 세계에 대한 지식이 필요합니다. 지식이 부족할 때는 인터넷 검색으로

그 한계를 극복합니다.

지식검색 대화 데이터는 인터넷 검색으로 모르는 내용을 찾고 대화하는 인간처럼, AI가 인터넷 검색 결과를 활용해 대화를 구사하는 능력을 학습하는 데이터입니다.

블렌더봇 지식검색 대화 데이터 2022

  • 인터넷 검색을 반영해 대화를 생성하는 모델 학습용 데이터 기획
  • 인터넷 정보의 반영 기준 및 정보 유형 분류 체계 수립
  • 18,000 대화 세션 구축
  • 38만 발화 구축

Multi-turn Chat

― 연속 대화의 맥락 이해에 필요한 정보가 표시된 데이터

챗봇으로 상품을 주문하고, 예약하는 것이 일상이 되고 있습니다.

챗봇이 사용자의 의도에 반응하려면 대화에 나타나는 정보의 흐름을 정확히 인식할 수 있어야 합니다.

한국어 SNS 멀티턴 대화 데이터는 AI가 정보의 흐름에 따라 대화 맥락을 인식하는 능력을

향상시키는 데이터입니다.

한국어 SNS 멀티턴 대화 데이터 2023

  • 일상 대화 DST task를 위한 slot-value 라벨링 체계 설계 및 정보 라벨링
  • 신조어 반영 기준 설계
  • 20만 대화 세션 구축
  • 325만 발화 구축

AI Evaluation

― AI의 응답에 대한 사람들의 선호도, 평가를 반영한 데이터

챗봇 성능에 대한 사람들의 기대치가 높아지고 있습니다.

챗봇 응답의 품질을 높이기 위해서는 사람이 선호하는 응답을 아는 것이 중요합니다.

AI 응답 결과 품질 평가 데이터는 사람들의 평가와 선호도를 반영하여 응답 품질을 향상시키는 데 필요한 데이터입니다.

AI 응답 결과 품질 평가 데이터 2023

  • AI 응답 평가 지표 설계 및 라벨링
  • 110만 발화 구축 (대화 세션 약 60,000 세트)

Dementia Screening

― 치매 검사 질문과 대답 상황을 담은 데이터

치매는 환자와 가족 모두에게 큰 어려움을 안겨주는 질병으로, 조기 진단과 예방이 무엇보다

중요합니다. 우리 곁에 항상 AI를 두고  진단과 예방에 활용할 수 있다면 치매 발병률을 줄일 수 있습니다.

치매 환자 문진 AI 학습용 데이터는 치매 문진을 위한 대화 능력 향상에 필요한 데이터입니다.

치매 환자 문진 AI 학습용 대화 데이터 2021

  • 치매 진단용 문진 시스템 VUI 설계
  • 질의 응답 intent, entity 설계
  • 치매 문진 대화, 자유 대화 학습용 데이터셋 6,000set 구축

mobile background