mediaCORPUS with

삼성전자 

AI 음성 비서 빅스비 등 여러 AI 서비스가 우리의 말과 우리의 상황을 더욱 잘 이해하도록 돕는 데이터를 구축하고 있습니다.


NER

― 최신 트렌드, 이슈, 신조어 등 구어체 발화를 담은 데이터

인간 사회는 시시각각 변합니다. 언어는 인간 사회를 반영하기에, 사회의 변화에는 언어의

변화가 뒤따릅니다.

AI가 인간과 소통하기 위해서는 시시각각 변하는 언어를 학습해야 합니다.

NER* 및 구어 발화 데이터는 AI의 실시간 이슈 키워드, 신조어 이해 능력 향상에 필요한 데이터입니다.

Named Entity Recognition

NER 및 구어 발화 데이터 2013 ~ 현재

  • 구어체 발화, 고유명사, 신조어, 뉴스 토픽, 트렌드 용어 수집 및 정제 
  • 일간 50,000건 이상 데이터 수집 및 정제 처리

ASR

― 최신 트렌드와 관심사가 담긴 다채로운 목소리 데이터

음성으로 대화하는 AI가 우리의 일상이 되고 있습니다.

AI가 우리의 목소리에 반응하려면 다양한 음성 패턴을 학습해야 합니다.

ASR* 데이터는 최신 트렌드, 유행 콘텐츠 등 사람들의 관심사가 담긴

용어의 발음을 AI가 잘 알아듣도록 돕는 데이터입니다.

Automatic Speech Recognition

ASR 데이터 2020, 2022

  • 10 ~ 70대 한국인 1,800명, 10대 이하 어린이 100명 녹음 참여
  • 총 4,000시간 녹음 스크립트 기획, 설계, 녹음 및 정제, 검수

Smart Scan

― 다국어 글자 인식을 위한 복잡하고 다양한 문서 이미지 데이터

명함이나 영수증 속의 글자를 AI가 자동으로 인식하고, 기록해 주고 있기 때문에 우리의 일상이 편리해지고 있습니다.

하지만 구겨지거나 접혀 있는 등 다양한 형태의 문서를 우리 주변에서 볼 수 있습니다.

다국어 이미지 데이터는 다양한 형태의 문서 안에 포함된 여러 나라의 문자를 AI가 정확하게

인식하도록 돕는 데이터입니다.

다국어 이미지 데이터 2020 ~ 2021

  • 글로벌 17개 언어 문자 이미지 수집
  • A4, 신문, 지폐, 명함 등 16개 문서 템플릿 라벨링
  • 구김, 접힘, 그림자 등 다양한 형태의 이미지 라벨링
  • 28,000개 파일 라벨링

Safety-Aware Sounds

― 우리 일상의 안전을 위한 경고 신호 탐지 데이터

일상의 다양한 소음 속에서 위험을 알려주는 소리를 인식하는 것은 안전, 생명과도 직결됩니다.

AI를 이용해 위험 신호를 정확하게 포착할 수 있다면, 우리의 일상은 더욱 안전해 질 것입니다.

경고음 데이터는 이어폰을 착용한 상태에서도 AI가 위험 신호를 놓치지 않고 알려줄 수 있게

도와주는 데이터입니다.

경고음 데이터 2021

  • 한국, 미국, 유럽 등 국가별 경고음 5종 녹음 및 정제, 검수
  • 전체 50시간, 60,000개 수량 경고음 데이터 구축