LLM을 활용해 자동화와 인간 검수를 결합한 다국어 멀티모달 데이터 구축하기
AI 기술이 빠르게 발전하면서, AI가 할 수 있는 일의 범위가 급격히 확장되고 있습니다. 단순한 텍스트 처리를 넘어 이미지를 이해하고, 복잡한 추론을 수행하며, 다양한 언어로 소통할 수 있게 된 AI에 대한 사람들의 기대치도 그만큼 높아졌습니다.
이러한 높은 기대에 부응하기 위해 AI가 새롭게 도전해야 하는 영역이 계속 늘어나고 있으며, 이는 기존의 단순한 텍스트 데이터를 넘어 멀티모달(다중 양식) 데이터와 다국어 데이터의 중요성을 크게 부각시키고 있습니다.
멀티모달 데이터는 단순히 텍스트로만 소통하는 AI를 넘어, 사람이 눈으로 세상을 인식하고 이를 말로 표현하는 것처럼 AI의 세상 인식 능력과 소통 능력을 향상시키는 핵심 데이터입니다. 또한 AI의 소통 능력이 한 언어에만 머무르지 않기 때문에 다국어 데이터의 중요성도 그만큼 커지고 있습니다.
그런데 기술이 고도화되는 만큼 데이터 구축의 난이도도 함께 상승하고 있습니다. 수십만, 수백만 건의 다국어 멀티모달 이미지와 텍스트에서 정확한 정보를 추출하고 분류하는 작업은 더더욱 고품질의 데이터를 효율적으로 구축하는 것이 핵심 과제가 되었습니다.
미디어 코퍼스는 이러한 문제들을 해결하기 위한 실용적 해법을 제시합니다. 바로 PixelPen이라는 다국어 멀티모달 데이터 구축에 특화된 LLM 기반 시스템입니다.
1. 현실의 벽: 다국어 멀티모달 데이터 구축의 복합적 난제
기존의 다국어 멀티모달 데이터 구축 방식은 여러 가지 해결해야 할 문제를 가지고 있었습니다.
문제 1: OCR의 명백한 한계
전통적인 OCR(광학 문자 인식) 기술은 이미지 속 텍스트를 '인식'하는 데 그칩니다. "이 텍스트가 '장소명'인지, '주소'인지"와 같은 맥락적 의미를 이해하지 못합니다. 더욱이 다양한 언어가 혼재된 멀티모달 환경에서는 이러한 한계가 더욱 두드러집니다.
결국 '추출'은 자동화되지만, 가장 중요한 '분류' 작업은 온전히 사람의 몫으로 남아 비효율을 유발합니다.
문제 2: 다국어 환경에서의 대규모 인력 동원 필요성
다양한 언어로 구성된 멀티모달 데이터를 처리하기 위해서는 언어권별로 대규모의 전문 라벨링 인력을 동원해야 합니다. 8개 언어가 포함된 프로젝트라면 각 언어별로 숙련된 작업자를 확보하고 관리해야 하는 복잡성이 기하급수적으로 증가합니다.
문제 3: 피할 수 없는 휴먼 에러와 품질 편차
사람이 수작업으로 다국어 멀티모달 정보를 일일이 찾아 입력하는 과정에서는 오타나 잘못된 분류와 같은 실수가 발생할 수밖에 없습니다. 특히 언어별 작업자 간 숙련도 편차로 인해 품질 일관성을 유지하기 어려운 상황이 발생합니다.
"다국어 멀티모달 환경에서 이런 여러 문제들을 기술로 해결할 수는 없을까?"
이 고민이 바로 PixelPen 프로젝트의 출발점이었습니다.
2. 기술적 해결책: 다국어 멀티모달 환경을 위한 LLM 활용
저희는 이러한 문제들을 해결하기 위해, 단순한 OCR을 넘어 다국어 맥락을 이해하는 LLM(거대 언어 모델)을 핵심 엔진으로 사용하는 자동화 시스템, PixelPen을 개발했습니다.
PixelPen은 다국어 멀티모달 이미지 한 장을 받아 그 안의 각 언어별 텍스트가 각각 어떤 의미를 갖는지 스스로 판단하여 '추출'과 '분류'를 동시에 해냅니다.
다국어 멀티모달 프로젝트에서의 특별한 가치
이 프로젝트는 한국어뿐만 아니라 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 이탈리아어로 구성된 멀티모달 데이터를 동시에 구축해야 하는 어려운 과제였습니다. 전통적인 방식이었다면 각 언어별로 전문 인력을 배치하고 멀티모달 데이터 해석 능력까지 갖춘 작업자를 확보해야 했겠지만, LLM의 뛰어난 다국어 이해 능력과 멀티모달 처리 능력을 동시에 활용함으로써 소수의 인력만으로도 다양한 국가로부터 수집된 복잡한 형태의 데이터를 정확하게 라벨링할 수 있었습니다.
다국어 멀티모달 데이터 구축의 효율성 개선- 언어별 전문 인력 불필요: 하나의 시스템으로 8개 언어의 멀티모달 데이터 동시 처리
- 일관된 품질 보장: 언어별, 모달리티별 작업자 편차 없이 균일한 라벨링 품질
- 비용 효율성: 다국어 멀티모달 전문 인력 확보 비용 대폭 절감
다국어 멀티모달 환경에서의 우수한 성능
8개 언어로 구성된 대규모 다국어 멀티모달 프로젝트에서 PixelPen이 보여준 성과는 주목할 만합니다. 언어별로 다른 문자 체계와 표기 방식, 그리고 이미지와 텍스트가 결합된 복잡한 데이터 구조에도 불구하고 일관된 높은 품질의 결과를 제공했습니다.
| 구분 | 기존 방식 (다국어 멀티모달 전문 인력) | PixelPen (LLM 기반) | 개선 효과 |
|---|
| 인력 구성 | 언어별 멀티모달 전문 작업자 8명 + 검수자 | PixelPen 시스템 + 소수 검수자 | 인력 대폭 절감 |
| 품질 일관성 | 작업자별 언어 숙련도 및 멀티모달 해석 편차 발생 | 모든 언어와 모달리티에서 균일한 품질 보장 | 품질 표준화 |
| 처리 속도 | 언어별 순차 처리 또는 대규모 병렬 인력 확보 필요 | 8개 언어 멀티모달 데이터 동시 처리 | 처리 시간 단축 |
전체 프로젝트 성과 지표
| 구분 | 기존 방식 (OCR + 수작업) | PixelPen | 개선 효과 |
|---|
| 작업 방식 | • OCR로 이미지에서 내용 추출 후 사람이 항목에 맞게 기록(하는 것으로 추정) • 검수 및 수정 (미디어 코퍼스) | • LangChain 프레임워크 + 프롬프트 엔지니어링으로 자동 라벨링 • 검수 및 수정 (미디어 코퍼스) | 효율성 향상 |
| 휴먼 에러 | 비슷한 글자 잘못 작성, 띄어쓰기, 특수 기호 등 다수의 오탈자 발생 | • 오탈자 발생률 0%에 가까움(작은 글씨도 정확하게 식별) • 타이핑 어려운 특수 글자도 정확하게 식별 후 추출 • 유사한 글자를 맥락에 따라 구분해서 추출 | 품질 완성도 극대화 |
| 개선 방법 | 피드백 및 작업자 개별 재교육 필요 개선되기까지 시간 소요 | 작업자 검수 후 오류 패턴 분석 및 프롬프트 고도화로 즉각 개선 | 실시간 성능 향상 |
| 처리 속도 | OCR + 사람 분류 + 작성까지 이미지 1건 당 3분 이상 소요 추정 (정규화 미포함) | 이미지 1건당 추출 및 작성 + 정규화까지 5~10초 | 18~36배 속도 향상 |
| 비용 | 건당 100원 가량 | 건당 10~15원 가량(자동 정규화 처리 포함) | 85~90% 비용 절감 |
특히 주목할 점: 8개 언어가 혼재된 복잡한 멀티모달 환경에서도 PixelPen은 추출과 동시에 의미적 분류까지 자동으로 완료하며, 언어별·모달리티별 품질 편차 없이 일관된 성능을 보여주었습니다. 이는 다국어 멀티모달 데이터 구축에서 작업 효율성을 크게 개선한 성과입니다.
3. 기술적 차별화: 디테일이 품질을 만든다
PixelPen의 높은 자동화 품질은 우연이 아닙니다. 그 이면에는 다음과 같은 기술적 결정들이 있었습니다.
체계적인 프롬프트 엔지니어링
LLM이 일관된 고품질 결과를 내도록 'TASK → RULES → FIELDS → EXAMPLES'라는 표준화된 구조의 프롬프트를 설계했습니다. 이는 LLM의 자유로운 추론을 제어하고, 원하는 결과만을 정밀하게 얻어내는 핵심적인 역할을 합니다.
LangChain 기반의 다중 LLM 활용
전체 아키텍처는 LangChain 프레임워크를 기반으로 구축되었습니다. 단순 정보 추출에는 비용 효율적인 소형 LLM을, 복잡한 맥락 이해나 콘텐츠 생성에는 강력한 대형 LLM을 사용하는 등, 각 작업의 특성에 맞는 최적의 모델을 유연하게 조합합니다.
기술 아키텍처의 핵심 장점- 비용 최적화: 작업별 적합한 모델 선택으로 불필요한 비용 제거
- 성능 향상: 각 단계에 특화된 LLM 활용으로 정확도 극대화
- 확장성 확보: 향후 AI 에이전트 아키텍처로 확장 가능한 설계
LangGraph 기반의 확장성 높은 아키텍처
전체 데이터 처리 과정은 상태(State)를 기반으로 동작하는 LangGraph로 설계되었습니다. 이는 '추출→정규화→검증'으로 이어지는 복잡한 파이프라인을 안정적으로 관리할 뿐만 아니라, 향후 각 단계를 더욱 자율적으로 수행하는 AI 에이전트 아키텍처로 손쉽게 확장할 수 있는 기술적 토대를 마련했습니다.
4. 핵심 성장 요소: AI-인간 협업을 통한 지속적 개선
PixelPen의 가장 효과적인 특징은 단순히 자동화 기술에만 있지 않습니다. 바로 AI와 인간 전문가가 협업하며 점진적으로 성능을 개선하는 '순환 학습 구조'에 있습니다.
[1단계: AI 자동 라벨링] → [2단계: 인간 전문가 검수] → [3단계: LLM 오류 패턴 분석 및 피드백] → [4단계: 시스템 및 프롬프트 고도화]
Human-in-the-loop의 효과적 활용
- AI 자동 처리: PixelPen이 대량의 데이터에 1차적으로 자동 라벨링을 수행합니다.
- 전문가 검수: 인간 전문가는 전체를 작업하는 대신, AI가 처리한 결과를 '검수'하는 역할에 집중합니다.
- 패턴 분석: 검수 과정에서 발견된 LLM의 오류 패턴은 체계적으로 수집됩니다.
- 시스템 고도화: 이 패턴을 분석하여 프롬프트를 더 정교하게 다듬거나, 후처리 로직을 보강하는 방식으로 시스템 전체의 성능을 지속적으로 향상시킵니다.
이러한 방식은 단순한 '자동화'를 넘어, 인간의 전문성과 AI의 효율성을 결합하여 데이터 품질을 지속적으로 개선하는 핵심 요소입니다.
5. 실무 적용: 빠르고 안정적인 워크플로우
짧은 기간 안에 대규모 데이터를 처리해야 하는 현실적인 제약 속에서, PixelPen은 Google Sheets를 데이터베이스 및 작업 관리 도구로 활용하여 빠르고 안정적인 워크플로우를 구현했습니다.
실무 중심의 설계 철학- 즉시 도입 가능: 복잡한 데이터베이스 구축 없이 기존 업무 환경 활용
- 실시간 모니터링: 작업 진행 상황과 품질을 실시간으로 추적
- 협업 효율성: 여러 검수자가 동시에 작업하고 결과를 공유
6. 미디어 코퍼스의 차별화된 역량
PixelPen은 미디어 코퍼스의 다국어 멀티모달 데이터 구축 전문성을 보여주는 대표 사례입니다. 저희가 제공하는 핵심 가치는 다음과 같습니다.
다국어 멀티모달 환경에 특화된 기술력
복잡한 다국어 멀티모달 환경에서 최신 LLM 기술을 고객의 비즈니스 목적에 맞게 가장 효율적인 방식으로 활용합니다. PixelPen은 바로 이러한 접근법의 성공 사례입니다.
검증된 다국어 품질 관리 시스템
AI 자동화와 인간 전문가의 검수를 체계적으로 결합하여, 다국어 멀티모달 환경에서도 속도와 품질을 동시에 확보하는 독자적인 방법론을 보유하고 있습니다.
글로벌 프로젝트 대응 역량
단순히 데이터를 납품하는 것이 아니라, 다국어 멀티모달 프로젝트 진행 과정에서 지속적으로 시스템을 고도화하여 더 나은 결과를 만들어내는 역량을 갖추고 있습니다.
7. 미디어 코퍼스의 접근 철학: 기술과 인간의 협업으로 완성도 높이기
AI 기술이 발전하는 만큼 AI가 필요로 하는 데이터 구축의 난이도도 올라가고 있습니다. 하지만 발전된 기술을 적재적소에 활용하고, 아직 완벽하지 못한 AI의 기술적 한계는 인간이 채워나가는 과정을 통해 완성도 높은 데이터를 구축할 수 있습니다.
PixelPen은 바로 이러한 미디어 코퍼스의 철학을 다국어 멀티모달 데이터 구축에 적용한 프로젝트 중 하나입니다. 저희는 앞으로도 기술과 사람이 각각의 장점을 살려 협업하는 가장 효율적인 방법을 찾아내어, 실용적이고 효과적인 데이터 구축 솔루션을 제공할 것입니다.
미디어 코퍼스와 함께라면- 대규모 다국어 멀티모달 데이터 처리도 더 이상 부담이 아닙니다
- AI 기술의 혜택을 다국어 글로벌 환경에서 현실적이고 실용적으로 누릴 수 있습니다
- 데이터 품질과 처리 속도, 그리고 다국어 일관성까지 모두 확보할 수 있습니다
다국어 멀티모달 AI 시대의 데이터 구축, 미디어 코퍼스가 함께 열어갑니다.
LLM을 활용해 자동화와 인간 검수를 결합한 다국어 멀티모달 데이터 구축하기
AI 기술이 빠르게 발전하면서, AI가 할 수 있는 일의 범위가 급격히 확장되고 있습니다. 단순한 텍스트 처리를 넘어 이미지를 이해하고, 복잡한 추론을 수행하며, 다양한 언어로 소통할 수 있게 된 AI에 대한 사람들의 기대치도 그만큼 높아졌습니다.
이러한 높은 기대에 부응하기 위해 AI가 새롭게 도전해야 하는 영역이 계속 늘어나고 있으며, 이는 기존의 단순한 텍스트 데이터를 넘어 멀티모달(다중 양식) 데이터와 다국어 데이터의 중요성을 크게 부각시키고 있습니다.
멀티모달 데이터는 단순히 텍스트로만 소통하는 AI를 넘어, 사람이 눈으로 세상을 인식하고 이를 말로 표현하는 것처럼 AI의 세상 인식 능력과 소통 능력을 향상시키는 핵심 데이터입니다. 또한 AI의 소통 능력이 한 언어에만 머무르지 않기 때문에 다국어 데이터의 중요성도 그만큼 커지고 있습니다.
그런데 기술이 고도화되는 만큼 데이터 구축의 난이도도 함께 상승하고 있습니다. 수십만, 수백만 건의 다국어 멀티모달 이미지와 텍스트에서 정확한 정보를 추출하고 분류하는 작업은 더더욱 고품질의 데이터를 효율적으로 구축하는 것이 핵심 과제가 되었습니다.
미디어 코퍼스는 이러한 문제들을 해결하기 위한 실용적 해법을 제시합니다. 바로 PixelPen이라는 다국어 멀티모달 데이터 구축에 특화된 LLM 기반 시스템입니다.
1. 현실의 벽: 다국어 멀티모달 데이터 구축의 복합적 난제
기존의 다국어 멀티모달 데이터 구축 방식은 여러 가지 해결해야 할 문제를 가지고 있었습니다.
문제 1: OCR의 명백한 한계
전통적인 OCR(광학 문자 인식) 기술은 이미지 속 텍스트를 '인식'하는 데 그칩니다. "이 텍스트가 '장소명'인지, '주소'인지"와 같은 맥락적 의미를 이해하지 못합니다. 더욱이 다양한 언어가 혼재된 멀티모달 환경에서는 이러한 한계가 더욱 두드러집니다.
결국 '추출'은 자동화되지만, 가장 중요한 '분류' 작업은 온전히 사람의 몫으로 남아 비효율을 유발합니다.
문제 2: 다국어 환경에서의 대규모 인력 동원 필요성
다양한 언어로 구성된 멀티모달 데이터를 처리하기 위해서는 언어권별로 대규모의 전문 라벨링 인력을 동원해야 합니다. 8개 언어가 포함된 프로젝트라면 각 언어별로 숙련된 작업자를 확보하고 관리해야 하는 복잡성이 기하급수적으로 증가합니다.
문제 3: 피할 수 없는 휴먼 에러와 품질 편차
사람이 수작업으로 다국어 멀티모달 정보를 일일이 찾아 입력하는 과정에서는 오타나 잘못된 분류와 같은 실수가 발생할 수밖에 없습니다. 특히 언어별 작업자 간 숙련도 편차로 인해 품질 일관성을 유지하기 어려운 상황이 발생합니다.
2. 기술적 해결책: 다국어 멀티모달 환경을 위한 LLM 활용
저희는 이러한 문제들을 해결하기 위해, 단순한 OCR을 넘어 다국어 맥락을 이해하는 LLM(거대 언어 모델)을 핵심 엔진으로 사용하는 자동화 시스템, PixelPen을 개발했습니다.
PixelPen은 다국어 멀티모달 이미지 한 장을 받아 그 안의 각 언어별 텍스트가 각각 어떤 의미를 갖는지 스스로 판단하여 '추출'과 '분류'를 동시에 해냅니다.
다국어 멀티모달 프로젝트에서의 특별한 가치
이 프로젝트는 한국어뿐만 아니라 영어, 중국어, 일본어, 스페인어, 프랑스어, 독일어, 이탈리아어로 구성된 멀티모달 데이터를 동시에 구축해야 하는 어려운 과제였습니다. 전통적인 방식이었다면 각 언어별로 전문 인력을 배치하고 멀티모달 데이터 해석 능력까지 갖춘 작업자를 확보해야 했겠지만, LLM의 뛰어난 다국어 이해 능력과 멀티모달 처리 능력을 동시에 활용함으로써 소수의 인력만으로도 다양한 국가로부터 수집된 복잡한 형태의 데이터를 정확하게 라벨링할 수 있었습니다.
다국어 멀티모달 환경에서의 우수한 성능
8개 언어로 구성된 대규모 다국어 멀티모달 프로젝트에서 PixelPen이 보여준 성과는 주목할 만합니다. 언어별로 다른 문자 체계와 표기 방식, 그리고 이미지와 텍스트가 결합된 복잡한 데이터 구조에도 불구하고 일관된 높은 품질의 결과를 제공했습니다.
전체 프로젝트 성과 지표
• 검수 및 수정 (미디어 코퍼스)
• 검수 및 수정 (미디어 코퍼스)
• 타이핑 어려운 특수 글자도 정확하게 식별 후 추출
• 유사한 글자를 맥락에 따라 구분해서 추출
극대화
개선되기까지 시간 소요
성능 향상
(정규화 미포함)
속도 향상
비용 절감
특히 주목할 점: 8개 언어가 혼재된 복잡한 멀티모달 환경에서도 PixelPen은 추출과 동시에 의미적 분류까지 자동으로 완료하며, 언어별·모달리티별 품질 편차 없이 일관된 성능을 보여주었습니다. 이는 다국어 멀티모달 데이터 구축에서 작업 효율성을 크게 개선한 성과입니다.
3. 기술적 차별화: 디테일이 품질을 만든다
PixelPen의 높은 자동화 품질은 우연이 아닙니다. 그 이면에는 다음과 같은 기술적 결정들이 있었습니다.
체계적인 프롬프트 엔지니어링
LLM이 일관된 고품질 결과를 내도록 'TASK → RULES → FIELDS → EXAMPLES'라는 표준화된 구조의 프롬프트를 설계했습니다. 이는 LLM의 자유로운 추론을 제어하고, 원하는 결과만을 정밀하게 얻어내는 핵심적인 역할을 합니다.
LangChain 기반의 다중 LLM 활용
전체 아키텍처는 LangChain 프레임워크를 기반으로 구축되었습니다. 단순 정보 추출에는 비용 효율적인 소형 LLM을, 복잡한 맥락 이해나 콘텐츠 생성에는 강력한 대형 LLM을 사용하는 등, 각 작업의 특성에 맞는 최적의 모델을 유연하게 조합합니다.
LangGraph 기반의 확장성 높은 아키텍처
전체 데이터 처리 과정은 상태(State)를 기반으로 동작하는 LangGraph로 설계되었습니다. 이는 '추출→정규화→검증'으로 이어지는 복잡한 파이프라인을 안정적으로 관리할 뿐만 아니라, 향후 각 단계를 더욱 자율적으로 수행하는 AI 에이전트 아키텍처로 손쉽게 확장할 수 있는 기술적 토대를 마련했습니다.
4. 핵심 성장 요소: AI-인간 협업을 통한 지속적 개선
PixelPen의 가장 효과적인 특징은 단순히 자동화 기술에만 있지 않습니다. 바로 AI와 인간 전문가가 협업하며 점진적으로 성능을 개선하는 '순환 학습 구조'에 있습니다.
Human-in-the-loop의 효과적 활용
이러한 방식은 단순한 '자동화'를 넘어, 인간의 전문성과 AI의 효율성을 결합하여 데이터 품질을 지속적으로 개선하는 핵심 요소입니다.
5. 실무 적용: 빠르고 안정적인 워크플로우
짧은 기간 안에 대규모 데이터를 처리해야 하는 현실적인 제약 속에서, PixelPen은 Google Sheets를 데이터베이스 및 작업 관리 도구로 활용하여 빠르고 안정적인 워크플로우를 구현했습니다.
6. 미디어 코퍼스의 차별화된 역량
PixelPen은 미디어 코퍼스의 다국어 멀티모달 데이터 구축 전문성을 보여주는 대표 사례입니다. 저희가 제공하는 핵심 가치는 다음과 같습니다.
다국어 멀티모달 환경에 특화된 기술력
복잡한 다국어 멀티모달 환경에서 최신 LLM 기술을 고객의 비즈니스 목적에 맞게 가장 효율적인 방식으로 활용합니다. PixelPen은 바로 이러한 접근법의 성공 사례입니다.
검증된 다국어 품질 관리 시스템
AI 자동화와 인간 전문가의 검수를 체계적으로 결합하여, 다국어 멀티모달 환경에서도 속도와 품질을 동시에 확보하는 독자적인 방법론을 보유하고 있습니다.
글로벌 프로젝트 대응 역량
단순히 데이터를 납품하는 것이 아니라, 다국어 멀티모달 프로젝트 진행 과정에서 지속적으로 시스템을 고도화하여 더 나은 결과를 만들어내는 역량을 갖추고 있습니다.
7. 미디어 코퍼스의 접근 철학: 기술과 인간의 협업으로 완성도 높이기
AI 기술이 발전하는 만큼 AI가 필요로 하는 데이터 구축의 난이도도 올라가고 있습니다. 하지만 발전된 기술을 적재적소에 활용하고, 아직 완벽하지 못한 AI의 기술적 한계는 인간이 채워나가는 과정을 통해 완성도 높은 데이터를 구축할 수 있습니다.
PixelPen은 바로 이러한 미디어 코퍼스의 철학을 다국어 멀티모달 데이터 구축에 적용한 프로젝트 중 하나입니다. 저희는 앞으로도 기술과 사람이 각각의 장점을 살려 협업하는 가장 효율적인 방법을 찾아내어, 실용적이고 효과적인 데이터 구축 솔루션을 제공할 것입니다.
다국어 멀티모달 AI 시대의 데이터 구축, 미디어 코퍼스가 함께 열어갑니다.