AI 번역의 마지막 1%, '고유명사'의 벽을 허무는 자동화 에이전트 개발기

2025-07-18

AI 번역의 마지막 1%, '고유명사'의 벽을 허무는 자동화 에이전트 개발기

지루한 반복 작업에서 가치 창출로 - 번역 데이터 구축의 혁신적 자동화

바야흐로 AI 번역의 시대입니다. 우리는 그 어느 때보다 쉽고 빠르게 언어의 장벽을 넘나들고 있습니다. 하지만 AI 번역 모델이 아무리 발전해도, 여전히 완벽하게 정복하지 못한 '마지막 1%'의 영역이 존재합니다.

바로 고유명사전문 용어의 번역입니다. 최신 기술 용어, 낯선 지역의 이름, 역사적 인물 등은 문맥에 따라 번역이 달라지거나 아예 틀린 결과로 이어지기 쉽습니다.

미디어 코퍼스는 이러한 AI 모델의 성능 저하 요인을 해결하기 위한 혁신적인 자동화 솔루션을 개발했습니다. 이 글에서는 그 개발 과정과 성과를 공유하고자 합니다.


1. 문제의 시작: 끝나지 않는 '검색의 늪'

AI 번역의 고유명사 오번역을 바로잡기 위한 기존의 프로세스는 단순하고, 또 지루했습니다.

기존 수동 검수 프로세스
  • AI가 번역한 결과에서 고유명사 오류를 발견
  • 웹 브라우저를 열고, 해당 용어를 검색
  • 수많은 검색 결과를 일일이 확인하며 정확한 번역 탐색
  • 정답과 근거 URL을 스프레드시트에 수동 입력

이 과정은 한두 개라면 괜찮지만, 수백, 수천 개의 용어를 검수해야 할 때는 이야기가 달라집니다. 작업자는 귀중한 시간을 '단순 반복 검색'에 쏟아붓게 되고, 이는 결국 양질의 번역 데이터 구축을 더디게 만드는 병목 현상을 유발했습니다.

"이 지루한 과정을 기술로 자동화할 수는 없을까?" 이 질문이 저희 프로젝트의 시작이었습니다.

반복 작업의 숨겨진 비용

작업 규모수동 검수 시간작업자 피로도품질 일관성
100개 용어4-6시간중간양호
500개 용어20-30시간높음저하
1000개 용어40-60시간매우 높음불일치

2. 해결책: 인간의 검색 프로세스를 모방한 AI 에이전트

저희는 인간 작업자의 검색 및 판단 과정을 그대로 모방하는 자동화 에이전트를 개발했습니다. 이 에이전트는 Google Sheets를 작업대로 삼고, Tavily 웹 검색 API를 눈과 손으로, 그리고 OpenAI의 GPT 모델을 두뇌로 활용합니다.

에이전트 아키텍처

[Google Sheets 작업 수신] 
        ↓
[Tavily API로 웹 검색] 
        ↓
[LLM 1: 정보 추출] 
        ↓
[LLM 2: 결과 재구성] 
        ↓
[Google Sheets 결과 업데이트]
    

이 워크플로우는 인간 전문가의 사고 과정을 단계별로 분해하여 각각을 최적화된 기술 스택으로 구현한 것입니다.


3. 1단계: 최적의 답을 찾아내는 지능적 웹 검색

자동화의 성패는 '얼마나 정확한 정보를 가져오는가'에 달려있습니다. 저희는 이 핵심적인 역할을 위해 Tavily API를 선택했습니다.

Tavily는 단순한 검색 결과를 넘어, AI 애플리케이션에 최적화된 정제된 정보를 제공하는 검색 API입니다.

다중 쿼리 전략 (Multi-Query Strategy)

저희 에이전트는 양질의 검색 결과를 얻기 위해 다각적 접근법을 사용합니다:

검색 전략의 핵심
  • 다중 쿼리: 용어 자체와 문맥 문장을 별도로 검색
  • 심층 검색: Tavily의 advanced 옵션으로 포괄적 탐색
  • 신뢰도 필터링: 0.8점 이상의 고신뢰도 결과만 선별

검색 로직 예시:

def get_best_search_results(term: str, context_sentence: str) -> str:
    """다중 쿼리 검색과 필터링으로 최적의 결과를 도출합니다."""
    
    # 1. 다중 쿼리 실행 (용어 자체 + 문맥)
    term_search_results = perform_search(
        query=term, 
        search_depth="advanced"
    )
    context_search_results = perform_search(
        query=context_sentence, 
        search_depth="advanced"
    )
    
    all_raw_results = (
        term_search_results.get("results", []) + 
        context_search_results.get("results", [])
    )
    
    # 2. 신뢰도(score) 기반 필터링
    MIN_SCORE = 0.8
    filtered_results = [
        result for result in all_raw_results
        if result.get("score", 0) &gt= MIN_SCORE
    ]
    
    # 3. 결과 포맷팅하여 결합
    final_content = format_search_results(filtered_results)
    
    return final_content
    

이러한 체계적인 검색 및 필터링 과정은 마치 숙련된 연구원처럼 웹에서 가장 신뢰할 수 있는 정보만을 정확하게 수집하는 핵심 로직입니다.


4. 2단계: 2-Step LLM Chain으로 정확도 향상

저희는 단일 LLM 호출 방식이 아닌, 역할을 분리한 2단계 LLM 체인(Two-Step LLM Chaining) 구조를 채택했습니다.

1차 LLM: 추출/Extraction (gpt-4.1-mini)

수집된 방대한 웹 검색 결과물에서, 원본 용어와 직접적으로 관련된 핵심 내용만 '추출'하는 역할을 합니다. 이 단계에서는 빠르고 비용 효율적인 모델을 사용하여 노이즈를 제거합니다.

extraction_system.txt 프롬프트 핵심:
"검색 결과에서 참조 열과 유사한 표현이 포함된 부분을 수정 없이 그대로 가져와."

2차 LLM: 재구성/Reconstruction (gpt-4.1)

1차에서 정제된 핵심 정보를 바탕으로, 최종 결과물을 '재구성'합니다. 더 강력한 추론 능력을 가진 모델을 사용하여, 원본 문장의 구조와 스타일을 유지하면서 가장 자연스럽고 정확한 번역문을 생성합니다.

reconstruction_system.txt 프롬프트 핵심:
"참조 텍스트의 의미와 구조를 유지하되, 입력된 텍스트(추출된 정보)의 표현과 스타일을 사용해 문장을 다시 작성해."

2단계 체인의 장점

구분단일 LLM 방식2단계 체인 방식
정확도중간높음
일관성낮음높음
비용 효율성중간최적화됨
처리 속도빠름안정적

이러한 '분업' 구조는 각 단계의 목적에 최적화된 모델과 프롬프트를 사용함으로써, 단일 호출 방식보다 훨씬 높은 품질의 결과물을 안정적으로 생성할 수 있게 해줍니다.


5. 결과: 단순 반복에서 가치 창출로

이 자동화 에이전트를 도입한 후, 저희는 놀라운 변화를 경험했습니다.

압도적인 효율성 향상

수 시간이 걸리던 수백 개의 용어 검수 작업이 단 몇 분 만에 완료됩니다. 작업자는 더 이상 검색에 시간을 낭비하지 않고, 에이전트가 가져온 결과를 최종 검토하고 모델 성능 개선에 집중할 수 있게 되었습니다.

자동화 도입 전후 비교
  • 작업 시간: 수 시간 → 수 분 (95% 단축)
  • 처리 용량: 하루 50개 → 하루 500개 (10배 증가)
  • 작업자 만족도: 반복 작업 스트레스에서 해방

일관성 있는 고품질 데이터

인간의 개입을 최소화함으로써 발생할 수 있는 실수를 줄이고, 일관된 기준에 따라 정제된 데이터를 확보하게 되었습니다.

  • 주관적 판단에 의한 편차 제거
  • 피로도에 따른 품질 저하 방지
  • 표준화된 검증 프로세스 적용

빠른 데이터 구축 사이클

검수 자동화는 곧 양질의 번역 데이터 구축 속도를 가속화합니다. 이는 AI 번역 모델의 성능을 더 빠르게, 더 자주 개선할 수 있는 선순환 구조로 이어집니다.

선순환 구조:
빠른 데이터 검수 → 고품질 학습 데이터 → 모델 성능 향상 
        ↑                                      ↓
더 나은 번역 품질 ← 사용자 만족도 증가 ← 서비스 개선
    

6. 기술적 혁신 포인트

인간 중심 설계 철학

이 에이전트의 가장 큰 특징은 인간의 작업 패턴을 그대로 모방했다는 점입니다. 완전히 새로운 프로세스를 만들어낸 것이 아니라, 숙련된 작업자가 하는 일을 기술로 재현했습니다.

인간 모방의 핵심 요소
  • 다각적 검색: 여러 키워드로 교차 검증
  • 신뢰도 판단: 소스의 품질과 관련성 평가
  • 맥락 고려: 문장 전체의 의미와 조화
  • 결과 검토: 최종 품질 확인 및 수정

확장 가능한 아키텍처

현재는 고유명사 번역에 집중하고 있지만, 이 에이전트의 구조는 다른 유형의 데이터 검증 작업으로 쉽게 확장할 수 있습니다:

  • 기술 용어 표준화
  • 의료·법률 전문 번역
  • 문화적 표현의 현지화
  • 시간에 따른 용어 변화 추적

비용 최적화 전략

2단계 LLM 체인 구조를 통해 비용과 성능의 최적 균형점을 찾았습니다:

단계모델역할비용 효율성
1차 추출GPT-4.1-mini노이즈 제거, 정보 추출높음
2차 재구성GPT-4.1고품질 결과 생성최적화됨

7. 미래 발전 방향

실시간 학습 및 개선

현재 에이전트는 정적인 규칙에 따라 작동하지만, 향후에는 사용자의 피드백을 학습하여 스스로 개선하는 기능을 추가할 예정입니다.

다국어 확장

한국어-영어 번역을 넘어, 다양한 언어 쌍으로 확장하여 글로벌 번역 데이터 구축에 기여할 계획입니다.

업계 표준 도구로의 발전

개별 프로젝트용 도구를 넘어, 번역 업계에서 범용적으로 사용할 수 있는 표준 솔루션으로 발전시켜 나갈 것입니다.


결론: 기술의 진정한 가치

기술의 진정한 가치는 인간을 지루한 반복 작업에서 해방시키고, 더 창의적이고 본질적인 일에 집중할 수 있도록 돕는 데 있다고 믿습니다.

저희가 개발한 이 작은 에이전트는 AI 번역 모델의 마지막 1%를 채우는 여정의 중요한 첫걸음입니다. 하지만 그 의미는 단순한 자동화를 넘어서 있습니다.

이 프로젝트가 보여주는 가치
  • 인간 중심 설계: 기술이 인간을 대체하는 것이 아닌, 인간의 능력을 확장
  • 점진적 혁신: 급진적 변화가 아닌, 기존 워크플로우의 지능적 개선
  • 품질과 효율의 양립: 빠른 처리와 높은 품질을 동시에 실현
  • 확장 가능성: 한 분야의 성공을 다른 영역으로 확산

앞으로도 미디어 코퍼스는 기술을 통해 데이터의 가치를 높이고, 더 완벽한 AI를 만들어나가는 노력을 계속할 것입니다. AI 번역의 마지막 1%를 정복하는 여정에서, 저희는 항상 인간과 기술이 조화롭게 협력하는 미래를 그려나가겠습니다.

기술과 인간의 협력으로 완성하는 완벽한 번역, 미디어 코퍼스가 만들어갑니다.