데이터 수집 및 성능 검증에 중점을 둔 분야별 신경 기계 번역 엔진을 만들려고 했습니다(2부).

현장별 NMT 엔진의 성능 검증

저는 분야별 신경망 기계번역 엔진을 만들려고 노력했습니다 - 실제로 데이터 수집 및 성능 검증에 중점을 두고 (1부)에서 수집한 IT 분야의 중국어-일본 이중 언어 데이터를 사용하여 현장별 일본어-일본어 및 중국어-일본 NMT 엔진의 프로토타입을 만들었습니다.
번역 엔진의 모델을 만들기 위해 OpenNMT라는 도구를 사용했습니다.

이제 실제로 테스트 텍스트(IT 분야)를 번역하여 IT NMT의 성능을 확인해보겠습니다.
여기서 비교할 범용 NMT는 업계에서 가장 진보 된 Google 번역입니다.
표의 숫자는 자동 평가 기준인 BLEU 값(4g)입니다. (BLEU 설명)

  중국과 일본 하루
IT 분야의 NMT 40.79 35.35
구글 37.53 28.43

 

결과 BLEU 값에서 IT 분야의 테스트의 경우 IT NMT는 소량의 데이터로도 일반 Google 번역보다 더 잘 평가될 수 있는 것으로 나타났습니다.

사실, IT 분야의 NMT가 범용 Google 번역보다 더 나은 번역은 어떤 종류를 생각해냈습니까?
예를 들어:

원문 언어 번역 IT 분야의 NMT 번역 구글 번역기
过渡权重 마이그레이션 무게 마이그레이션 무게 전이 가중치

 

IT 필드 NMT의 일본어 번역은 중국어 "权重 = weight"에 대한 "weight"로 올바르게 표시되었지만 Google은 "权重 = weight"의 일반적인 의미로 "weight"를 잘못 출력했습니다.

이와 같이 범용 NMT가 가지고 있는 기술 용어를 번역하는 문제는 IT 분야에서 NMT를 사용함으로써 개선될 수 있습니다.

이중 언어 데이터의 양이 충분하지 않더라도 범용 NMT를 능가할 수 있는 현장별 NMT

이 연구에서는 분야별 NMT 엔진을 만들기 위해 이중 언어 데이터를 수집하는 방법을 조사했습니다. 이 글에서 소개한 다른 데이터 수집 방법에 대해서는 다른 기회가 있으면 소개하고 싶습니다.
또한 성능 검증을 통해 사용된 이중 언어 데이터의 양이 충분하지 않더라도 현장별 NMT가 최첨단 범용 NMT보다 우수할 수 있음을 보여주었습니다.
분야별 NMT를 확보한 후, 드디어 고객의 기대에 부응하는 번역 서비스를 제안할 수 있습니다. 번역 과정은 다음과 같습니다.
1. 입력 문장의 필드를 자동으로 결정하는 기능
2. 각 분야별 NMT 엔진에 전달
3. 해당 필드 엔진에서 번역 출력
어떠셨나요?
분야별 NMT에 대해 조금이라도 알고 계셨기를 바랍니다.
앞으로 NMT 관련 콘텐츠를 더 많이 소개할 예정이니 기대해 주세요!