데이터 수집 및 성능 검증에 중점을 둔 분야별 신경 기계 번역 엔진을 만들려고 했습니다(2부).

현장별 NMT 엔진의 성능 검증
저는 분야별 신경망 기계번역 엔진을 만들려고 노력했습니다 - 실제로 데이터 수집 및 성능 검증에 중점을 두고 (1부)에서 수집한 IT 분야의 중국어-일본 이중 언어 데이터를 사용하여 현장별 일본어-일본어 및 중국어-일본 NMT 엔진의 프로토타입을 만들었습니다.
번역 엔진의 모델을 만들기 위해 OpenNMT라는 도구를 사용했습니다.
이제 실제로 테스트 텍스트(IT 분야)를 번역하여 IT NMT의 성능을 확인해보겠습니다.
여기서 비교할 범용 NMT는 업계에서 가장 진보 된 Google 번역입니다.
표의 숫자는 자동 평가 기준인 BLEU 값(4g)입니다. (BLEU 설명)
중국과 일본 | 하루 | |
IT 분야의 NMT | 40.79 | 35.35 |
구글 | 37.53 | 28.43 |
결과 BLEU 값에서 IT 분야의 테스트의 경우 IT NMT는 소량의 데이터로도 일반 Google 번역보다 더 잘 평가될 수 있는 것으로 나타났습니다.
사실, IT 분야의 NMT가 범용 Google 번역보다 더 나은 번역은 어떤 종류를 생각해냈습니까?
예를 들어:
원문 언어 | 번역 | IT 분야의 NMT 번역 | 구글 번역기 |
过渡权重 | 마이그레이션 무게 | 마이그레이션 무게 | 전이 가중치 |
IT 필드 NMT의 일본어 번역은 중국어 "权重 = weight"에 대한 "weight"로 올바르게 표시되었지만 Google은 "权重 = weight"의 일반적인 의미로 "weight"를 잘못 출력했습니다.
이와 같이 범용 NMT가 가지고 있는 기술 용어를 번역하는 문제는 IT 분야에서 NMT를 사용함으로써 개선될 수 있습니다.
이중 언어 데이터의 양이 충분하지 않더라도 범용 NMT를 능가할 수 있는 현장별 NMT
이 연구에서는 분야별 NMT 엔진을 만들기 위해 이중 언어 데이터를 수집하는 방법을 조사했습니다. 이 글에서 소개한 다른 데이터 수집 방법에 대해서는 다른 기회가 있으면 소개하고 싶습니다.
또한 성능 검증을 통해 사용된 이중 언어 데이터의 양이 충분하지 않더라도 현장별 NMT가 최첨단 범용 NMT보다 우수할 수 있음을 보여주었습니다.
분야별 NMT를 확보한 후, 드디어 고객의 기대에 부응하는 번역 서비스를 제안할 수 있습니다. 번역 과정은 다음과 같습니다.
1. 입력 문장의 필드를 자동으로 결정하는 기능
2. 각 분야별 NMT 엔진에 전달
3. 해당 필드 엔진에서 번역 출력
어떠셨나요?
분야별 NMT에 대해 조금이라도 알고 계셨기를 바랍니다.
앞으로 NMT 관련 콘텐츠를 더 많이 소개할 예정이니 기대해 주세요!