분야별 신경 기계 번역 엔진을 만들려고 했습니다: 데이터 수집 및 성능 검증에 집중 (1부)

처음에
2015년부터 AI 산업의 기술 신경망 발전과 함께 NMT(Neural Machine Translation)라는 새로운 유형의 기계 자동 번역이 등장했습니다.
NMT는 출시된 지 몇 년밖에 되지 않았지만 여전히 Rule Base Machine Translation으로 알려져 있습니다. RBMT) 및 통계적 기계 번역. SMT와 비교하면 더 정확한 번역이 가능하기 때문에 단번에 기계 번역의 주류가 되었습니다.
이제 분야별 번역으로 넘어가서, 분야별 번역은 기계가 아닌 인간에게 맡겨야 한다는 인식이 강합니다.
그 이유는 다음과 같습니다.
1. 전문 문서를 번역하는 난이도가 높고 수동 번역에 비해 품질 차이가 큽니다.
2. 용어의 출력 번역이 매번 다르거나 출력이 필드에 적합하지 않습니다.
등등.
그러나 현실적으로 작업량, 비용, 품질을 종합적으로 고려할 때 분야별 수동 번역에는 다양한 제한이 있습니다.
한편, 기계 번역은 용도에 따라 일정 수준을 만족하는 수준으로 제공된다면 수용 가능하다는 고객의 기대치가 높아지고 있습니다.
NMT가 호황을 누리고 있는 지금, 이러한 기대를 충족시킬 수 있는 분야별 NMT를 만들 수 있을까요?
또한 어떻게 만들고 어떻게 수행합니까?
지금 검토해 보겠습니다.
엔진 제작의 첫 번째 요소: 데이터
말할 필요도 없이 필드별 NMT 엔진을 만들려면 데이터가 필요합니다. 또한 데이터 자체는 이중 언어를 사용해야 하며 특정 분야에 특화되어 있어야 합니다.
이중 언어 데이터는 문장과 이중 언어 문장이 정렬되고 대응되는 데이터입니다. 예를 들어, 일본어와 중국어 번역은 연결되어 있습니다.
즉, 필드 식별은 스포츠 데이터가 스포츠 필드의 엔진을 만드는 데 사용된다는 것을 의미합니다. 그 이유는 범용 이중 언어 데이터를 사용하는 경우 특정 필드의 데이터와 일치하지 않을 수 있고 다른 필드의 데이터가 부정적인 영향을 미칠 수 있기 때문입니다.
NMT의 메커니즘으로 인해 기존 SMT보다 더 많은 양의 이중 언어 데이터가 필요합니다.
따라서 많은 양의 필드별 이중 언어 데이터를 확보하는 것이 가장 먼저 극복해야 할 문제입니다.
도메인별 이중 언어 데이터를 수집하는 방법
그러나 실제로 이중 언어 데이터를 수집하는 것은 쉽지 않습니다. 또한 피험자 식별이라는 명칭이 추가되면 데이터 수집이 더욱 어려워집니다.
그렇다면 "대용량", "도메인별", "이중 언어" 데이터를 어떻게 수집할까요?
이 작업을 수행하는 방법에는 세 가지가 있습니다
1. 이중 언어 데이터 추출
(1) 문장 수준의 이중 언어 데이터가 없는 경우, 두 언어에 대해 일정량의 데이터가 할당됩니다(예: 파일 수준).
(2) (1)의 파일 수준 데이터에서 문장 수준 대응을 결정하고 "이중 언어" 문장 쌍을 추출합니다.
2. 현장 유사 데이터 추출
(1) 이중 언어 데이터 자체가 있지만 여러 필드의 데이터가 혼합되어 구분되지 않는 경우 먼저 데이터에서 소량의 필드별 이중 언어 데이터를 선택합니다.
(2) 문장 유사도 계산을 사용하여 선택한 필드별 데이터와 유사한 데이터를 검색합니다.
3. 언어 변환
(1) 단일 언어 데이터의 보안을 보장합니다.
(2) 다른 언어로 변환합니다.
(3) 이중 언어 데이터로 취급합니다.
지금까지 이중 언어 데이터를 수집하는 세 가지 방법을 소개했습니다 만, 이번에는 첫 번째 방법 "1. 실제로 「Extraction of Bilingual Data」를 이용해, IT 분야에 특화된 일일과 일의 이중 언어 데이터를 수집했습니다.
일반적으로 페이지당 여러 언어를 지원하는 기술 IT 문서가 포함된 사이트가 많이 있습니다.
따라서 이러한 사이트에서 많은 양의 중일 이중 언어 데이터를 얻을 수 있습니다.
얻은 데이터는 페이지 파일 수준에만 있지만 정렬 도구를 만들고 낮 시간 데이터를 문장 수준으로 처리합니다.
여기서 "정렬"은 문장을 자동으로 연결하는 것을 의미하며, 이 방법은 다른 경우에 소개될 것입니다.
이 프로세스의 결과, 최종적으로 약 600,000쌍의 문장에 대한 중국어-일본어 이중 언어 데이터를 수집할 수 있었습니다.
최첨단 범용 NMT를 사용하는 데이터 양에 비해 데이터의 양은 여전히 적지만 NMT 엔진 프로토타이핑에는 충분합니다.
다음 기사에서는 여기에서 수집한 중국어-일본 이중 언어 데이터를 사용하여 해당 분야에 특정한 중일 및 중일 NMT 엔진을 실제로 프로토타이핑하는 과정에 대해 게시하겠습니다.