"kode-AI Translation Cloud API" 머신 러닝과 평가에 대해 담당자 인터뷰! (첫 번째 부분)

분야별 신경망 기계 번역 엔진을 처음부터 만들기

여러분 안녕하세요! 오랜만입니다 (;^ω^) 코덴샤 개발 사무소 블로그.

이 블로그에서는 영업을 담당하고 있는 사타케 씨가 램밍으로 개발자들의 인터뷰를 실시하고 있습니다만,

다양한 개발 및 제품 정보가 대화 형식으로 소개됩니다.

 

오늘 인터뷰에 응해 주신 분입니다!

이름은 시바타 씨이며, 현재 중국어, 한국어, 러시아어를 공부하고 있습니다.

(지난번 My Interpreter Assist와의 인터뷰에도 ♪ 답변하셨습니다.)

 

사타케: 3개 국어를 배우다니 대단하네요!

시바타: 감사합니다, 언어 학습은 재미있습니다!

사타케: 이번에는 앞으로 역이나 상업 시설에서 다국어 방송에 활용될 것으로 기대되는 'kode-AI 번역 클라우드 API'를 사용하겠습니다.
기계 학습에 대해 자세히 알려주세요 ♪.

시바타: 네, 감사합니다.

 

1. Neural Engine 머신 러닝이란 무엇입니까?

 

Satake: 먼저, 이 경우 기계 학습과 평가가 무엇인지 독자들에게 간략하게 설명해 주시겠습니까?

Shibata: 네, 이것은 일본어와 영어 문장의 10,000쌍 데이터(이중 언어 말뭉치)를 기계 학습하는 것입니다.
학습 전 데이터와 비교하여 학습 효과를 검증하고, 뉴럴 엔진의 머신러닝 결과를 측정합니다.

 

(이중 언어 말뭉치란 무엇입니까?) 그렇다면 이 블로그를 확인하세요! )

우리는 개발자에게 일-한국어 사전 작성시 기계 처리에 대해 물었습니다

사타케: 머신 러닝이 뭔지 상상하기 어렵네요...

시바타: 머신러닝은 '이런 일본어를 영어로 번역하는 것'과 같다.
그것은 기계적으로 암기하고 학습된 방식입니다.

간단한 곳에서, 일본어의 "이름을 들려주세요"에 대한 대답으로, "이름을 말해도 될까요?" 그것은 그것을 번역하는 것과 같습니다.
우리가 외국어를 배울 때, 우리는 위와 같이 일본어에 해당하는 외국어를 배우며, 그것은 동일합니다. 부드럽게 말하자면, 훈련이라고 할 수 있습니다.

사타케: 그렇군요~! 이해하기 쉽습니다. 덧붙여서, 앞서 나온 「kode-AI 번역 클라우드 API」는,

일반 번역 엔진을 사용하는 클라우드 번역과 다른가요?

시바타: AI(인공지능)를 활용한 인공신경망 기계번역은 '코데-AI 번역'입니다.

특히 영어→ 일본어를 정확하게 번역하는 것으로 정평이 나 있습니다.

"kode-AI 번역"에 대한 자세한 내용은 여기를 클릭하십시오.

사타케: 와~~. 세계 최고 수준의 AI 번역이기 때문에 번역의 정확성을 기대할 수 있습니다!

다음으로, 배운 내용의 결과를 평가하기 위해 정확히 무엇을 사용했습니까?

 

2. 머신러닝 결과를 평가하는 절차를 소개합니다

 

시바타: 이번에는 다음 절차를 사용하여 기계 학습 데이터와 비학습 데이터를 비교했습니다.

 

(1) 10,000개의 일본어 원문을 영어로 수동으로 번역하고 10,000쌍의 일본어-영어 이중 언어 말뭉치를 만듭니다.
(2) (1) 중 9,000쌍 + Kodensha가 보유한 특정 범주의 일본어-영어 이중 언어 말뭉치 1,000쌍
= 기계 학습에 사용되는 총 10,000쌍
(3) (1)의 나머지 1,000쌍은 평가 데이터에서 제외되며 기계 학습 데이터에 포함되지 않습니다.
(4) 기계 학습 전(Before)의 (3)의 평가 데이터에 대해 일영 기계 번역을 실행합니다.
(5) (2)에서 10,000쌍의 데이터에 대해 기계 학습을 수행합니다.
(6) (3)의 평가 데이터에 대해 기계 학습 후 ()에 대해 일영 기계 번역을 실시합니다.
(7) (4)와 (6)의 각각 번역 결과에 대한 기계적(*) 평가
* (1)의 영어 번역과의 유사성을 기준으로 평가(= BLEU 값)
(8) (4)와 (6)의 번역 결과 중 100개는 번역가에 의해 수동으로 평가되었습니다(Before vs After).

 

사타케: 단계가 많이 필요해요~! 그리고 조금 (1) ~ (6)

어렵고 잘 이해하지 못합니다. (>_<)

 

이제 기계 학습의 결과로 번역 정확도가 얼마나 향상되었습니까?

신경이 쓰이는 성과는 다음 블로그에서 발표할게요~!