
특정 분야에 특화
고정밀 AI 번역
개발하고 싶습니다
다국어 챗봇
정밀
나는 향상시키고 싶다
대화 및 Q&A 세션 중
무슨 말이 나올지 예측하고 싶다
동남아시아 국가의 언어로
응답
이중 언어 말뭉치
찾고 있는 항목
산업 및 전문 분야용
전문
용어 사전
만들고 싶은
1980년대부터 기계 번역을 개발해 왔습니다.
우리는 또한 주요 기업에 이중 언어 말뭉치를 제공하는 데 풍부한 경험을 가지고 있습니다.
다년간의 경험과 노하우를 바탕으로 문제 해결에 기여합니다.
우리는 다국어 말뭉치를 제공합니다.
관광, 의료, 법률, 금융, 지적 재산권 등
우리는 다양한 분야의 이중 언어 말뭉치를 가지고 있습니다.
인터랙티브 기자회견, Q&A 세션 등
이중 언어 말뭉치도 사용할 수 있습니다.
우리는 100만 쌍 이상의 이중 언어 말뭉치를 제공할 수 있습니다!
사용 중인 CAT 도구
번역 메모리로도 사용할 수 있습니다.
일본어에서 영어로 번역된 데이터 외에도
영어에서 동남아시아 및 희귀 언어까지
번역된 이중 언어 말뭉치가 있습니다.
이중 언어 말뭉치는 각 언어의 원어민을 기반으로 합니다.
번역되어 있기 때문에 각 언어에 고유합니다.
뉘앙스와 진부한 표현이 반영됩니다.
필드 및 데이터 유형 외에도 소스 및 대상
번역 방향을 포함하여 관리되기 때문에,
원하는 이중 언어 말뭉치를 추출할 수 있습니다.
다국어 용어 사전을 만들 수도 있습니다.
공장과 작업 현장에서의 안전한 작업을 위한 다양한 주의사항을 산업별 대화 형식으로 마련하고 있습니다.
농림수산과 같은 1차 산업부터 경제, 금융, IT, 원자력에 관한 보고서까지 광범위한 분야를 다루고 있습니다.
외국인이 일본에 입국하고 생활하기 위해 필요한 다국어 데이터를 준비하여 출입국 관리와 재류 자격에 관한 법률, 의료 진찰 등을 실시하고 있습니다.
주요 통신사 연구부서
/방송사연구소
/AI 기계 번역 엔진 개발 회사
등
기계 번역과 다국어 생성형 AI의 개발 및 튜닝에서 이중 언어 말뭉치의 필요성이 증가하고 있습니다. 또한 번역가가 새로운 분야에서 번역에 착수할 때 사내에서 축적된 번역 메모리를 유지하면 번역 작업의 효율성이 크게 향상됩니다. 한편, 체계적인 이중언어 말뭉치를 스스로 모으는 것은 쉽지 않고, 외부에서 데이터를 조달하여 원하는 결과물 개발 및 번역 작업에 집중하는 것이 효율적입니다.
다음 6가지 사항은 이중 언어 말뭉치를 선택하는 데 중요합니다.
1) 언어 조합
2) 필드
3) 품질
4) 수량
5) 데이터 유형
6) 맥락의 존재 또는 부재
1)의 "언어 조합"은 번역가가 번역하는 언어 쌍 또는 기계 번역 개발에서 훈련하는 언어 쌍이 일본어와 영어 또는 일본어와 중국어인지 여부를 의미합니다. 마찬가지로 사용하는 CAT 툴의 번역 메모리를 등록할 때 "언어 조합"이 가장 중요한 요소입니다. 또한 보다 자연스러운 표현을 찾고 있다면 어떤 언어가 원본 텍스트인지 아는 것도 중요합니다. 구체적인 예로서, 「일본어와 영어의 이중 언어 말뭉치」라고 말해도, 일본어 원문을 영어로 번역한 것과 영어 원문을 일본어로 번역한 것과의 차이는, 영어 표현의 유창성과 번역의 배경에 차이를 느끼는 것은 당연합니다.
2)의 "분야"는 관광, 의학, 법률, 경제, 과학 및 기술 등의 분야를 나타냅니다. 개선 분야에서 데이터의 기계 학습은 개발 가속화로 이어질 것입니다. 특정 분야에서 기계 번역의 정확도를 높이기 위해 언어 모델을 구축할 때 효과의 표준은 약 100,000쌍입니다. 이중 언어 말뭉치에서 기술 사전을 만들 때도 이 분야가 중요하다는 것은 말할 필요도 없습니다. 이 예에서 일본에서 필요한 분야는 관광 지향 국가라는 이름으로 인바운드 지원에 주력하고 있을 때 관광 분야였고, 일본에 거주하는 외국인 관광객 및 거주자에 대한 의료 강화를 위해 의료 분야에서는 이중 언어 말뭉치가 필요했습니다. 또한 수년에 걸쳐 요구 사항은 비즈니스 내용의 발표 및 설명에 사용되는 프레젠테이션 자료, 컨퍼런스 및 이벤트에서의 연설 녹음 후 Q&A를 포함하는 비즈니스 분야로 이동했습니다.
즉, 3)의 "품질"은 정확성을 나타내며 이중 언어 말뭉치가 생성된 방법에 따라 다릅니다. 데이터는 사람의 손으로 번역한 것이 바람직하며, 기계 번역을 사용하여 번역하고 사람의 눈으로 확인하거나 수정하지 않으면 자연스럽게 품질이 저하됩니다. 또, 수동으로 번역한 이중 언어 데이터의 경우에도, 하나의 원문에 대해 2개 이상의 번역이 있을 수 있고, 원문과 대상 텍스트가 한 문장에 반드시 대응하는 것이 필요한 경우, 품질에 영향을 줍니다. 또한 번역이 과도하게 축약되면 좋은 이중 언어 말뭉치가 아닙니다.
예를 들어, 사내 번역 지원 툴에 번역 메모리나 단어 사전을 등록하는 목적이 특정 분야에서 수만 쌍의 이중 언어 번역을 하는 것이라면 4)의 "수량"은 번역가에게 충분히 유용한 양이라고 할 수 있습니다. 기계 번역 엔진을 개발할 때와 같이 특정 분야에서 기계 학습을 수행할 때 100,000쌍이 일정한 효과를 낸다고 합니다. 한편, 범용 기계 번역 엔진을 개발하기 위해서는 수천만 쌍이 필요하다고 합니다. 따라서 필요한 이중 언어 말뭉치의 양은 응용 프로그램에 따라 크게 다릅니다.
5)의 "데이터 유형"은 이중 언어 말뭉치가 생성된 파일이 보고서, 백서, 프레젠테이션, 기자 회견, 질문 및 답변 세션 등인지 여부를 나타냅니다. 서면 언어를 기계 학습하려면 보고서와 백서를 사용하는 것이 더 효과적이고, 음성 언어를 기계 학습하려면 프레젠테이션, 기자 회견 및 Q&A 세션에서 생성된 이중 언어 말뭉치를 사용하는 것이 더 효과적입니다. 이중 언어 말뭉치에서는 속성이 세밀하게 관리되므로 데이터 유형별로 이중 언어 말뭉치를 추출할 수 있습니다.
6)의 "문맥의 유무"는 여러 문장 사이에 의미론적 연결이 있는지 여부를 의미합니다. 특히, 사전의 예문은 특정 표제어만 포함하면 되며 다른 예문과 다른 예문 사이에 컨텍스트가 없습니다. 따라서 맥락이 없다고 판단됩니다. 반면에 보고서는 이벤트나 이벤트를 설명하는 여러 문장으로 구성되기 때문에 "상황에 맞는" 보고서입니다. 마찬가지로, 기자 회견과 Q&A 세션은 여러 명의 발표자가 번갈아 가며 서로 대화하기 때문에 "맥락"이 있다고 말할 수 있습니다. 기계 번역뿐만 아니라 챗봇으로 보다 정확한 답변을 생성하려면 기계 학습에 사용되는 이중 언어 말뭉치에 "컨텍스트"가 있어야 합니다.
요약
이중 언어 말뭉치를 선택할 때 응용 프로그램에 따라 위의 1)에서 6)을 고려해야 합니다. 특히 특정 도메인에 대한 기계 학습을 수행할 때 품질, 데이터 유형 및 컨텍스트에 대한 필요성을 고려하는 것이 중요합니다. 자신에게 딱 맞는 제품을 얻으려면 먼저 무료 샘플 데이터를 확인하세요.