AI 번역 엔진 및 생성형 AI의 개발 및 튜닝에 필요한 대규모 언어 모델 구축을 지원합니다.

AI 번역 엔진 및 생성형 AI 개발
튜닝에 필요
대규모 언어 모델 구축
저희가 도와드리겠습니다.

  • 1,000,000 쌍 이상
  • 10개 이상의 언어로 사용 가능
  • 풍부한 배송 경험
샘플을 요청하려면 여기를 클릭하십시오.

AI 번역 및 Q&A
기계 학습 문제를 해결하세요!

  • 특정 분야에 특화된 고정밀 AI 번역을 개발하고 싶습니다.

    특정 분야에 특화
    고정밀 AI 번역
    개발하고 싶습니다

  • 다국어 챗봇의 정확도를 높이고 싶습니다.

    다국어 챗봇
    정밀
    나는 향상시키고 싶다

  • 대화 또는 질의응답 세션에서 무슨 말이 나올지 예측하고 싶습니다.

    대화 및 Q&A 세션 중
    무슨 말이 나올지 예측하고 싶다

  • 동남아시아 국가의 언어에 대한 이중 언어 말뭉치를 찾고 있습니다.

    동남아시아 국가의 언어로
    응답
    이중 언어 말뭉치
    찾고 있는 항목

  • 산업 또는 전문 분야에 특화된 용어집을 만들고 싶습니다.

    산업 및 전문 분야용
    전문
    용어 사전
    만들고 싶은

다카덴샤의 6가지 강점

  • 40년 이상의 경험

    40년 이상의 경험

    1980년대부터 기계 번역을 개발해 왔습니다.
    우리는 또한 주요 기업에 이중 언어 말뭉치를 제공하는 데 풍부한 경험을 가지고 있습니다.
    다년간의 경험과 노하우를 바탕으로 문제 해결에 기여합니다.
    우리는 다국어 말뭉치를 제공합니다.

  • 전문 분야에 강함

    전문 분야에 강함

    관광, 의료, 법률, 금융, 지적 재산권 등
    우리는 다양한 분야의 이중 언어 말뭉치를 가지고 있습니다.
    인터랙티브 기자회견, Q&A 세션 등
    이중 언어 말뭉치도 사용할 수 있습니다.

  • 1,000,000 쌍 이상

    1,000,000 쌍 이상

    우리는 100만 쌍 이상의 이중 언어 말뭉치를 제공할 수 있습니다!
    사용 중인 CAT 도구
    번역 메모리로도 사용할 수 있습니다.

  • 희귀 언어

    희귀 언어

    일본어에서 영어로 번역된 데이터 외에도
    영어에서 동남아시아 및 희귀 언어까지
    번역된 이중 언어 말뭉치가 있습니다.

  • 자연스러운 표현

    자연스러운 표현

    이중 언어 말뭉치는 각 언어의 원어민을 기반으로 합니다.
    번역되어 있기 때문에 각 언어에 고유합니다.
    뉘앙스와 진부한 표현이 반영됩니다.

  • 세미 오더

    세미 오더

    필드 및 데이터 유형 외에도 소스 및 대상
    번역 방향을 포함하여 관리되기 때문에,
    원하는 이중 언어 말뭉치를 추출할 수 있습니다.
    다국어 용어 사전을 만들 수도 있습니다.

또한 다음과 같은 전문 분야에도 대응하고 있습니다

구현 결과

주요 통신사 연구부서
/방송사연구소
/AI 기계 번역 엔진 개발 회사

자주 묻는 질문

"이중 언어 말뭉치"란 무엇입니까?
이중 언어 말뭉치는 하나의 언어와 두 개 이상의 언어 조합으로 번역된 텍스트 모음입니다. AI 기반 기계번역 엔진 개발에서는 전후의 컨텍스트를 유지하는 데이터가 중요합니다. 텍스트가 두 개 미만의 언어로 작성된 경우 단일 언어 말뭉치라고 합니다.
이중 언어 말뭉치에서 흔히 볼 수 있는 단어와 단어 조합은 몇 개입니까?
우리는 가장 광범위한 일본어와 영어를 제공합니다. 다른 조합으로는 영어와 중국어, 스페인어와 프랑스어, 인도네시아어와 포르투갈어 등이 있습니다.
이중 언어 말뭉치를 구입하는 경우 사용에 제한이 있습니까?
예, 기계 학습에만 사용할 수 있는 병렬 말뭉치와 웹 사이트 및 교육 자료에 게시할 수 있는 병렬 말뭉치가 있습니다. 후자의 경우 구매하기 전에 이용 약관에 대해 논의할 것입니다.
이중 언어 말뭉치의 최소 구매 단위와 가격은 얼마입니까?
기계 학습에 사용할 때 약 100,000 쌍이 필요하다고 알려져 있으며, 고객은 그 단위로 구입하는 경우가 많습니다. 가격은 응용 프로그램 및 구매 수량에 따라 별도로 논의됩니다.
이중 언어 말뭉치는 어떻게 전달됩니까?
요청 시 텍스트 파일(CSV, TSV 등) 또는 엑셀 파일로 보내드립니다.

이중 언어 말뭉치를 선택할 때 고려해야 할 사항

이중 언어 말뭉치를 선택할 때 고려해야 할 사항

기계 번역과 다국어 생성형 AI의 개발 및 튜닝에서 이중 언어 말뭉치의 필요성이 증가하고 있습니다. 또한 번역가가 새로운 분야에서 번역에 착수할 때 사내에서 축적된 번역 메모리를 유지하면 번역 작업의 효율성이 크게 향상됩니다. 한편, 체계적인 이중언어 말뭉치를 스스로 모으는 것은 쉽지 않고, 외부에서 데이터를 조달하여 원하는 결과물 개발 및 번역 작업에 집중하는 것이 효율적입니다.

다음 6가지 사항은 이중 언어 말뭉치를 선택하는 데 중요합니다.
1) 언어 조합
2) 필드
3) 품질
4) 수량
5) 데이터 유형
6) 맥락의 존재 또는 부재

1)의 "언어 조합"은 번역가가 번역하는 언어 쌍 또는 기계 번역 개발에서 훈련하는 언어 쌍이 일본어와 영어 또는 일본어와 중국어인지 여부를 의미합니다. 마찬가지로 사용하는 CAT 툴의 번역 메모리를 등록할 때 "언어 조합"이 가장 중요한 요소입니다. 또한 보다 자연스러운 표현을 찾고 있다면 어떤 언어가 원본 텍스트인지 아는 것도 중요합니다. 구체적인 예로서, 「일본어와 영어의 이중 언어 말뭉치」라고 말해도, 일본어 원문을 영어로 번역한 것과 영어 원문을 일본어로 번역한 것과의 차이는, 영어 표현의 유창성과 번역의 배경에 차이를 느끼는 것은 당연합니다.

2)의 "분야"는 관광, 의학, 법률, 경제, 과학 및 기술 등의 분야를 나타냅니다. 개선 분야에서 데이터의 기계 학습은 개발 가속화로 이어질 것입니다. 특정 분야에서 기계 번역의 정확도를 높이기 위해 언어 모델을 구축할 때 효과의 표준은 약 100,000쌍입니다. 이중 언어 말뭉치에서 기술 사전을 만들 때도 이 분야가 중요하다는 것은 말할 필요도 없습니다. 이 예에서 일본에서 필요한 분야는 관광 지향 국가라는 이름으로 인바운드 지원에 주력하고 있을 때 관광 분야였고, 일본에 거주하는 외국인 관광객 및 거주자에 대한 의료 강화를 위해 의료 분야에서는 이중 언어 말뭉치가 필요했습니다. 또한 수년에 걸쳐 요구 사항은 비즈니스 내용의 발표 및 설명에 사용되는 프레젠테이션 자료, 컨퍼런스 및 이벤트에서의 연설 녹음 후 Q&A를 포함하는 비즈니스 분야로 이동했습니다.

즉, 3)의 "품질"은 정확성을 나타내며 이중 언어 말뭉치가 생성된 방법에 따라 다릅니다. 데이터는 사람의 손으로 번역한 것이 바람직하며, 기계 번역을 사용하여 번역하고 사람의 눈으로 확인하거나 수정하지 않으면 자연스럽게 품질이 저하됩니다. 또, 수동으로 번역한 이중 언어 데이터의 경우에도, 하나의 원문에 대해 2개 이상의 번역이 있을 수 있고, 원문과 대상 텍스트가 한 문장에 반드시 대응하는 것이 필요한 경우, 품질에 영향을 줍니다. 또한 번역이 과도하게 축약되면 좋은 이중 언어 말뭉치가 아닙니다.

예를 들어, 사내 번역 지원 툴에 번역 메모리나 단어 사전을 등록하는 목적이 특정 분야에서 수만 쌍의 이중 언어 번역을 하는 것이라면 4)의 "수량"은 번역가에게 충분히 유용한 양이라고 할 수 있습니다. 기계 번역 엔진을 개발할 때와 같이 특정 분야에서 기계 학습을 수행할 때 100,000쌍이 일정한 효과를 낸다고 합니다. 한편, 범용 기계 번역 엔진을 개발하기 위해서는 수천만 쌍이 필요하다고 합니다. 따라서 필요한 이중 언어 말뭉치의 양은 응용 프로그램에 따라 크게 다릅니다.

5)의 "데이터 유형"은 이중 언어 말뭉치가 생성된 파일이 보고서, 백서, 프레젠테이션, 기자 회견, 질문 및 답변 세션 등인지 여부를 나타냅니다. 서면 언어를 기계 학습하려면 보고서와 백서를 사용하는 것이 더 효과적이고, 음성 언어를 기계 학습하려면 프레젠테이션, 기자 회견 및 Q&A 세션에서 생성된 이중 언어 말뭉치를 사용하는 것이 더 효과적입니다. 이중 언어 말뭉치에서는 속성이 세밀하게 관리되므로 데이터 유형별로 이중 언어 말뭉치를 추출할 수 있습니다.

6)의 "문맥의 유무"는 여러 문장 사이에 의미론적 연결이 있는지 여부를 의미합니다. 특히, 사전의 예문은 특정 표제어만 포함하면 되며 다른 예문과 다른 예문 사이에 컨텍스트가 없습니다. 따라서 맥락이 없다고 판단됩니다. 반면에 보고서는 이벤트나 이벤트를 설명하는 여러 문장으로 구성되기 때문에 "상황에 맞는" 보고서입니다. 마찬가지로, 기자 회견과 Q&A 세션은 여러 명의 발표자가 번갈아 가며 서로 대화하기 때문에 "맥락"이 있다고 말할 수 있습니다. 기계 번역뿐만 아니라 챗봇으로 보다 정확한 답변을 생성하려면 기계 학습에 사용되는 이중 언어 말뭉치에 "컨텍스트"가 있어야 합니다.

요약
이중 언어 말뭉치를 선택할 때 응용 프로그램에 따라 위의 1)에서 6)을 고려해야 합니다. 특히 특정 도메인에 대한 기계 학습을 수행할 때 품질, 데이터 유형 및 컨텍스트에 대한 필요성을 고려하는 것이 중요합니다. 자신에게 딱 맞는 제품을 얻으려면 먼저 무료 샘플 데이터를 확인하세요.

닫다
더 보기