우리는 개발자에게 일-한국어 사전 작성시 기계 처리에 대해 물었습니다

다카덴샤 홈페이지를 방문하시는 모든 분들께 안녕하세요! 처음 뵙겠습니다. 다카덴샤의 사타케입니다.
당사 웹 사이트의 내용을 충실히하기 위해 당사 개발 사무소는 여러분에게 다양한 정보를 전하는 "Takadensha Development Office Blog"도 개설♪하고 있습니다
과학을 서투르고 기술에 익숙하지 않은 영업 어시스턴트 사타케 짱이 개발자를 인터뷰하고 "다카덴샤 개발 사무소 블로그"에서 대화 형식으로 보내드립니다. 읽어(*^_^*주세요 ) 그러니 더 이상 고민하지 않고 본론으로 들어가 보겠습니다!
다카덴샤에 대해 말하자면, 소프트웨어 개발, 매뉴얼 번역 및 통역, 모바일 및 인터넷 관련 콘텐츠 개발, ASP 서비스 등 번역 및 문자 입력에 관한 다양한 서비스를 전개하고 있습니다.
실은 상기의 서비스 이외에도 다양한 기술을 구사해 날마다 다양한 개발에 임하고 있습니다!
이번 「개발 오피스 블로그」의 첫 번째 기사에서는, 개발 부문 4의 가와카미 씨에게 한일 사전 작성에서의 기계 가공에 대해 인터뷰했습니다~!
카와카미 씨, 감사합니다 ('・ω・ ́)!
목차
자연어 처리를 통해 사전을 만들 수 있습니다!
사타케: 한-일어 사전을 만들기 위한 기계 프로세스를 개발하고 계신데, 그 내용은 정확히 어떤 내용인가요? 한국을 좋아하는 사람으로서 매우 흥미 진진할 것이라고 생각합니다! 감사합니다!
카와카미: 감사합니다. 우선, 이번에 담당한 업무를 간략하게 설명하자면, 일본어와 한국어의 매우 많은 이중 언어 문장에서 통계적 자연어 처리를 사용하여 일본어-한국어 사전을 만들었습니다. 말뭉치에는 1,000만 개 이상의 병렬 번역이 있으며, 단어 번역은 말뭉치에서 자동으로 추출됩니다. 이러한 발전 과정에서 일본어와 한국어 모두에 대한 높은 지원의 정확성이 인정되었습니다.
사타케: ... 기본적인 질문으로 죄송합니다만, 우선은 「자연어 처리」가 무엇인지 가르쳐 주시겠습니까?
가와카미 자연어 처리는 일본어, 영어, 중국어, 한국어 등 인간이 일상적으로 사용하는 언어(=자연어)를 컴퓨터가 처리할 수 있도록 하는 기술입니다. 이 자연어 처리는 친숙한 ChineseWriter11와 같은 소프트웨어에 설치된 IME의 예측 변환 및 한자 변환에 적용됩니다.
사타케: 그렇군요! 이 자연어 처리는 익숙한 장소에서 사용됩니다! 그리고 일본어와 한국어의 이중 언어 문장에서 번역 될 단어를 추출하려면 예를 들어 다음과 같습니다.
Sun "저는 애니메이션을 좋아합니다" Han "저는 애니메이션을 좋아합니다"
→ 병행 번역인 단어를 자동으로 추출하면..."I ᅵ저 / はᅵ는 / animeᅵ애니메이션 / がᅵ을 / 好きᅵ좋 , 아 / ですᅵ합니다"?
카와카미: 맞아요. 두 언어 간의 대응 수준이 높다는 것은 위에서 설명한 것처럼 한 단어에 대해 일본어와 한국어를 올바르게 추출하는 정확도가 높다는 것을 의미합니다.
사타케: 병행 번역이 1,000만 건이라는 것은 대단한 일이며, 그것으로부터 자동 추출하여 한글 사전을 만들 수 있는 것은 데이터를 정리하는 데 매우 도움이 될 것 같습니다.
카와카미: 주제에서 조금 벗어난 얘기지만, 일본어와 한국어로 외국어를 읽는 것은 사뭇 다릅니다. 위의 내용을 예로 들면 영어로 된 "anime"의 경우
일본어 '애니메이션'과 한국 '애니메이션(애니메이션)'입니다.
사타케: 맞아요! 특히 현지에서는 들어갈 수 없는 것에 놀랐고, 「맥도날드」나 「버거킹」을 발견하고 깜짝 놀랐습니다! 한국어로는 '맥도날드(mednardu)', '버거킹(bogokin)'이라고 하는데, 덧붙여서 햄버거는 '햄버거(haembogo)'라고 불린다.
옮겨 적으려고 하면 큰 차이를 느끼지 않을지도 모릅니다만, 실제로 대화에 불쑥 나오면 정말 전혀 의미가 없습니다(울음)! 외국어라도 이렇게 발음이 다르다는 것이 흥미롭습니다!
덧붙여서, 앞서 언급 한 "말뭉치"라는 단어를 잘 듣습니다 만, 정확히 무엇입니까?
말뭉치란 무엇입니까? 우리가 자주 듣는 "말뭉치"라는 용어에 대해 설명하겠습니다.
가와카미: 말뭉치는 많은 양의 문어와 구어를 수집하고 데이터베이스를 만드는 언어 자원입니다.
이 경우 일본어와 한국어의 두 가지 언어가 있으므로 이를 이중 언어 말뭉치라고 합니다. 서로 다른 언어 간의 문장 말뭉치를 이중 언어 말뭉치라고 합니다.
Satake: 이중 언어 말뭉치는 기계 번역과 같은 자연어 처리에서 학습 데이터로 사용하기 위해 구축된 말뭉치입니다.
카와카미: 맞아요. 이 경우 이중 언어 말뭉치에 나타나는 단어와 단어에 초점을 맞추고 일본어와 한국어의 이중 언어 단어를 추출했습니다.
또한 이 이중 언어 말뭉치는 자연어 처리, 언어 교육, 인공 지능(AI) 등 다양한 분야에서 사용되고 있으며, 이에 대한 필요성은 해마다 증가하고 있습니다. 특히 큰 말뭉치에서 번역 과정을 자동으로 학습하는 신경 번역과 통계적 번역에 매우 중요합니다!
사타케: 정말 다양한 분야에 적용되고 있습니다! 학생들이 이중 언어 말뭉치를 배우게 함으로써 시스템을 구축하고 번역의 정확성을 향상시킬 수 있습니다.
카와카미: 맞아요. 그건 그렇고, 자연어 처리 연구에서 중요한 "형태소 분석"이라는 단어를 아십니까?
자연어 처리 분야의 주요 주제인 "형태소 분석"은 무엇입니까?
사타케: 형태학적 분석... 이 용어를 처음 들어보셨을 것입니다! 설명 부탁드립니다!! ('・ω・ ́)
카와카미 : 「형태소 해석」은 문장을 "의미를 가지는 최소 단위(=형태소)"로 나누고, 각각에 품사 태그를 붙이는 기법입니다. 문장과 구를 형태소로 분해하여 문법과 의미를 분석하는 데 도움이 됩니다.
예를 들어, "나는 공원에서 운동한다"라는 문장에서 "I (대명사) / is (부사) / park (명사) / de (입자) / motor (명사) / shi (동사) / masu (보조 동사)"
나는 문장을 이렇게 나눌 것이다.
예를 들어, 목적지까지의 도로가 어딘가로 가야하는 "문장"이라면 도로를 도로가 지나가는 각 구역으로 나누고 그 각각에 구역 이름 (마을 이름)을 할당하는 과정이 형태소 해석입니다.
이 형태소 해석 기법을 어디선가 배운 것 같은 느낌이 들지 않나요?
사타케: 어디인지는 모르겠어요... 아 과연, 옛날 일본어로 배운 품사 분해와 같네요!
카와카미: 사실 이 형태소 분석은 우리가 자주 사용하는 다양한 도구에서 사용됩니다.
예를 들어, 인터넷 검색 엔진에서 "오사카의 관광 명소"를 검색하면 위에서 설명한 형태 분석에 의해 먼저 "오사카 / 노 / 관광 명소"와 같은 단어로 나뉩니다. 그리고 그 단어를 찾는다.
사타케: 우리가 평소에 사용하는 검색 엔진에서 '형태소 분석'도 사용하고 있다는 것은 몰랐습니다. 놀라워요.
카와카미: 맞아요. 이 형태소 분석은 기계 번역 및 인공 지능(AI)에 사용됩니다.
사타케: 이 형태소 분석은 다양한 곳에서 사용됩니다. 처음에는 「형태소 해석」이라는 말만으로도 어렵고 복잡해 보인다고 생각했습니다만, 적용 사례를 들었을 때, 익숙함과 친숙함을 느끼기 시작했습니다!
한국어 특유의 필기 정보를 재현했습니다!
사타케: 이 말뭉치의 형태학적 분석에서 고안한 것이 있습니까?
카와카미: 형태소 분석 과정에서 한국어를 사용하여 고유한 낙서 정보를 되돌립니다.
사타케: 여기서 '나누기'라는 용어는 텍스트에 적절한 줄바꿈을 추가하여 문장을 더 쉽게 읽을 수 있도록 하는 철자법을 의미합니다.
어제 친구와 밥을 먹었습니다. / 어제 친구들과 저녁을 먹었어요.
(1) 이런 띄어쓰기.
사타케: 이런 기계 가공으로 사전을 만드신 건 이번이 처음이었나요?
카와카미: 실은 과거에 한일 사전을 만드는 일을 한 적이 있는데, 그 기술이 이 프로젝트의 기초가 되었습니다. 예를 들어, 저는 다음과 같은 작업에도 참여했습니다. 자세한 내용은 여기에서 보고서를 참조하십시오.
참고: 헤이세이 27년 사전 작성에 관한 조사 프로젝트
- 중국 특허문헌의 기계번역을 위한 사전 작성 및 기계번역의 품질 평가에 관한 연구
사타케: 그 경험이 이 개발로 이어졌군요! 두 언어에 대한 지원의 정확도도 높기 때문에 향후 추가 개발에 대한 기대가 높습니다!
카와카미: 이중 언어 말뭉치를 만들 때, 우리는 자연어 처리 기술과 인간 번역이라는 두 가지 강점을 유기적으로 결합하는 방식으로 작업하고 있습니다.
어땠어요?
이번에는 방대한 양의 데이터를 통계적으로 처리하여 사전을 구성하는 기술에 대해 개발자와 인터뷰를 진행했습니다.
"자연어 처리?" 또는 "말뭉치?" "형태학적 분석?"기술 용어를 모르는 채 난입하는 인터뷰였습니다만, 용어와 적용 사례에 대한 설명을 듣는 것이 흥미로웠습니다!
이러한 다양한 기술이 실은 일상생활에서 아무렇지도 않게 이용하는 서비스에 집중되어 있다는 것을 다시 한 번 알 수 있었고, 동시에 소프트웨어 개발 회사의 직원으로서 공부 부족을 반성했습니다. (・ω・' )
이 개발 블로그를 통해 여러분에게 개발 정보를 제공하면서 개발 정보에 대해 계속 배울 ♪ 수 있기를 바랍니다
이번에 소개하는 이중 언어 말뭉치는 응용 프로그램, 시스템, 연구 개발 등 다양한 목적으로 사용할 수 있습니다.
이중 언어 말뭉치 또는 자연어 처리에 대해 궁금한 점이 있으면 당사에 문의하십시오.
자연어 처리에 대해 궁금한 점이 있으면 여기로 문의해 주세요>
다음 "개발 오피스 블로그"를 기대해 주세요!
여러분의 의견을 기다리겠습니다.