1. 자연어 처리 기반 기술

  자연어 이해 그룹에서는 자연어 문장의 구조를 인식하고 이를 의미구조로 변환해 주는 자연어 이해 시스템을 개발하는 것을 목표로 하고 있다. 현재 다음과 같은 언어 처리 모델들이 자연어처리에 필요한 기반 기술들이다.
  • 형태소 분석 (POS(Part-Of-Speech) Analysis)모델
  • 개체명 인식 (Named-Entity Recognition) 모델
  • 구문 분석 (Syntactic Analysis) 모델
  • 의미 분석 (Semantic Analysis) 모델
  • 담화 분석 (Discourse Analysis) 모델
  • 대용어처리 (Anaphora Analysis) 모델
  • 단어 의미 중의성 (Word Sense Disambiguation) 해소 모델
이들 자연어의 처리의 기반 기술은
정보검색이나 데이터 마이닝 등 여러 응용시스템에서 매우 유용하게 사용될 수 있다.

아래의 예시는 본 연구실이 소장하고 있는 언어분석기(DANCHU)의 전체 구성도이다.


 
2. 지능형 대화 (Intelligent Dialogue) 시스템

  지능형 대화 시스템은 둘 이상의 화자들이 나누는 대화를 분석하는 기술이다. 일반적 대화는 문서와는 달리 구어체 표현을 사용하고, 생략 및 대용어 표현이 빈번히 나타나며, 표정이나 손짓 등 언어 이외의 다양한 수단을 통해 의사를 전달한다. 지능형 대화 시스템 개발은 유비쿼터스 환경에서 가장 유용한 HCI (Human Computer Interaction) 기술이며, 지능형 로봇 개발 등에 사용되는 핵심 기술이다. 다음과 같은 연구 분야가 있다.

  • 화행 분석 (Speech Act Analysis) 모델
  • 슬롯 필링 (Slot filling) 모델
  • 대화 상태 추적기 (Dialog State Tracking) 모델
  • 코퍼스 기반 대화 모델(Corpus-based Dialogue Model)
  • 계획 기반 대화 모델 (Plan-based Dialogue Model)
  • 전이망 기반 대화 모델 (RTN(Recursive Transition Network)-based Dialogue Model)
  • 자연어 생성 (Natural Language Generation) 모델

아래는 대화시스템의 전체 구성도이다.


 
3. 감정 분류 (Sentiment Classification)

  웹에 있는 대용량의 텍스트 정보 중 감정을 가지는 문장을 자동 추출하고 추출된 문장의 주제에 대한 감정(긍정/부정)을 알려주는 것이 목적이다.


 

4. 지능형 정보 검색 (Information Retrieval) 및 텍스트 마이닝 (Text Mining)

  지능형 정보검색 및 텍스트 마이닝은 텍스트로 저장된 방대한 양의 데이터로부터 사용자가 정확한 정보를 효율적으로 얻어낼 수 있도록 하는 정보시스템의 개발에 있다. 현재 연구하고 있는 내용들은 다음과 같다.
 

  • 지능형 정보 검색 (Intelligent Information Retrieval) 모델
  • 문서 분류 (Text Classification) 모델
  • 문서 요약 (Text Summarization) 모델
  • 질의 응답 (Question/Answering) 시스템

 
5. 비교 마이닝 (Comparison Mining) 시스템

  웹에 있는 대용량의 텍스트 정보 중 비교 정보만을 자동 추출 및 분석하여 사용자에게 리포트를 제시한다. 예를 들어 아이폰4와 갤럭시S에 대한 비교 정보를 알고 싶을 때, 현재 검색사이트에서 는 두 제품과 관련된 문서들을 검색하여 순위대로 보여주지만, 비교마이닝 시스템은 각 문서들 내부의 내용까지 자동 분석하여 리포팅함을 목적으로 한다.


 
6. 인공 신경망 기계 번역 (Neural Machine Translation) 시스템

  NMT은 인공 신경망 기계번역을 뜻한다. 기존 SMT의 부족한 점을 보완한 번역 기술로써, 문장의 전체 맥락을 더 잘 이해하며 학습을 하여 사람처럼 자연스러운 번역 결과를 만들 수 있다.


 
7. 기계 학습(Machine Learning)

  기계 학습은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.
  Deep Learning은 데이터를 군집화하거나 분류하는 데 사용되는 추상화를 시도하는 기계학습 방법으로 인공신경망의 한계를 극복하기 위해 제안되었다.
  Topic Modeling은 대량의 텍스트에서 발생하는 추상적인 주제를 찾기 위한 통계 기반 기계학습 방법으로 여러 의미를 가진 단어의 사용을 구분할 수 있다.

  • Deep Learning
  • Topic Modeling