-
한국전자통신연구원(ETRI) 사람처럼 문서 이해하는 AI기술 개발흥미로운 소식/뉴스 2021. 9. 7. 19:00728x90반응형
ETRI 보도자료를 보면 가장 큰 목표 2가지를 해결했다고 한다.
- 한글 행정문서 질의응답(QA), 패러프레이즈 API 공개
- AI 적용 불가능했던 고난이도 오피스 문서 한계 극복
1. API란 무엇인가?
API는 애플리케이션 프로그래밍 인터페이스의 줄임말이다.
운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스를 뜻하는 말이다.
즉, API를 사용하면 구현 방식을 알지 못해도 제품 또는 서비스가 서로 커뮤니케이션할 수 있으며 애플리케이션 개발을 간소화하여 시간과 비용을 절약할 수 있다.
예를 들면
한 회사가 데이터를 보관하고 처리하는데 애플리케이션을 개발할 때
개발하는 비용과 시간이 필요하고 지속적인 유지관리도 필요할 것이다.
이 때 API를 이용하면 고객이 데이터를 액세스할 수 있고
API 작동에 변화가 없는 한 회사가 고객에게 영향을 미치지 않고 내부시스템을 변경할 수 있다.또한 공개적인 API를 통해 제 3자가 더 진화된 애플리케이션을 개발할 수 있다.
간단히 말해서, API는 리소스에 대한 액세스 권한을 제공한다. 보안과 제어를 유지할 수 있게 해주며 액세스 권한을 어떻게, 누구에게 제공할지 여부만 결정하면 된다.
2. ETRI의 API는?
(1) 어휘/문장 관계 분석 기술
-어휘 정보API, 동음이의어API, 다의어 정보API, 어휘 간 유사도 분석API
(2) 질의응답 기술
-질문분석API, 기계독해API, 위키백과 QA API, 법률 QA API
어휘 정보 API 란?
다양한 어휘지식을 통합한 WiseWordNet 어휘 지식베이스에 기반하여 어휘의 정보를 분석하는 기술로서 입력된 어휘에 대한 관련 제공
어휘 정보 API는 HTTP 기반의 REST API 인터페이스로 JSON 포맷 기반의 입력 및 출력을 지원하며 ETRI에서 제공하는 API Key 인증을 통해 사용할 수 있는 Open API
(다른 API 기술적인 내용은 한국전자정보원 https://aiopen.etri.re.kr/guide_word.php에 있습니다)
3. 새롭게 개발한 2개 API
(1) 행정문서 질의응답(QA) API
행정문서 질의응답(QA) API 기술은 딥러닝 언어모델을 이용해 단락과 표를 인식하여 정답 및 근거 문장을 인식하는 기술이다. 예를 들어‘출장 경비가 100만 원 들 때, 결재를 어느 선까지 받아야 할까요?’라는 질문을 입력하면,‘100만 원 이하인 경우, 실장 전결’과 같은 사내 규정 정보를 담은 문서와 그 근거 부분까지 찾아 주는 셈이다.
본 기술은 공동연구기관인 한글과컴퓨터에서 블라인드 평가로 정확도를 측정했다. 그 결과 단락을 대상으로 검색해 나온 상위 5개 결과의 정확도는 89.65%, 표를 대상으로 진행한 검색에서는 81.5%로 높은 정확도를 보였다.
(2) 패러프레이즈(Paraphrase) 인식 API
패러프레이즈(Paraphrase) 인식 API는 사람처럼 똑똑하게 문서를 보고 다른 형태의 문장이 같은 뜻을 지니는지 파악하는 기술이다. 앞서 나온 행정문서QA API와 다른 한국어 AI 개발에도 쓰일 수 있는 원천 기술이다.
(3) 장점
개발된 기술은 표준인 XML 기반으로 문서 서식을 처리한다. 현재는 한글 문서 대상으로만 서비스를 제공하지만, 개발 기술 자체는 워드, PDF 등 다른 문서에도 범용적으로 쓰일 수 있다. 덕분에 사내 규정, 메뉴얼, 온라인 공고 등 다양한 문서와 분야에 적용될 전망이다.
연구진은 오피스 문서 서식이 다양하고 정형화되지 않아 인공지능 기술을 적용하기 어려웠지만, 견고성이 높은 데이터를 구축하고 무엇이 문제인지 판단하는 알고리즘 성능을 높이면서 본 성과를 낼 수 있었다고 밝혔다.
(4) 견고성의 한계(해결해야할 과제)
AI 모델이 오동작하면서 발생하는 문제점을 방지하고자 하는 연구로, AI 모델의 취약성 분석 연구와 이를 보완하는 방법 연구로 구분할 수 있음.
패러프레이즈 인식 AI 기술의 경우, 일반적인 어휘 변형 (자전거 vs 사이클)이나 구문 변형(그는 예쁜 아이를 보았다. vs 그가 본 아이는 예뻤다.)은 올바른 분석 결과를 제시하나, 아래와 같은 유형의 문장에 대해서는 사람처럼 문장 의미 관계를 올바르게 인식하지 못하는 한계를 보임.
- 대체형(서울을 여행했다. vs. 제주도를 여행했다.)
- 부정형(서울을 여행했다. vs. 서울을 여행하지 않았다.)
- 도치형(서울에서 제주도로 갔다. vs. 제주도에서 서울로 갔다.)
4. 추가 보도자료
ETRI 연구진이 오피스문서에 활용할 수 있는 API 기술을 설명하고 있는 모습 (왼쪽부터 김민호 책임연구원, 배용진 선임연구원, 임준호 책임연구원, 이형직 책임연구원) ETRI 연구진이 개발한 패러프레이즈 인식 API와 오픈소스와의 성능 비교 지표 ETRI사진자료6 - ETRI 연구진이 개발한 행정문서QA API의 기술 별 성능 비교 지표 728x90반응형'흥미로운 소식 > 뉴스' 카테고리의 다른 글
NFT(대체 불가능 토큰) 시장이 성장하는 이유가 뭘까? (0) 2021.10.04 베어로보틱스 서빙로봇 '서비' 미래의 종업원이 될까? (0) 2021.09.28 전자레인지에 사용 가능한 플라스틱은 무엇일까? (0) 2021.09.10 스마트팜 이산화탄소 공급이 중요한 이유 (0) 2021.09.09 스타트업 수퍼빈, 순환 자원 회수 로봇 '네프론' (0) 2021.09.07