UA-LLM: advancing context-based question answering in ukrainian through large language models

Syromiatnikov, M. V.; Ruvinskaya, V. M.; Сиром’ятніков, М. В.; Рувінська, В. М.

UA-LLM: advancing context-based question answering in ukrainian through large language models

Files

S_147 Syromiatnikov.pdf (1.09 MB)

Date

2024

Authors

Publisher

Національний університет «Запорізька політехніка»

Abstract

EN: Context. Context-based question answering, a fundamental task in natural language processing, demands a deep understanding of the language’s nuances. While being a sophisticated task, it’s an essential part of modern search systems, intelligent assistants, chatbots, and the whole Conversational AI field. While English, Chinese, and other widely spoken languages have gathered an extensive number of datasets, algorithms, and benchmarks, the Ukrainian language, with its rich linguistic heritage and intricate syntax, has remained among low-resource languages in the NLP community, making the Question Answering problem even harder. Objective. The purpose of this work is to establish and benchmark a set of techniques, leveraging Large Language Models, combined in a single framework for solving the low-resource problem for Context-based question-answering task in Ukrainian. Method. A simple yet flexible framework for leveraging Large Language Models, developed as a part of this research work, enlights two key methods proposed and evaluated in this paper for dealing with a small amount of training data for context-based question-answering tasks. The first one utilizes Zero-shot and Few-shot learning – the two major subfields of N-shot learning, where N corresponds to the number of training samples, to build a bilingual instruction-based prompt strategy for language models inferencing in an extractive manner (find an answer span in context) instead of their natural generative behavior (summarize the context according to question). The second proposed method is based on the first one, but instead of just answering the question, the language model annotates the input context through the generation of question-answer pairs for the given paragraph. This synthetic data is used for extractive model training. This paper explores both augmentation-based training, when there is some annotated data already, and completely synthetic training, when no data is available. The key benefit of these two methods is the ability to obtain comparable prediction quality even without an expensive and long-term human annotation process. Results. Two proposed methods for solving the low-to-zero amount of training data problem for context-based question-answering tasks in Ukrainian were implemented and combined into the flexible LLM experimentation framework. Conclusions. This research comprehensively studied OpenAI GPT-3.5, OpenAI GPT-4, Cohere Command, and Meta LLaMa-2 language understanding capabilities applied to context-based question answering in low-resource Ukrainian. The thorough evaluation of proposed methods on a diverse set of metrics proves their efficiency, unveiling the possibility of building components of search engines, chatbot applications, and standalone general-domain CBQA systems with Ukrainian language support while having almost zero annotated data. The prospect for further research is to extend the scope from the CBQA task evaluated in this paper to all major NLU tasks with the final goal of establishing a complete benchmark for LLMs’ capabilities evaluation in the Ukrainian language. UK: Актуальність. Відповідь на запитання за контекстом, фундаментальне завдання обробки природної мови, вимагає глибокого розуміння мови. Будучи складною задачею, вона є невід’ємною частиною сучасних пошукових систем, інтелектуальних помічників, чат-ботів і всієї сфери розмовного штучного інтелекту. У той час як англійська, китайська та інші широко поширені мови налічують велику кількість наборів даних, алгоритмів і тестів, українська – з її багатою лінгвістичною спадщиною та складним синтаксисом залишається серед малоресурсних мов, що ще більше ускладнює задачу відповіді на запитання за контекстом. Мета роботи. Мета роботи полягає у розробці та оцінюванні методів на базі великих мовних моделей, об’єднаних у фреймворк для вирішення проблеми низькоресурсності задачі відповіді на запитання за контекстом в українській мові. Метод. Простий, але гнучкий фреймворк для використання великих мовних моделей, розроблений в рамках цієї дослідницької роботи, висвітлює два ключові методи для вирішення проблеми даних у задачі відповіді на запитання за контекстом, запропоновані та оцінені в цій статті. Перший метод використовує Zero-shot і Few-shot learning – дві основні гілки N-shot learning, де N відповідає кількості тренувальних прикладів, для побудови двомовної стратегії підказок на основі інструкцій для роботи з мовними моделями у екстрактивний спосіб (пошук сегменту відповіді у контексті) замість їхньої природної генеративної поведінки (генерація відповіді на основі контексту). Другий запропонований метод базується на першому, але замість простої відповіді на запитання мовна модель розмічає вхідний контекст шляхом генерації пар запитання-відповідь. Отримані синтетичні дані використовуються для тренування екстрактивної моделі. У цій статті розглядається як навчання на основі аугментації даних, коли вже є деякі розмічені дані, так і повністю синтетичне навчання, коли дані відсутні. Ключовою перевагою запропонованих методів є можливість отримати якість передбачень на рівні натренованих екстрактивних моделей навіть без дорогого та довготривалого процесу розмітки даних людьми. Результати. Два запропонованих методи для розв’язання проблеми недостатньої кількості тренувальних даних у задачі відповіді на запитання за контекстом для української мови було реалізовано та об’єднано в гнучкий фреймворк для роботи з великими мовними моделями . Висновки. Дана робота демонструє результати всеосяжного дослідження рівня розуміння мови моделями OpenAI GPT-3.5, OpenAI GPT-4, Cohere Command і Meta LLaMa-2 на прикладі вирішення задачі відповіді на запитання за контекстом для низькоресурсної української мови. Ретельна оцінка запропонованих методів за різноманітним набором показників доводить їх ефективність, розкриваючи можливість побудови компонентів пошукових систем, інтелектуальних чат-ботів та автономних систем відповіді на запитання з підтримкою української мови та близькою до нуля кількістю розмічених тренувальних даних. Перспектива подальших досліджень полягає у розширенні сфери застосування від завдання відповіді на запитання за контекстом, розглянутого у цій статті, до усіх основних задач розуміння природної мови з кінцевою метою встановлення повного тесту для оцінювання можливостей великих мовних моделей в українській мові.

Description

Syromiatnikov M. V. UA-LLM: advancing context-based question answering in ukrainian through large language models / M. V. Syromiatnikov, V. M. Ruvinskaya // Радіоелектроніка, інформатика, управління. – 2024. – № 1 (68). – C. 147-160.