Deep reinforcement learning optimization methods for traffic lights at signalized intersections

Boyko, N. I.; Mokryk, Y. L.; Бойко, Н. І.; Мокрик, Я. Л.

Deep reinforcement learning optimization methods for traffic lights at signalized intersections

dc.contributor.author	Boyko, N. I.
dc.contributor.author	Mokryk, Y. L.
dc.contributor.author	Бойко, Н. І.
dc.contributor.author	Мокрик, Я. Л.
dc.date.accessioned	2026-03-05T12:20:39Z
dc.date.available	2026-03-05T12:20:39Z
dc.date.issued	2025
dc.description	Boyko N. I. Deep reinforcement learning optimization methods for traffic lights at signalized intersections / N. I. Boyko, Y. L. Mokryk // Радіоелектроніка, інформатика, управління. – 2025. – № 4 (75). – C. 233-245.
dc.description.abstract	EN: Context. Intersections are the most critical areas of a road network, where the largest number of collisions and the longest waiting times are observed. The development of optimal methods for traffic light control at signalized intersections is necessary for improving the flow of traffic at existing urban intersections, reducing the chance of traffic collisions, the time it takes to cross the intersection, and increasing the safety for drivers and pedestrians. Developing such an algorithm requires simulating and comparing the work of different approaches in a simulated environment. Objective. The aim of this study is to develop an effective deep reinforcement-learning model aimed at optimizing traffic light control at intersections. Method. A custom simulation environment is designed, which is compatible with the OpenAI Gym framework, and two types of algorithms are compared: Deep Q-Networks and Proximal Policy Optimization. The algorithms are tested on a range of scenarios, involving ones with continuous and discrete action spaces, where the set of actions the agent may take are represented either by different states of the traffic lights, or by the length of traffic light signal phases. During training, various hyperparameters were also tuned, and different reward metrics were considered for the models: average wait time and average queue length. The developed environment rewards the agent during training according to one of the metrics chosen, while also penalizing it for any traffic rule violations. Results. A detailed analysis of the test results of deep Q network and Proximal Policy Optimization algorithms was provided. In general, the Proximal Policy Optimization algorithms show more consistent improvement during training, while deep Q network algorithms suffer more from the problem of catastrophic forgetting. Changing the reward function allows the algorithms to minimize different metrics during training. The developed simulation environment can be used in the future for testing other types of algorithms on the same task, and it is much less computationally expensive compared to existing solutions. The results underline the need to study other methods of traffic light control that may be integrated with real-life traffic light systems for a more optimal and safer traffic flow. Conclusions. The study has provided a valuable comparison of different methods of traffic light control in a signalized urban intersection, tested different ways of rewarding models during training and reviewed the effects this has on the traffic flow. The developed environment was sufficiently simple for the purposes of the research, which is valuable due to the large computational requirements of the models themselves, but can be improved in the future by expanding it with more complex simulation features, such as various types of intersections that aren’t urban, creating a road network of intersections that would all be connected to each other, adding pedestrian crossings, etc. Future work may be done to refine the simulation environment, expand the range of considered algorithms, consider the use of models for vehicle control in addition to traffic light control. UK: Актуальність. Перехрестя є найбільш критичною ділянкою дорожньої мережі, де спостерігається найбільша кількість зіткнень та найдовший час очікування. Розробка оптимальних методів керування світлофорами на регульованих перехрестях необхідна для покращення руху транспортного потоку на існуючих міських перехрестях, зменшення ймовірності зіткнень, часу, необхідного для перетину перехрестя, та підвищення безпеки для водіїв і пішоходів. Розробка такого алгоритму вимагає моделювання руху транспорту та порівняння роботи різних підходів у змодельованому середовищі. Мета роботи є розробка ефективної моделі глибинного навчання з підкріпленням (DRL), спрямованої на оптимізацію керування фазами світлофорів на перехрестях. Метод. Розроблено власне симуляційне середовище, сумісне з OpenAI Gym, та проведено порівняння двох типів алгоритмів: глибинні Q-мережі та метод оптимізації близьких стратегій. Алгоритми протестовано на низці сценаріїв, включаючи сценарії з неперервним та дискретним просторами дій, де набір дій, які може виконати агент, представлений або різними станами світлофора, або тривалістю фаз сигналу світлофора. Під час навчання також налаштовувалися різні гіперпараметри та розглядалися різні метрики винагороди для моделей: середній час очікування та середня довжина черги. Розроблене середовище винагороджує агента під час навчання відповідно до однієї з обраних метрик, а також штрафує його за порушення правил дорожнього руху. Результати. Проведено детальний аналіз результатів тестування алгоритмів DQN та PPO. Загалом, алгоритми PPO демонструють більш стабільне покращення під час навчання, тоді як алгоритми DQN більше страждають від проблеми катастрофічного забування. Зміна функції винагороди дозволяє алгоритмам мінімізувати різні метрики під час навчання. Розроблене моделююче середовище може бути використане в майбутньому для тестування інших типів алгоритмів на тій самій задачі, і воно є значно менш затратним в обчислювальному плані порівняно з існуючими рішеннями. Отримані результати підкреслюють необхідність дослідження інших методів керування світлофорами, які можуть бути інтегровані з реальними світлофорними системами для більш оптимального та безпечного руху транспортних потоків. Висновки. Дослідження надало порівняння різних методів управління світлофорами на регульованому міському перехресті, протестувало різні способи заохочення моделей під час навчання та проаналізувало вплив, який це має на транспортний потік. Розроблене середовище було досить простим для цілей дослідження, що є цінним через великі обчислювальні вимоги самих моделей, але в майбутньому його можна вдосконалити, розширивши його більш складними функціями моделювання, такими як різні типи перехресть, які не є міськими, створення дорожньої мережі перехресть, які були б з’єднані між собою, додавання пішохідних переходів тощо. У майбутньому планується вдосконалити середовище моделювання, розширити спектр розглянутих алгоритмів, розглянути можливість використання моделей для керування транспортними засобами на додаток до керування світлофорами.
dc.identifier.uri	https://eir.zp.edu.ua/handle/123456789/27157
dc.language.iso	en
dc.publisher	Національний університет "Запорізька політехніка"
dc.subject	reinforcement learning
dc.subject	signalized intersection
dc.subject	traffic control
dc.subject	proximal policy optimization
dc.subject	deep Q-learning
dc.subject	навчання з підкріпленням
dc.subject	сигналізовані перехрестя
dc.subject	керування транспортом
dc.subject	метод оптимізації близьких стратегій
dc.subject	глибинне Q-навчання
dc.title	Deep reinforcement learning optimization methods for traffic lights at signalized intersections
dc.title.alternative	Методи оптимізації роботи світлофорів на регульованих перехрестях за допомогою глибинного навчання з підкріпленням
dc.type	Article

Files

Original bundle

Now showing 1 - 1 of 1

Name:: S_233 Boyko.pdf
Size:: 1.11 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Радіоелектроніка, інформатика, управління - 2025, №4 (75)