دورية أكاديمية
Методи адаптивно динамічного програмування для визначення оптимальної стратегії регенерації печінки
العنوان: | Методи адаптивно динамічного програмування для визначення оптимальної стратегії регенерації печінки |
---|---|
المؤلفون: | Valeriia Karieva, Sergey Lvov |
المصدر: | Visnik Harkivsʹkogo Nacionalʹnogo Universitetu im. V.N. Karazina. Cepiâ Matematika, Prikladna Matematika i Mehanika, Vol 99, Pp 22-35 (2024) |
بيانات النشر: | V.N. Karazin Kharkiv National University Publishing, 2024. |
سنة النشر: | 2024 |
المجموعة: | LCC:Mathematics |
مصطلحات موضوعية: | динамічне програмування, оптимальне керування, навчання з підкріпленням, Mathematics, QA1-939 |
الوصف: | Кожен живий організм взаємодіє з навколишнім середовищем і використовує цю взаємодію для вдосконалення власних дій, щоб вижити та розвиватися. Процес еволюції показав, що види змінюють свої дії на основі взаємодії з навколишнім середовищем протягом тривалого часу, що призводить до природного відбору та виживання найбільш пристосованих. Це навчання, яке засноване на діях, або навчання з підкріпленням може охопити уявлення про оптимальну поведінку, що відбувається в природних системах. Ми описуємо математичні формулювання для навчання з підкріпленням і метод практичного впровадження, відомий як адаптивне динамічне програмування. Це дає нам уявлення про вигляд керування для штучних біологічних систем, які навчаються та демонструють оптимальну поведінку. У даній роботі розглядається постановка задачі верхньої оцінки оптимальності, для якої оптимальна стратегія регуляції гарантовано краща чи еквівалентна об’єктивним правилам регуляції, які ми можемо спостерігати в реальних біологічних системах. У випадку оптимальних алгоритмів навчання з підкріпленням процес навчання переміщується на вищий рівень, об’єктом інтересу якого є не деталі динаміки системи, а індекс продуктивності, який кількісно визначає, наскільки близько до оптимальності працює система керування. У такій схемі навчання з підкріпленням є засобом навчання оптимальній поведінці шляхом спостереження за реакцією оточення на неоптимальні стратегії керування. Мета цієї статті полягає в тому, щоб показати корисність методів навчання з підкріпленням, зокрема сімейства методів, відомих як адаптивне динамічне програмування (АДП), для керування біологічними системами за допомогою зворотного зв’язку. У цій роботі викладено «он-лайн» методи вирішення задачі визначення верхньої оцінки оптимальності у постановці адаптивного динамічного програмування. |
نوع الوثيقة: | article |
وصف الملف: | electronic resource |
اللغة: | English Russian Ukrainian |
تدمد: | 2221-5646 2523-4641 |
Relation: | https://periodicals.karazin.ua/mech_math/article/view/23443; https://doaj.org/toc/2221-5646; https://doaj.org/toc/2523-4641 |
DOI: | 10.26565/2221-5646-2024-99-02 |
URL الوصول: | https://doaj.org/article/980ec8d578784d94a3daca124529d2b0 |
رقم الأكسشن: | edsdoj.980ec8d578784d94a3daca124529d2b0 |
قاعدة البيانات: | Directory of Open Access Journals |
تدمد: | 22215646 25234641 |
---|---|
DOI: | 10.26565/2221-5646-2024-99-02 |