|
Toshkent axborot texnologiyalari universiteti urganch filiali kompyuter injineringi fakulteti
|
bet | 3/8 | Sana | 22.05.2024 | Hajmi | 117,37 Kb. | | #250384 |
Bog'liq Vaisbek Davlatov Mustaqil ishi ishi
Algoritmning yugurishi bilan ob'ektiv funksiyaning o'zgarishi
Stoxeztik ("onlayn") gradient tushishida haqiqiy gradient Q (w) bir o'quv misolining gradienti bilan taxmin qilinadi
w:=w−η∇Qi(w).O'quv to'plami orqali yugurish algoritmi har bir o'quv misoli uchun yuqoridagi qayta hisoblashni amalga oshiradi.Algoritmning konvergentsiyasiga erishish uchun o'quv ma'lumotlar to'plamidan ko'p o'tish talab qilinishi mumkin.
Psevdokodda stochastik gradient tushishi quyidagicha ifodalanishi mumkin:
Haqiqiy gradientni hisoblash va bitta o'quv misolidan gradient o'rtasidagi savdo-sotiq har bir qadamda "minipacket" deb nomlangan birdan ortiq o'quv misolidan gradientni hisoblash bo'lishi mumkin. Bu ta'riflangan "haqiqiy" stochastik gradient tushishidan ancha yaxshiroq bo'lishi mumkin, chunki kod vektor shaklikutubxonalaridan foydalanishi mumkin har bir qadamda alohida hisob-kitoblar o'rniga. Bu, shuningdek, yumshoq konversiyaga olib kelishi mumkin, chunki har bir qadamda hisoblangan gradient ko'p sonli o'quv misollari bo'yicha o'rtacha hisoblanadi.
stochastik gradient tushishining konvergentsiyasi ta'qiqlari yordamida tahlil qilindiqulaylikni kamaytirishvaStochastik approksimatsiya. Soddalashtirilgan shaklda natijani quyidagicha taqdim etish mumkin: O'quv tezligi[inglizcha.] ηNisbatan zaif taxminlarga ko'ra mos tezlikda stochastik gradient tushishi konversiyalanadiDeyarli albattaob'ektiv funksiyasi bo'lsa global minimumgakonveksyokipsevdoconvex, aks holda usul deyarli mahalliy minimal darajada yaqinlashadi[6][7]. Aslida bu Robbins–Sigmund teoremasining oqibati[8].
E'tibor bering, har bir iteratsiyada (qayta hisoblash deb ham ataladi) faqat bir nuqtadagi gradient hisoblangan
𝑥 𝑖
{ barcha namunalar to'plamida hisoblash o'rniga { x_{i}} .
Standart (batch) gradient tushishiga nisbatan asosiy farq shundaki, har bir qadamda butun to'plamdan chiqqan ma'lumotlarning faqat bitta qismi ishlatiladi va bu qism har bir qadamda tasodifiy tanlanadi.
|
| |