EITC/AI/ARL Fêrbûna Hêzdarkirina Pêşkeftî bernameya Sertîfîkaya IT-ya Ewropî ye li ser nêzîkatiya DeepMind ya fêrbûna xurtkirinê di îstîxbarata çêkirî de.
Bernameya dersa EITC/AI/ARL Fêrbûna Hêzdarkirina Pêşkeftî li ser aliyên teorîkî û jêhatîbûnên pratîkî yên di teknîkên fêrbûna bihêzkirinê de ji perspektîfa DeepMind-ê ku di nav strukturên jêrîn de hatî organîze kirin, hûrgulî naveroka dîdaktîk a vîdyoyê wekî referans ji bo vê Sertîfîkaya EITC vedihewîne.
Fêrbûna bihêzbûnê (RL) qadek fêrbûna makîneyê ye ku pê eleqedar e ku divê ajanên aqilmend di hawîrdorek de çalakiyan bikin da ku têgîna xelata berhevkar zêde bikin. Fêrbûna xurtkirinê, li rex fêrbûna çavdêr û fêrbûna bêserûber yek ji sê paradîgmayên fêrbûna makîneya bingehîn e.
Fêrbûna xurtkirinê ji fêrbûna çavdêrîkirî cûdahiyek e ku hewce nake ku çiftên têkevinê/derketinê yên bi etîket werin pêşkêş kirin, û ne hewce ye ku kiryarên bin-optîmal bi zelalî werin rast kirin. Di şûna wê de bal kişandin ser dîtina hevsengiyek di navbera lêgerîn (xaka nevekirî) û kedxwarî (zanîna heyî).
Jîngeh bi gelemperî di forma pêvajoya biryara Markov (MDP) de tê vegotin, ji ber ku gelek algorîtmayên fêrbûna xurtkirinê ji bo vê çarçoveyê teknîkên bernameyên dînamîk bikar tînin. Cûdahiya sereke di navbera rêbazên bernameyên dînamîk ên klasîk û algorîtmayên fêrbûna xurtkirinê de ev e ku paşiya paşîn zanîna modeleke rastîn a bîrkariyê ya MDP-ê nahesibînin û ew MDP-yên mezin dikin hedefa ku rêbazên rast nepêkan dibin.
Ji ber gelemperîbûna xwe, fêrbûna xurtkirinê di gelek beşan de, wekî teoriya lîstikê, teoriya kontrolê, lêkolîna operasyonan, teoriya agahdariyê, optîmîzasyona-based simulation, pergalên pir-ajan, îstîxbarata swarm û îstatîstîk têne lêkolîn kirin. Di wêjeya lêkolîn û kontrolê ya karanînan de, ji fêrbûna xurtkirinê re bernamekirina dînamîkî ya nêzik, an jî bernemekirina neuro-dînamîk tê gotin. Pirsgirêkên balkêş ên di fêrbûna xurtkirinê de di teoriya kontrola çêtirîn de, ku bi piranî bi hebûn û taybetmendiya çareseriyên çêtirîn, û algorîtmayên ji bo hesabkirina rastîn a wan, û kêmtir bi fêrbûn an nêzîkbûnê re eleqedar e, nemaze di nebûna modela jîngehê ya bîrkariyê. Di aboriyê û teoriya lîstikê de, fêrbûna xurtkirinê dikare were bikar anîn ku vebêje ka çawa hevsengî dikare di bin eqlê sînor de rabe.
Bihêzkirina bingehîn wekî pêvajoya biryara Markov (MDP) tête model kirin. Di bîrkariyê de, pêvajoyek biryara Markov (MDP) pêvajoyek kontrolkirina stokastik a dema veqetandî ye. Ew di rewşên ku encam qismek bêserûber û qismek jî di bin kontrola biryarder de ne, çarçoveyek bîrkariyê ji bo modelkirina biryargirtinê peyda dike. MDP ji bo xwendina pirsgirêkên optimîzasyonê yên ku bi bernameyên dînamîk têne çareser kirin kêrhatî ne. MDP bi kêmî ve di salên 1950-an de têne zanîn. Lekek bingehîn a lêkolînê ya li ser pêvajoyên biryara Markov ji pirtûka Ronald Howard, 1960, Bernameyên Dînamîk û Pêvajoyên Markov derket. Ew di gelek dersan de têne bikar anîn, di nav robotîk, kontrolkirina otomatîkî, aborî û çêkirinê de. Navê MDP ji matematîkzanê rûsî Andrey Markov tê ji ber ku ew pêvekek zincîrên Markov in.
Di her gav de, pêvajo li hin eyaleta S ye, û biryarker dikare her çalakiyek a ku li dewleta S. heye hilbijêre. Pêvajo di gava pêşîn de bersiv dide ku bi rengek bêserûber derbasî dewletek nû ya S bibe, û bide biryardêr xelata têkildar Ra (S, S ').
Ihtîmala ku pêvajo derbasî rewşa xweya nû S 'dibe bin bandora çalakiya bijarte a. Bi taybetî, ew ji hêla fonksiyona veguherîna dewletê Pa (S, S ') ve tê dayîn. Ji ber vê yekê, dewleta S-ya paşîn bi rewşa heyî ya S û çalakiya biryarder ve girêdayî ye. Lê S û a dane, ew bi şert ji hemî dewlet û tevgerên berê serbixwe ye. Bi gotinên din, veguherînên dewleta MDP-ê milkê Markov têr dike.
Pêvajoyên biryara Markov dirêjkirina zincîrên Markov in; cûdahî zêdekirina çalakiyan e (destûr dide hilbijartinê) û xelatan (motîvasyona dayînê). Berevajî vê yekê, heke ji bo her dewletê tenê çalakiyek hebe (mînak "bendê") û hemî xelat yek in (mînak "sifir"), pêvajoyek biryara Markov kêm dibe zincîrek Markov.
Ajanek fêrbûna xurtkirinê di gavên dema veqetandî de bi hawîrdora xwe re têkiliyê datîne. Di her carê de t, nûner rewşa heyî S (t) û xelata r (t) distîne. Wê hingê çalakiyek a (t) ji koma çalakiyên berdest, ku dûv re ji hawîrdorê re tê şandin, hildibijêre. Jîngeh derbasî rewşek nû ya S (t + 1) dibe û xelata r (t + 1) a bi veguherînê re têkildar tê diyar kirin. Armanca ajansek fêrbûna xurtkirinê fêrbûna siyasetek e ku xelata komkirî ya hêvîkirî herî zêde dike.
Formulkirina pirsgirêkê wekî MDP ferz dike ku nûner rasterast rewşa hawîrdorê ya heyî dişopîne. Di vê rewşê de tê gotin ku pirsgirêk bi çavdêriyek tam heye. Ger karbidest tenê bigihîje binberek dewletan, an heke dewletên temaşekirî ji hêla deng ve têne xera kirin, tê gotin ku nûner xwedan çavdêriya qismî ye, û bi fermî pirsgirêk divê wekî pêvajoya biryara Markov a bi qismî çavnebarî were formulekirin. Di her du bûyeran de, koma çalakiyên ku ji ajan re hene dikare were sînorkirin. Mînakî, rewşa hevsengiyek hesabê dikare were erê kirin ku erênî be; heke nirxa heyî ya dewletê 3 be û veguherîna dewletê hewl bide ku nirxê 4 kêm bike, derbasbûn dê neyê destûr kirin.
Dema ku performansa nûner bi ya nûnerê ku çêtirîn tevdigere tê qiyas kirin, cûdahiya performansê têgîna poşmaniyê dide der. Ji bo ku nêzê herî çêtir tevbigere, pêdivî ye ku nûner li ser encamên dirêj ên kiryarên xwe bifikire (ango, dahata pêşerojê zêde bike), her çend xelata tavilê ya bi vê re têkildar dibe ku neyînî be.
Ji ber vê yekê, fêrbûna xurtkirinê bi taybetî ji bo pirsgirêkên ku bazirganiya xelata dirêj-beramberî xelata kurt-dem tê de heye, xweş-guncan e. Ew bi serfirazî ji bo pirsgirêkên cûrbecûr, ku tê de kontrola robotan, plansazkirina asansorê, telekomunîkasyon, paşnav, damar û Go (AlphaGo), tê bikar anîn.
Du hêman fêrbûna xurtkirinê bi hêz dikin: karanîna nimûneyan ji bo baştirkirina karûbar û karanîna nêzikbûna fonksiyonê ku bi derdorên mezin re têkildar bibin. Bi saya van her du rêgezên sereke, fêrbûna xurtkirinê dikare di rewşên jêrîn de di derdorên mezin de were bikar anîn:
- Modelek hawîrdorê tê zanîn, lê çareseriyek analîtîk peyda nabe.
- Tenê modelek simulkirina hawîrdorê tê dayîn (mijara optimîzasyona-based simulation).
- Awayê tenê yê berhevkirina agahdariya derûdorê, têkiliya bi wê re ye.
Du ji van pirsgirêkên yekem dikarin wekî pirsgirêkên plansazkirinê werin hesibandin (ji ber ku formek model heye), lê ya dawî jî dikare wekî pirsgirêkek fêrbûna rastîn were hesibandin. Lêbelê, fêrbûna xurtkirinê her du pirsgirêkên plansaziyê veguherîne pirsgirêkên fêrbûna makîneyê.
Lêgerîna li dijî bazirganiya karanînê bi piranî bi pirsgirêka bandê ya pir-çekdar û ji bo MDP-a qada qedîm a dewleta li Burnetas û Katehakis (1997) bi hûrgulî hate lêkolîn kirin.
Fêrbûna xurtkirinê hewceyê mekanîzmayên lêgerîna jîr e; çalakiyên bêserûber hilbijêrin, bêyî ku referansek li dabeşkirinek îhtimalek texmînkirî, performansek xirab nîşan dide. Bûyera (piçûk) pêvajoyên biryara qedandî Markov bi nisbeten baş tê fam kirin. Lêbelê, ji ber tunebûna algorîtmayên ku bi hejmara dewletan re baş (an pîvandina pirsgirêkên bi qadên bêdawî yên dewletê) re pîvandine, rêbazên lêgerîna hêsan ên herî pratîkî ne.
Her çend pirsgirêka lêgerînê neyê paşguh kirin û her çend dewlet were temaşekirin jî, pirsgirêk dimîne ku ezmûna berê bikar bîne da ku bizanibe ka kîjan kiryarên hanê ber bi xelatên komî yên bilind ve dibin.
Ji bo ku hûn xwe bi hûrgulî bi bernameya sertîfîkayê re nas bikin, hûn dikarin tabloya jêrîn berfireh bikin û analîz bikin.
Bernameya Sertîfîkaya Fêrbûna Hêzdarkirina Pêşketî ya EITC/AI/ARL di formek vîdyoyê de materyalên dîdaktîk ên gihîştî vekirî vedibêje. Pêvajoya fêrbûnê di nav avahiyek gav-bi-gav (bername -> ders -> mijar) de tê dabeş kirin ku beşên dersa têkildar vedihewîne. Bi pisporên domainê re şêwirmendiya bêsînor jî tê peyda kirin.
Ji bo hûrguliyên li ser prosedûra Sertîfîkayê kontrol bikin Ku çawa dixebite.
Çavkaniyên Çavkaniyê Mufredatê
Kontrola asta mirovî bi riya weşana Fêrbûna Hêza Kûr
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Kursa vekirî-gihiştinê li ser fêrbûna xurtkirina kûr li UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL ji Manifold.ai li pirsgirêka banda K-armbed sepand
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Ji bo Bernameya Hînbûna Hêzdarkirina Pêşkeftî ya EITC/AI/ARL malzemeyên amadekariya xwe-fêrbûnê ya bêkêmasî di pelek PDF de dakêşin
Materyalên amadekar EITC/AI/ARL - guhertoya standard
Materyalên amadekar ên EITC/AI/ARL - guhertoya dirêjkirî bi pirsên vekolînê