Dema ku di warê naskirina wêneyê de bi torên neuralî yên konvolutional (CNN) re dixebitin, pêdivî ye ku meriv encamên wêneyên rengîn li hember wêneyên gewr fêm bike. Di çarçoweya fêrbûna kûr a bi Python û PyTorch de, cûdahiya di navbera van her du celeb wêneyan de di hejmara kanalên wan de ye.
Wêneyên rengîn, ku bi gelemperî di forma RGB (Sor, Kesk, Şîn) de têne destnîşan kirin, sê kanalên ku bi tundiya her kanalek rengîn re têkildar in vedihewîne. Ji aliyek din ve, wêneyên gewr xwedan kanalek yekane ye ku li her pixelê tundiya ronahiyê temsîl dike. Ev guheztina di hejmara kanalan de dema ku van wêneyan di nav CNN-ê de vediguhezîne, di pîvanên têketinê de sererastkirin hewce dike.
Di mijara naskirina wêneyên rengîn de, pêdivî ye ku pîvanek din li gorî naskirina wêneyên gewr were hesibandin. Dema ku wêneyên gewr bi gelemperî wekî tensorên 2D (bilindî x firehî) têne destnîşan kirin, wêneyên rengîn wekî tensorên 3D (bilindî x firehî x kanal) têne destnîşan kirin. Ji ber vê yekê, dema ku CNN perwerde dike da ku wêneyên rengîn nas bike, divê daneyên têketinê bi rengek 3D were saz kirin da ku kanalên rengan hesab bike.
Mînakî, werin em mînakek hêsan ji bo ronîkirina vê têgehê binirxînin. Bifikirin ku we wêneyek rengîn a 100×100 pixel heye. Di formata RGB de, ev wêne dê wekî tensorek bi pîvanên 100x100x3 were destnîşan kirin, ku pîvana paşîn bi sê kanalên rengîn re têkildar e. Dema ku ev wêne di nav CNN re derbas dibe, divê mîmariya torê were sêwirandin da ku daneyên têketinê di vê formata 3D de qebûl bike da ku bi bandor ji agahdariya rengê ku di wêneyê de heye fêr bibe.
Berevajî vê, heke hûn bi wêneyên gewr ên heman pîvanan re bixebitin, tensora têketinê dê 100 × 100 be, ku tenê yek kanalek heye ku tundiya ronahiyê temsîl dike. Di vê senaryoyê de, mîmariya CNN-ê dê were mîheng kirin da ku daneyên têketina 2D-ê bêyî hewcedariya pîvanek kanalek zêde qebûl bike.
Ji ber vê yekê, ji bo ku bi serfirazî wêneyên rengîn ên li ser tora neuralî ya hevgirtî nas bikin, girîng e ku meriv pîvanên têketinê rast bike da ku agahdariya kanala zêde ya ku di wêneyên rengîn de heye bicîh bîne. Bi têgihiştina van cûdahiyan û bi rêkûpêk birêkûpêkkirina daneya têketinê, CNN dikarin bi bandor agahdariya rengîn bikar bînin da ku karên naskirina wêneyê zêde bikin.
Pirs û bersivên din ên vê dawiyê di derbarê Eytc/AI/DLPP Fêrbûna Kûr a bi Python û PyTorch:
- Ma fonksiyona aktîfkirinê dikare were hesibandin ku bi gulebaranê an na neronek di mêjî de teqlîd bike?
- Ma PyTorch dikare bi NumPy-ê ku li ser GPU-yê bi hin fonksiyonên din ve tê xebitandin re were berhev kirin?
- Ma windabûna derveyî nimûne windakirina pejirandinê ye?
- Ma pêdivî ye ku meriv ji bo analîzkirina pratîkî ya modela tora neuralî ya PyTorch an matplotlib-ê tabloyek tensor bikar bîne?
- Ma dikare PyTorch bi NumPy-ê ku li ser GPU-yê bi hin fonksiyonên din ve tê xebitandin were berhev kirin?
- Gelo ev pêşniyar rast e an xelet e "Ji bo tora neuralî ya dabeşkirinê divê encam di navbera çînan de dabeşkirina îhtimalê be."
- Ma meşandina modelek tora neuralî ya fêrbûna kûr a li ser gelek GPU-yên li PyTorch pêvajoyek pir hêsan e?
- Ma tora neuralî ya birêkûpêk dikare bi fonksiyonek nêzî 30 mîlyar guhêrbar re were berhev kirin?
- Tora neuralî ya herî mezin a konvolutional ku hatî çêkirin çi ye?
- Ger têketin navnîşa rêzikên numpy e ku nexşeya germahiyê hildibijêre ku derketina ViTPose ye û şeklê her pelê numpy [1, 17, 64, 48] bi 17 xalên sereke yên laş re têkildar e, kîjan algorîtma dikare were bikar anîn?
Di EITC/AI/DLPP Fêrbûna Kûr bi Python û PyTorch de bêtir pirs û bersivan bibînin