TensorFlow Keras Tokenizer API destûrê dide tokenîzekirina bikêrhatî ya daneyên nivîsê, ku di peywirên Pêvajoya Zimanê Xwezayî (NLP) de gavek girîng e. Dema ku mînakek Tokenizer di TensorFlow Keras de mîheng dike, yek ji wan pîvanên ku dikare were saz kirin parametreya `num_words` e, ku li gorî frekansa peyvan hejmara herî zêde ya peyvan diyar dike ku bêne girtin. Ev parametre ji bo kontrolkirina mezinahiya peyvan bi tenê bi berçavgirtina peyvên herî zêde heya sînorê diyarkirî tê bikar anîn.
Parametreya `num_words` argumanek vebijarkî ye ku dema destpêkirina tiştek Tokenizer dikare were derbas kirin. Bi danîna vê parametreyê li ser nirxek diyarkirî, Tokenizer dê tenê peyvên jorîn `num_words - 1` yên herî pir caran di nav daneyê de bihesibîne, digel ku peyvên mayî wekî nîşaneyên derveyî-ferhengê têne hesibandin. Ev dikare bi taybetî dema ku bi danehevên mezin re mijûl dibin an dema ku astengiyên bîranînê fikar in, bikêrhatî be, ji ber ku sînordarkirina mezinahiya peyvan dikare alîkariya kêmkirina şopa bîranîna modelê bike.
Girîng e ku bala xwe bidinê ku parametreya `num_words` bandorê li pêvajoya tokenîzasyonê bixwe nake, lê berevajî mezinahiya ferhenga ku Tokenizer dê pê re bixebite diyar dike. Peyvên ku ji ber sînorê `hejmar_peyvên` di nav peyvsaziyê de cih nagirin, dê li ser `oov_token` a ku di dema destpêkirina Tokenizer de hatî destnîşan kirin, werin nexşandin.
Di pratîkê de, danîna parametreya `num_words` dikare ji hêla balkişandina li ser peyvên herî têkildar ên di databasê de bi balkişandina li ser peyvên herî têkildar ên ku di performansa modelê de bi girîngî tevnegerin, ji holê rabike, dikare bibe alîkar ku karbidestiya modelê baştir bike. Lêbelê, pêdivî ye ku meriv nirxek guncaw ji bo `num_words` li ser bingeha databasa taybetî û peywira di dest de hilbijêrin da ku agahdariya girîng winda nekin.
Li vir mînakek e ku meriv çawa dikare di TensorFlow Keras Tokenizer API-ê de pîvana `num_words` were bikar anîn:
python from tensorflow.keras.preprocessing.text import Tokenizer # Initialize a Tokenizer object with a maximum of 1000 words tokenizer = Tokenizer(num_words=1000) # Fit the Tokenizer on some text data texts = ['sample text data for tokenization'] tokenizer.fit_on_texts(texts) # Convert text to sequences using the Tokenizer sequences = tokenizer.texts_to_sequences(texts) print(sequences)
Di mînaka li jor de, Tokenizer bi `num_words=1000` dest pê dike, mezinahiya peyvan bi 1000 peyvan sînordar dike. Dûv re Tokenizer li ser daneya nivîsê ya nimûne tête cîh, û nivîs bi karanîna Tokenizer veguherîne rêzan.
Parametreya `num_words` di TensorFlow Keras Tokenizer API-yê de destûrê dide kontrolkirina mezinahiya peyvan bi destnîşankirina hejmara herî zêde ya peyvan ku li gorî frekansa wan a di daneyê de têne hesibandin. Bi danîna nirxek guncaw ji bo `num_words`, bikarhêner dikarin performansa modelê û kargêriya bîranînê di karên NLP de xweştir bikin.
Pirs û bersivên din ên vê dawiyê di derbarê Bingehîn TensorFlow EITC/AI/TFF:
- Meriv çawa dikare qatek binavkirî bikar bîne da ku bixweber axên rast ji bo nexşeyek nûnertiya peyvan wekî vektor destnîşan bike?
- Armanca berhevkirina max di CNN de çi ye?
- Pêvajoya derxistina taybetmendiyê di tora neuralî ya hevgirtî (CNN) de ji bo naskirina wêneyê çawa tê sepandin?
- Ma pêdivî ye ku ji bo modelên fêrbûna makîneyê yên ku li TensorFlow.js têne xebitandin fonksiyonek fêrbûna asynkron bikar bînin?
- Ma TensorFlow Keras Tokenizer API dikare were bikar anîn da ku peyvên herî pir caran bibîne?
- TOCO çi ye?
- Têkiliya di navbera çend serdeman de di modelek fêrbûna makîneyê de û rastbûna pêşbîniya ji xebitandina modelê de çi ye?
- Ma API-ya cîranên pakêtê di Fêrbûna Structured Neural of TensorFlow de li ser bingeha daneya grafika xwezayî danûstendinek perwerdehiya zêdekirî çêdike?
- API-ya cîranên pakêtê di Fêrbûna Structured Neural of TensorFlow de çi ye?
- Ma Fêrbûna Structured Neural dikare bi daneyên ku ji bo wan grafikek xwezayî tune were bikar anîn?
Pir pirs û bersivan di EITC/AI/TFF TensorFlow Fundamentals de bibînin