TensorFlow Keras Tokenizer API destûrê dide tokenîzasyona bikêrhatî ya daneya nivîsê, ku di karên Pêvajoya Zimanê Xwezayî (NLP) de gavek girîng e. Dema ku mînakek Tokenizer di TensorFlow Keras de mîheng dike, yek ji wan parametreyên ku dikare were saz kirin parametreya `num_words` e, ku li gorî frekansa peyvan hejmara herî zêde ya peyvan diyar dike ku bêne girtin. Ev parametre ji bo kontrolkirina mezinahiya peyvan bi tenê bi berçavgirtina peyvên herî zêde heya sînorê diyarkirî tê bikar anîn.
Parametreya `num_words` argumanek vebijarkî ye ku dema destpêkirina tiştek Tokenizer dikare were derbas kirin. Bi danîna vê parametreyê li ser nirxek diyarkirî, Tokenizer dê tenê peyvên jorîn `num_words - 1` yên herî pir caran di nav daneyê de bihesibîne, digel ku peyvên mayî wekî nîşaneyên derveyî-ferhengê têne hesibandin. Ev dikare bi taybetî dema ku bi danehevên mezin re mijûl dibin an dema ku astengiyên bîranînê fikar in, bikêrhatî be, ji ber ku sînordarkirina mezinahiya peyvan dikare alîkariya kêmkirina şopa bîranîna modelê bike.
Girîng e ku bala xwe bidinê ku parametreya `num_words` bandorê li pêvajoya tokenîzasyonê bixwe nake, lê berevajî mezinahiya ferhenga ku Tokenizer dê pê re bixebite diyar dike. Peyvên ku ji ber sînorê `hejmar_peyvên` di nav peyvsaziyê de cih nagirin, dê li ser `oov_token` a ku di dema destpêkirina Tokenizer de hatî destnîşan kirin, werin nexşandin.
Di pratîkê de, danîna parametreya `num_words` dikare ji hêla balkişandina li ser peyvên herî têkildar ên di databasê de bi balkişandina li ser peyvên herî têkildar ên ku di performansa modelê de bi girîngî tevnegerin, ji holê rabike, dikare bibe alîkar ku karbidestiya modelê baştir bike. Lêbelê, pêdivî ye ku meriv nirxek guncaw ji bo `num_words` li ser bingeha databasa taybetî û peywira di dest de hilbijêrin da ku agahdariya girîng winda nekin.
Li vir mînakek e ku meriv çawa dikare di TensorFlow Keras Tokenizer API-ê de pîvana `num_words` were bikar anîn:
python from tensorflow.keras.preprocessing.text import Tokenizer # Initialize a Tokenizer object with a maximum of 1000 words tokenizer = Tokenizer(num_words=1000) # Fit the Tokenizer on some text data texts = ['sample text data for tokenization'] tokenizer.fit_on_texts(texts) # Convert text to sequences using the Tokenizer sequences = tokenizer.texts_to_sequences(texts) print(sequences)
Di mînaka li jor de, Tokenizer bi `num_words=1000` dest pê dike, mezinahiya peyvan bi 1000 peyvan sînordar dike. Dûv re Tokenizer li ser daneya nivîsê ya nimûne tête cîh, û nivîs bi karanîna Tokenizer veguherîne rêzan.
Parametreya `num_words` di TensorFlow Keras Tokenizer API-yê de destûrê dide kontrolkirina mezinahiya peyvan bi destnîşankirina hejmara herî zêde ya peyvan ku li gorî frekansa wan a di daneyê de têne hesibandin. Bi danîna nirxek guncaw ji bo `num_words`, bikarhêner dikarin performansa modelê û kargêriya bîranînê di karên NLP de xweştir bikin.
Pirs û bersivên din ên vê dawiyê di derbarê Bingehîn TensorFlow EITC/AI/TFF:
- Meriv çawa hejmara wêneyên ku ji bo perwerdekirina modelek dîtina AI-ê têne bikar anîn destnîşan dike?
- Dema ku modelek dîtina AI-ê perwerde dike, pêdivî ye ku ji bo her serdemek perwerdehiyê komek wêneyên cûda bikar bînin?
- Hejmara herî zêde ya gavên ku RNN dikare ji bîr bike çend e ku ji pirsgirêka gradientê ya windabûyî û gavên herî zêde yên ku LSTM dikare ji bîr bike çend e?
- Ma tora neuralî ya paşverû dişibihe tora neuralî ya dubare?
- Meriv çawa dikare qatek binavkirî bikar bîne da ku bixweber axên rast ji bo nexşeyek nûnertiya peyvan wekî vektor destnîşan bike?
- Armanca berhevkirina max di CNN de çi ye?
- Pêvajoya derxistina taybetmendiyê di tora neuralî ya hevgirtî (CNN) de ji bo naskirina wêneyê çawa tê sepandin?
- Ma pêdivî ye ku ji bo modelên fêrbûna makîneyê yên ku li TensorFlow.js têne xebitandin fonksiyonek fêrbûna asynkron bikar bînin?
- Ma TensorFlow Keras Tokenizer API dikare were bikar anîn da ku peyvên herî pir caran bibîne?
- TOCO çi ye?
Pir pirs û bersivan di EITC/AI/TFF TensorFlow Fundamentals de bibînin