TensorFlow Keras Tokenizer API bi rastî dikare were bikar anîn da ku peyvên herî pir caran di nav korpusek nivîsê de bibîne. Tokenîzasyon di pêvajoya zimanê xwezayî (NLP) de gavek bingehîn e ku tê de veqetandina nivîsê li yekîneyên piçûktir, bi gelemperî peyvan an jêr-peyvanan vedihewîne, da ku pêvajoyek din hêsantir bike. Tokenizer API-ya di TensorFlow de destûrê dide tokenîzekirina bikêrhatî ya daneya nivîsê, karên wekî jimartina frekansa peyvan dike.
Ji bo ku hûn peyvên herî pir caran bi karanîna TensorFlow Keras Tokenizer API-ê bibînin, hûn dikarin van gavan bişopînin:
1. Tokenization: Bi tokenîzekirina daneya nivîsê bi karanîna API-ya Tokenizer dest pê bikin. Hûn dikarin mînakek Tokenizer biafirînin û wê li ser korpusa nivîsê bicîh bikin da ku ferhengek peyvên heyî yên di daneyê de çêbikin.
python from tensorflow.keras.preprocessing.text import Tokenizer # Sample text data texts = ['hello world', 'world of tensorflow', 'hello tensorflow'] # Create Tokenizer instance tokenizer = Tokenizer() tokenizer.fit_on_texts(texts)
2. Peyv Indeksa: Indeksa peyvan ji Tokenizerê vegerîne, ku her peyvê li gorî frekansa wê ya di korpusê de nexşeya yekjimarek bêhempa vedigire.
python word_index = tokenizer.word_index
3. Peyv Dihejmêre: Frekansa her peyvê di korpusa nivîsê de bi karanîna taybetmendiya `word_counts`` ya Tokenizer hesab bike.
python word_counts = tokenizer.word_counts
4. Sorting: Jimartina peyvan li gor rêza xwarê rêz bikin da ku peyvên herî zêde diyar bibin.
python sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
5. Nîşandana Peyvên Herî Pir caran: Peyvên herî zêde N-ya jorîn li gorî jimartina peyvan rêzkirî nîşan bidin.
python top_n = 5 most_frequent_words = [(word, count) for word, count in sorted_word_counts[:top_n]] print(most_frequent_words)
Bi şopandina van gavan, hûn dikarin API-ya TensorFlow Keras Tokenizer bikar bînin da ku peyvên herî pir caran di korpusek nivîsê de bibînin. Ev pêvajo ji bo karên cûrbecûr yên NLP-ê, di nav de analîzkirina nivîsê, modelkirina ziman, û wergirtina agahdariyê, pêwîst e.
TensorFlow Keras Tokenizer API dikare bi bandor were bikar anîn da ku peyvên herî pir caran di korpusek nivîsê de bi navgîniya tokenîzekirin, nîşankirina peyvan, hejmartin, rêzkirin, û gavên pêşandanê nas bike. Ev nêzîkatî li ser belavkirina peyvan di nav daneyan de nihêrînên hêja peyda dike, ku di serîlêdanên NLP-ê de analîz û modela bêtir dihêle.
Pirs û bersivên din ên vê dawiyê di derbarê Bingehîn TensorFlow EITC/AI/TFF:
- Meriv çawa dikare qatek binavkirî bikar bîne da ku bixweber axên rast ji bo nexşeyek nûnertiya peyvan wekî vektor destnîşan bike?
- Armanca berhevkirina max di CNN de çi ye?
- Pêvajoya derxistina taybetmendiyê di tora neuralî ya hevgirtî (CNN) de ji bo naskirina wêneyê çawa tê sepandin?
- Ma pêdivî ye ku ji bo modelên fêrbûna makîneyê yên ku li TensorFlow.js têne xebitandin fonksiyonek fêrbûna asynkron bikar bînin?
- Parametreya herî zêde ya peyvan a TensorFlow Keras Tokenizer API çi ye?
- TOCO çi ye?
- Têkiliya di navbera çend serdeman de di modelek fêrbûna makîneyê de û rastbûna pêşbîniya ji xebitandina modelê de çi ye?
- Ma API-ya cîranên pakêtê di Fêrbûna Structured Neural of TensorFlow de li ser bingeha daneya grafika xwezayî danûstendinek perwerdehiya zêdekirî çêdike?
- API-ya cîranên pakêtê di Fêrbûna Structured Neural of TensorFlow de çi ye?
- Ma Fêrbûna Structured Neural dikare bi daneyên ku ji bo wan grafikek xwezayî tune were bikar anîn?
Pir pirs û bersivan di EITC/AI/TFF TensorFlow Fundamentals de bibînin