corpus

您當前的位置：首頁 > 標簽>corpus

工具篇（一）gensim安裝及使用
possegasposseg，jieba# —————— 文字預處理texts=［‘花唄的安全沒有驗證成功’，‘借唄還款了，額度未恢復’，‘閒魚可以使用花唄嗎’，‘借唄每月還款時間’，‘花唄付款成功為何美團顯示支付超時’，‘國外賬戶可以開
2022-08-12標簽： word corpus 584962500721156 index vec
閱讀更多
40行Python程式碼區分英語單詞和漢語拼音
keys（）：freq_i=0foriinrange（len（word））：ifl==1：ifword［i］==symbol：freq_i+=1ifl==2：ifword［i：i+2］==symbol：# print（word）freq_i
2017-10-20標簽： word corpus 英語單詞 freq cond
閱讀更多
幾個NLP實用工具：不用重新造輪子
categories = ［“adventure”， “belles_lettres”， “editorial”， “fiction”， “government”，“hobbies”， “humor”， “learned”， “lore”，
2020-09-07標簽： print corpus 文件預處理 Python
閱讀更多
主題模型（四）：LDA最佳化思路
總之，使用TF-IDF能解決的上面的詞袋模型中詞頻的問題，這裡重點講一下在Python中是怎麼實現tf-idf訓練LDA模型的，老規矩，一句程式碼解決問題tfidf = models
2020-02-14標簽： LDA 模型 mallet 詞袋 corpus
閱讀更多
基於 Python 的簡單自然語言處理實踐
get_feature_names（）return （vocab， DTM）我們也可以對分詞之後的文件進行主題模型或者詞向量提取，這裡使用分詞之後的檔案就可以忽略中英文的差異：def topics_by_lda（self， tokenize
2017-04-08標簽： train self data corpus 語料
閱讀更多
Kmeans 聚類演算法
fit_transform（weights）def kmeans（self， corpus_path， n_clusters=5， fig=True）：“”“KMeans文字聚類：param corpus_path：語料路徑（每行一篇），
2020-06-24標簽：聚類演算法 Kmeans self corpus
閱讀更多
有沒有什麼翻譯書可提高高中英語翻譯的？
英文翻譯1,000+ 篇杜甫詩詞adamlam99：中譯英杜甫詩詞目錄中英對照6,000+地道英文句子(是我兩父子幾十年在北美街頭、學校、辦公室、董事會使用過的實際句子，很多保證你在課本、電郵和天書不會碰到或留意的英文，是老外熟悉的英文
2018-11-25標簽： COCA adamlam99 English corpus 英文
閱讀更多
R如何製作詞雲
$ content： chr “c chope good week just check kgive back thank also cbe pay aiya discuss later lar pick u much buzi plea
2020-08-12標簽：詞雲 wordcloud2 SMS corpus 簡訊
閱讀更多

工具篇（一）gensim安裝及使用

40行Python程式碼區分英語單詞和漢語拼音

幾個NLP實用工具：不用重新造輪子

主題模型（四）：LDA最佳化思路

基於 Python 的簡單自然語言處理實踐

Kmeans 聚類演算法

有沒有什麼翻譯書可提高高中英語翻譯的？

R如何製作詞雲