語料

您當前的位置：首頁 > 標簽>語料

研究語言學所使用的媒介還是語言，這是一種悖論嗎？
總之語言學並不非用語言來研究，悖論無從說起
2022-04-01標簽：語言研究語言學語料語用
閱讀更多
基於BiLSTM-CNN-CRF的中文分詞（二）
com/tech/nlp/lexical）的結果（中將錯誤）：圖18 Baidu AI 分詞三、分詞介面效果圖如下：http：//127
2018-03-28標簽：分詞語料微信模型訓練
閱讀更多
EDA：文字分類資料增強方法
看論文的過程中，其實心中一直有一個疑問，經過EDA操作的句子，label還會是對的嗎作者在論文中回答了這一點，作者做了一個實驗，用原有的訓練集訓練模型（未經過資料增強），之後在測試集中使用EDA方法，拓展測試集，將原有的測試集和拓展出的語料
2019-10-06標簽： EDA 語料隨機句子替換
閱讀更多
聊天的語料庫在哪裡可以找到？
開放的聊天語料庫很少，質量也需要根據需求評估一下，一些已知的庫可以在 Samurais/Dialog_Corpus 找到
2015-04-03標簽：語料庫聊天英文語料輸入法
閱讀更多
AI Challenger_2018英中文字機器翻譯_參賽小結
因為考慮到無監督的方法會用對偶學習的套路生成一些額外的資料訓練模型，所以感覺結合有標註的訓練語料可能會得到更好的結果
2018-11-17標簽：模型 dev 句子訓練語料
閱讀更多
雅思口語備考經驗,如何10天DIY完 Part2 素材!
口語並非我的強項，但相比高分大神，可能我的基礎和經驗更適用於大部分的中等水平烤鴨~尤其是如何有效積累DIY語料的部分，個人認為超級管用，全網獨創~~概括來說, 口語 = 輸入+ 輸出.輸入: 積累語料、學習邏輯方法、串題P2輸出:
2021-08-31標簽：語料口語備考積累自己
閱讀更多
聽力越來越難？10張圖解就能打通你的“任督二脈”！
（圖1-9）（圖1-10）鑑於一場聽力考試的致命丟分因素就是注意力控制不好，學習語料特點能幫助同學們從宏觀上提高對聽力場景內容與結構的判斷及理解能力，從而強化自上而下的聽力理解能力，最終輔助同學們在考場上進行注意力分配
2018-09-26標簽：聽力語料讀題理解語境
閱讀更多
CCL語料庫與BCC語料庫各自的特點是什麼？
CCL沒有提供歷時檢索功能，BCC有，所有想做歷時分析、對比的，就只能選BCC啦
2015-10-17標簽： CCL 語料庫 BCC 語料檢索
閱讀更多
託福寫作怎麼才能達到15分？
只要輸入做到位了，考試時就會寫得很順暢，好的詞句就會從腦子中迸發出來的嘻嘻嘻~綜合寫作綜合寫作的話需要注意的幾點就是不需要發表我們自己的觀點，完全可以使用閱讀，聽力原詞，其次就是練好聽力
2021-12-18標簽：託福寫作 students 提分語料
閱讀更多
粵語粵海片某些地方表示完成的語法詞 heu（相當於廣州話「咗」）的來源是什麼？
甘於恩、趙越《粵方言的完成體標記「休」及其相關形式》語音層面上的論證：同上文從清代以來的粵語語料來看，粵語的完成體標記最初是以「休」類佔主導，在歷史文字中還寫作「敲／嘵／咻」等
2021-04-30標簽：標記完成粵方言粵語語料
閱讀更多
文字分類5天征服你-第5天構建工業級文字分類系統（系統篇）
本節待錄製學習影片（1）根據無類別標記語料自動推薦類目體系（2）類目關鍵詞自動抽取與擴充套件（3）語料採集（4）基於HanLP的文字分類系統（5）badcase自動分析指令碼（6）人工干預處理指令碼
2019-10-05標簽：類目關鍵詞語料分類 HanLP
閱讀更多
香儂讀 | 映象生成式（Mirror-Generative）機器翻譯
這個圖的意思是（跟著箭頭走）：首先把句對懟進Inference Model裡，這裡句對可以是平行語料，也可以是非平行語料，然後sample一個隱變數（這裡隱變數的sampling使用重引數技巧，具體請讀者自行查閱資料）在訓練的時候，去最小化
2019-11-24標簽：語料平行模型 nmt 翻譯器
閱讀更多
細粒度實體分類-FECT with label embeddings
FETC（Fine-Grained Entity TypeClassification）系統一般會採用distant supervision收集語料，這種方法會對同一個實體標註所有可能的標籤
2020-06-05標簽：標籤實體語料文中上下文
閱讀更多
情感分析-概述
下邊列出情感分析語料COAE2014評測語料（語料數量太小）task1 長新聞文字抽取出主觀句並判斷極性
2019-05-01標簽：情感語料詞典極性文字
閱讀更多
雅思口語題庫+話題語料（22年1-4月完整版）.PDF
之前小夥伴都反映按場景分類來備考口語積累語料會更加高效，所以這次還是按照場景分類方法將保留題和新題以Part1和part2 為分類物件，將1-4月的雅思口語題庫分為了地點與住宿類、人物+人際交往類、娛樂愛好類、自然環境保護類、日常生活類、學
2022-01-24標簽：語料雅思詞彙口語題庫
閱讀更多
SnowNLP 使用自定義語料進行模型訓練
關於 SnowNLP 使用自定義語料進行模型訓練的話題，這次我們就先寫到這裡，做資料探勘的時候，有的人在乎的是最終的結果，而有的人享受的是整個過程，人類的情感或許是相似的，所以，學著去接受這個多樣性有點多到奇葩的世界，學著去和平凡而普通的自
2021-05-22標簽： SnowNLP 模型語料我們情感
閱讀更多
復旦蔡基剛：關於機器翻譯替代人工翻譯，李長栓的觀點較悲觀
這個語料加工的技術層面工作，可以讓專業人員（懂英漢兩種語言的法律專業人員）和語言服務專家完成，包括對機器翻譯的譯文進行與原文的比較和校對，然後修改後輸回機器，再讓其進行再學習翻譯，再修改和完善語料庫文字
2019-08-15標簽：翻譯機器翻譯專業語料庫語料
閱讀更多
語音合成（speech synthesis）方向四：開源資料open speech corpus
想訪問該資料的使用者請訪問LibriTTSLibriTTS是多說話人英語語料，大約有585小時，根據音訊質量分為好幾個子集，使用者可以根據需要進行選擇使用，（音質不是太高，可以用於speaker encoder訓練使用）具體引數如下想訪問該
2020-12-07標簽：語音資料語料標註開源
閱讀更多
託福寫作怎麼在一個月從15提高到20或是更高？
對於語言表達能力不強的同學，可以就幾句核心句進行默寫背誦，有助於提高內容填充的效率，另外再選擇輔助說理手段即可（若需要）那麼基於以上四步解題內容填充方法，以及提供的語料庫，工具模版，全解析真題庫等，一般獨立寫作所遇到的素材不穩定，邏輯論證不
2018-02-10標簽：語料寫作邏輯託福填充
閱讀更多
聊聊Atman資料的高效利用（一）——資料清洗（去噪）
我們有兩種方法來解決該問題：利用某個領域高質量的平行語料訓練一個翻譯模型，用該翻譯模型來衡量源語言句子翻譯到目標語言句子的偏差（或loss）
2018-11-15標簽：句子語料資料模型源語言
閱讀更多