屬於機器學習常見流程的是

科技生活
關注：4.43K次

品牌型號：華為MateBook D15
系統：Windows 10

屬於機器學習常見流程的是資料獲取、特徵提取、模型訓練和驗證、線下測試、線上測試。

1、資料獲取：首先從線上拉取使用者真實資料，用現有模型過一遍這些資料得到一些有用的資訊作為標註人員的一個參考，加快標註速度；標註完成後，資料入庫並解決衝突，衝突即是同一個query，兩次標註結果不一致，解決衝突的辦法一般是人工check，得到一個更準確的標註；

2、特徵抽取：NLP任務一般需要抽取資料的特徵，如ngram、詞典特徵、詞向量特徵、上游模組的輸出等。一般離線和線上均需要特徵抽取，所以離線上的這部分程式碼是共用的，避免線上特徵抽取和離線不一致。抽取特徵時有個小技巧是把能想到的特徵均抽取出來，並儲存成文字檔案，避免重複的執行特徵抽取的步驟，在實驗的時候用mask的方式去遮蔽掉那些對模型沒用的特徵，因為針對神經網路這樣的模型，值為0的特徵一般不影響最終結果（如tanh/ReLU等，但sigmoid啟用層可能會影響）。這樣抽取出來的特徵的格式一般還不能滿足機器學習框架的要求，通過指令碼轉化成機器學習框架要求的格式即可。

3、模型訓練和驗證：常用的模型訓練和驗證步驟是：首先以一個簡易的演算法開始，快速的進行實現，並在交叉驗證集上進行驗證；然後畫出它的學習曲線，通過學習曲線確定是否更多的資料或者更多的特徵會對模型的優化有幫助。接著人為地檢測交叉驗證集中被錯誤的進行分類的或者預測的樣本的共同特徵，從實際入手對模型進行調整，不斷調整並驗證在交叉驗證集上的誤差，尋找最優的結果，優化模型。

4、線下測試：指在模型驗證有提升後，在測試集上測試模型的效能指標。線下測試可以將模型整合在應用程式裡測試，也可以單獨測試模型。線下測試的指標一般跟具體的業務需求相關，包括：準確率(accuracy)、精確率(precesion)、召回率(recall)、F1值等。

5、線上測試：是模型上線後的測試，是跟業務緊密相關的一個指標。在實際工作中，一般先將版本上線至一個複製小流量環境，打到這個環境的流量同時也打到線上環境，然後同時取出線上環境的結果和複製小流量環境的結果，抽出兩者的diff，人工做gsb(goodbadsame)，即針對有diff的case，人工標註小流量好(good)，還是線上好(bad)，或者兩者打平(same)，如果good多於bad，說明gsb通過，可以上線供使用者體驗。這種方法與A/Btesting類似。模型上到線上後，可以通過使用者行為反饋模型的好壞，如使用者點選、pv等。

標籤：流程機器學習

文章版權屬於文章作者所有，轉載請註明 https://shkpb.com/keji/kejishenghuo/482pme.html

當前位置：生活科普幫 >

科技 >科技生活 >

屬於機器學習常見流程的是

相關內容

熱門文章

猜你喜歡