representation(表示 (Representation):良好特征的特點)

時間:2023-08-13 22:17:08 閱讀:7

表現 (Representation):精良特性的特點

我們探究了將原始數據映射到切合特性矢量的辦法,但這只是事情的一局部。如今,我們必需探究什么樣的值才算這些特性矢量中精良的特性。

制止很少使用的散伙特性值

精良的特性值應該在數據會合顯現約莫 5 次以上。如此一來,模子就可以學習該特性值與標簽是怎樣關聯的。也就是說,多量散伙值相反的樣本可讓模子天然會了解不同設置中的特性,從而推斷何時可以對標簽很好地做出猜測。比如,house_type 特性約莫包含多量樣本,此中它的值為 victorian

?house_type: victorian

相反,假如某個特性的值僅顯現一次大概很少顯現,則模子就無法依據該特性舉行猜測。比如,unique_house_id 就不適互助為特性,由于每個值只使用一次,模子無法從中學習任何紀律:

?unique_house_id: 8SK982ZZ1242Z

最好具有明晰明白的涵義

每個特性關于項目中的任何人來說都應該具有明晰明白的涵義。比如,底下的房齡適互助為特性,可立刻識別是以年為單位的房齡:

?house_age: 27

相反,關于下方特性值的涵義,除了創建它的工程師,其他人恐怕辨識不出:

?house_age: 851472000

在某些情況下,雜亂的數據(而不是糟糕的工程選擇)會招致涵義不明晰的值。比如,以下 user_age 的泉源沒有反省值得當與否:

?user_age: 277

實踐數據內不要摻入特別值

精良的浮點特性不包含超出范圍的特別斷點或特別的值。比如,假定一個特性具有 0 到 1 之間的浮點值。那么,如下值是可以承受的:

?quality_rating: 0.82 quality_rating: 0.37

不外,假如用戶沒有輸入 quality_rating,則數據集約莫使用如下特別值來表現不存在該值:

?quality_rating: -1

為處理特別值的成績,需將該特性轉換為兩個特性:

  • 一個特性只存儲質量評分,不含特別值。
  • 一個特性存儲布爾值,表現對否提供了 quality_rating。為該布爾值特性指定一個稱呼,比如 is_quality_rating_defined

思索高明不安定性

特性的界說不應隨時間產生厘革。比如,下列值是有效的,由于都市稱呼尋常不會改動。(注意,我們仍舊必要將“br/sao_paulo”如此的字符串轉換為獨熱矢量。)

?city_id: "br/sao_paulo"

但搜集由其他模子推理的值會產生分外本錢。約莫值“219”現在代表圣保羅,但這種表現在將來運轉其他模子時約莫容易產生厘革:

?inferred_city_cluster: "219"

版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除

原文鏈接:http://m.avtt22014.comhttp://m.avtt22014.com/wangluozixun/33606.html


Copyright ? 2021-2022 All Rights Reserved 備案編號:閩ICP備2023009674號 網站地圖 聯系:dhh0407@outlook.com

主站蜘蛛池模板: 国产成人精品视频福利app| 欧美大片在线观看完整版| 房客(糙汉)何璐程曜坤| 波多野结衣一二三区| 成人片黄网站色大片免费| 国产AV一区二区三区传媒| 久久96国产精品久久久| 要灬要灬再深点受不了好舒服 | 校花小冉黑人系列小说| 国产精品俺来也在线观看 | 一区二区三区欧美| 精品久久久久久久久久中文字幕 | 豪妇荡乳1一5白玉兰| 日本久久久久久中文字幕| 国产乱人伦偷精品视频不卡| 久久人人爽人人爽人人片av不 | 欧美精品综合一区二区三区| 国产精品香蕉在线观看| 亚洲另类欧美日韩| 天天久久影视色香综合网| 最近免费中文字幕大全高清片| 国产成人女人在线视频观看| 久久夜色精品国产噜噜亚洲AV| 香蕉污视频在线观看| 日产乱码卡1卡2卡三卡四在线| 又大又硬又爽又粗又快的视频免费 | 无遮挡很爽很污很黄在线网站| 国产一区日韩二区欧美三区| 三上悠亚ssni_229在线播放| 男女男精品视频| 国产综合精品在线| 亚洲AV综合色区无码一区| 野花香高清在线观看视频播放免费| 我爱我色成人网| 免费A级毛片高清在钱| 91av视频网站| 日韩综合在线视频| 又粗又猛又黄又爽无遮挡| 99热免费精品| 权明星商标查询| 国产720刺激在线视频|