DAY08 資料前處理 | 新北建案查詢網
缺失值(MissingValue)指的是在蒐集數據的過程中發生人為或機器上的疏失,導致資料缺失的情況。根據缺失的特性,缺失值的種類可以分為以下幾種:https://ithelp.ithome.
前面我們介紹了如何使用探索性分析(EDA)來觀察資料的型態,也學會用圖表來找出這些資料的潛在訊息,今天我們就要開始對資料進行處理,不囉唆我們直接進正文。
一、缺失值(Missing Value)缺失值(Missing Value)指的是在蒐集數據的過程中發生人為或機器上的疏失,導致資料缺失的情況。
根據缺失的特性,缺失值的種類可以分為以下幾種: 在現實生活中,我們所獲得的資料發生缺失值的情況是相當正常的,那為什麼我們需要處理缺失資料呢?最直觀的答案就是我們不處理的話,演算法是無法正常運作的。
二、缺失值處理方法缺失值的處理方法為刪除與補值,需依照資料的特性選擇較合適的處理:
-刪除直接刪除有缺失值的資料樣本
▲優點: 做法簡單
▲缺點:
可能會遺失重要資訊
若刪除資料與其他變數有關,會影響整體資料
-補值▲以一個固定值去填補,例如全部補0
▲依照時間順序去補值(跟時間序列有關的資料)
▲依照現有資料的平均值、中位數、眾數...等去補值
▲透過機器學習的預測方法去補值
三、範例(鐵達尼號生存預測)下面我們將使用"Titanic生存預測"這個資料來做示範,讓大家也能一起動手嘗試。
這是個典型的資料集,幾乎每個初學者都會透過這個資料集進行第一個專案練習,此資料分析目的在於透過鐵達尼號船上一些船課的資料來預測乘客最後是否生還,對於初學者來說非常容易上手。
資料集下載[1]
下載完畢以後開啟Jupyter Notebook並將資料集上傳至環境缺失值 | 新北建案查詢網
DAY08 資料前處理 | 新北建案查詢網
如何處理缺失值(使用Python) | 新北建案查詢網
資料分析之遺漏值處理技術探討 | 新北建案查詢網
缺失資料在因素分析上的處理方法之研究 | 新北建案查詢網
機器學習第2篇:資料預處理(缺失值) | 新北建案查詢網
6種常見處理Missing Value的方法 | 新北建案查詢網
数据分析——缺失值处理详解(理论篇) | 新北建案查詢網
長期追蹤資料中缺失值(missing value)的處理 | 新北建案查詢網
【新北市五股區】閑晴釀社區(1081203先行補登,缺漏欄位,待公所將資料上傳營建署網站後補登) - 新北市五股區水碓九路76號
閑晴釀社區(1081203先行補登,缺漏欄位,待公所將資料上傳營建署網站後補登)評價好嗎?是哪個建商蓋的?地址在哪邊?這邊幫大...