雷區勿觸!製造業數據專案成功五大要訣! (下)

美商訊能集思智能科技
5 min readJul 1, 2020

在上一篇我們大致提到了數據處理對於數據專案的重要性,以及面對資料不足、資料記錄錯誤或不精準兩種情況可行的解決方式,本篇將接續這個主題,繼續說明資料理解錯誤或不足、資料蒐集包含人工輸入、資料遺失或缺值的情境與解法:

資料理解錯誤或不足

進行數據專案時,時常會遇到使用者並不了解資料集內容,希望數據科學家根據資料集的內容就能臆測出如何使用該數據,甚至會發生使用者所述與實際資料無法吻合,導致浪費時間對無用欄位進行數據前處理的狀況。

舉例來說,之前跟IC封裝公司對接,資料上某欄位僅寫一個 Type,實在無法得知該欄位是某某狀態或是某某類別,如果是類別的話,是產品類別、物料類別、產線類別、還是機台類別。

因此解決方案則為,在提供資料集時,即附上簡短的欄位與數值說明、資料的背景與其他欄位間的關係等等,可以大幅度加快數據科學家了解資料,並同步釐清雙方認知上的差異,收斂大家的構想,有效減少數據理解錯誤而產生的種種問題。

資料蒐集包含人工輸入

許多專案在蒐集數據的過程中,因為受制於生產流程和儀器串接,因此無法達到完全數據自動化,造成部分資料須藉由人工輸入,而人工輸入就有機率產生輸入錯誤,因此數據自動化的程度越低,數據專案就越難進行。以下舉兩個例子說明:

紀錄方式不一致

以日期來說,同樣是 2020 年 1 月 1 日,就會遇到作業員 A 都習慣紀錄為 2020/01/01,而作業員 B 則習慣紀錄為2020–1–1,而來自歐洲的主管則紀錄為 01.01.20,而這些日期都被儲存在同一個欄位中,導致無法電腦無法解析而浪費。

寫錯數值

過去合作的半導體代工廠,紀錄晶片中晶元電壓的最大、平均、最小值,正常值是 1.5, 1.3, 1.0,但技術員誤填成 1.5, 1.3, 10,在解讀資料時,可以藉由第 3 個欄位是最小值,而且正常值應介於1附近,所以能夠判讀 10 應該為 1.0。但對電腦來說 10 就是 10,絕對不會被判讀成 1.0,當資料量大的時候,無法藉由人力來一一釐清可能誤填的方式為何,若有錯誤的資料被放進訓練資料中,導致模型往錯誤的方向學習,導致給出錯誤的推論。

針對人工輸入資料收集的問題,最佳的解決方法就是盡可能自動化收集數據的流程,或者是制定完整的制度並嚴格執行。

資料遺失、缺值

資料遺失或缺值在數據處理流程是必要的一環,大多數的資料都一定會有缺值的情況發生,在某些情況下,數據科學家可以利用對於資料本身的理解,進行資料補值,減少遺失值造成的問題,而其他情況下則需要把該比資料濾除。能否進行補值除了取決於後續模型的選擇,使用者對於資料的介紹其實更為重要,使用者若能精準的說出造成缺值可能的原因及當下的狀況,對於後續遺失值的處理會非常有幫助。

以電子業的資料來說,要完成一個電路板都會經過好幾道製程站點,經過製程站點時需要設定站點參數,然而每一種產品經過的製程站點不盡相同,導致資料有空值。假設產品 A 的生產資料出現空值,有兩種常見的處理方式:

捨棄

當空值占比太高,就可能考慮捨棄這筆資料,避免模型有過度的解讀。

補值

當空值占比較低時,就可以結合業務邏輯來選擇補值的方式。舉例來說,產品 A 只有在 X 站點出現空值,由於其空值來自員工漏填,則可以透過相同產品的站點參數平均值來代表產品 A 的站點參數,或是找出與產品 A 經過相似製程站點的其他產品,來推估出該站點參數;若該空值屬於正常狀況,本來產品 A 就沒有經過 X 站點,則可以保留空值,並且將空值視為特殊類別來處理。

由上述案例可以知道,使用者提供的資訊多寡會大大影響數據科學家處理缺值的方法,因此在交接資料時儘可能提供更多資訊給數據科學家,可以增加數據使用的效益。

適當的數據處理可以讓專案執行事半功倍

數據專案如同蓋建高樓,規劃和收集資料如同決定建材,若未選擇適當的資料清理手法,數據專案的高樓則難以穩固,反之,若能藉數據處理來提升資料品質,則能為數據專案打下良好地基,使得後續運用事半功倍,並透過 AI 模型,得到優質的數據結果。

作者介紹:

Peter Wu
國立清華大學統計學系碩士,現任Synergies資料科學家,曾任友達光電數據分析師,專長製造業數位轉型領域,對資料清理、數據分析、機器學習及專案規劃皆有豐富經驗。

Mia Chen
國立臺北大學統計學系碩士,現任Synergies資料科學家。專長資料前處理與資料分析流程,對相關研究有多年觀察。結合統計背景,提供資料分析方面之解決方案。

--

--

美商訊能集思智能科技

創立於美國波士頓,核心AI技術源于麻省理工學院。全球首創JarviX自然語言智慧企業決策平台,透過AI增強分析技術,降低大數據分析門檻,讓任何人都能使用數據分析做決策依據,大幅提升企業決策品質和速度,加速數位轉型。2019年受到Gartner評選為亞洲四大最酷AI供應商之一,並多次獲得國際認證。