雷區勿觸!製造業數據專案成功五大要訣! (上)

想要換個髮型,卻因為對自己頭型和整理習慣的不了解,導致結果和期望有很大的落差,花了錢卻得到反效果。如果在踏進理髮店前先做好準備功課,再與理髮師溝通期望的髮型;又或是跟三五好友約在酒吧,點酒之前事先確認自己的口味和酒量,再請調酒師調配,兩項事前作業都能讓過程進行更順暢,最後結果也更容易使雙方都滿意。數據專案中最耗時也非常重要的就是它的事前作業「數據清洗」,專案的成功與否,常常也都跟數據的「乾淨度」有很大的關係。

Image for post
Image for post

舉例來說,就曾經看過某製造業公司提供的資料集,其中時間相關的欄位資訊形式包羅萬象,甚至還有缺漏的欄位,如果未「清洗」就直接丟到AI分析平台,無論提供多麼精確且大量的製程參數及表現結果,也無法對稼動率(稼動時間/負荷時間)進行分析。

Image for post
Image for post

從數據科學家(data scientist)的角度去看,當然可以利用科學的方式,在龐大資料中,濃縮出有價值的資訊,然而,當資料來源本身含有大量錯誤或訊息不完整,則可能得出有違事實的推論。因此,進行數據專案之前,客戶宜先了解自己的資料庫,再與數據科學家進行溝通,這樣不僅能夠大幅減少雙方溝通成本,最重要的是,專案的成效也會因此有飛躍性的提升。

接下來針對數據專案常遇到資料面的瓶頸深入探討,分別為資料不足、資料紀錄錯誤或不精準、資料理解錯誤或不足、資料蒐集包含人工輸入、資料遺失或缺值進行說明。

資料不足
資料不足是指沒有足夠的資料可以進行數據分析,而其中又可細分為以下兩點:

欄位不足
欄位不足指的是所提供的資料並沒有可以解決該問題的必要資訊,製造業大量蒐集參數,做數位轉型,希望更高效率的預測需求,但是間接和直接影響預測結果的幾個參數,包含歷史銷售紀錄、客戶名稱、物料的各維度數據等等,如果沒有完整的紀錄,即使資料收集的「筆數」足夠,也很難進行資料加值,產出有價值的推論。

在這樣的狀況下,解決之道為與數據工程師或是擁有該領域專業知識的人討論,改變現有蒐集資料的方式、增加獲取資訊的管道,以涵蓋到足夠資訊來滿足使用者的需求。

資料筆數不足
資料筆數不足表示現有資料不具有代表整體資料的能力,舉例來說, 只使用幾個台灣首富的收入就推測全台灣人的平均收入是有問題的。

而筆數不足有兩種情境,第一個情境為針對正在計畫導入數據或者剛開始導入大數據的公司,已經建立好物聯網或各種偵測設備,卻還沒有時間收集到足夠的資料就開始進行數據專案;第二個情境為即使數據蒐集已經相當成熟的公司,但有產品少量多樣的現象時,雖然資料量很多,但每個產品所蒐集的數據量大不相同,因此會有多種產品的數據量仍不足以產出好的結果。

筆數不足的兩種情境有各自解決方法,第一種情境解法相對單純,只需要等待足夠的時間,自然會累積到足夠的資料。第二種情境則考驗數據科學家的功力,需研發出具有「高平展性」且不會大幅犧牲「準度」的模型。

資料記錄錯誤和不精準

另一個常見的資料面問題為,流程設計不良導致資料紀錄有問題,此處各舉一個常見的例子來說明:

錯誤:時間欄位

Image for post
Image for post

之前為手機組裝工廠做預測性維護分析,由於產線龐大又複雜,需透過多個系統紀錄生產的情況,有紀錄生產良率的系統及紀錄機台故障的機故系統,但在兩個系統沒有串接在一起的情況下,就時常會發生物料進出站時間的紀錄與機台故障時間不一致的情形,在不一致的情況下,就會使得某一邊的資料必須被捨棄不能參考,白白浪費了紀錄的成本與時間。

因此在進行新系統導入時,需儘可能的將各系統的一致性考慮進去,使各系統的運作在同一個時空內,否則進行數據專案的成效必然會大打折扣。

不精準:良率根因分析
舉例來說,某電子組裝工廠收集溫度、濕度以及物料等等的數據,希望能夠透過分析找到提升良率的方法,然而,生產線出現混料的情況,以至於後續計算良品時無法得知實際上某種物料與製程參數的組合所對應的良率狀況。

如果製程方面無法改善進而追蹤每筆物料的生產狀況,還是能夠嘗試進行資料處理後,利用模型進行預測訓練,但這種情況下,資料紀錄不準確的情形就必然會影響後續模型的表現,很難貼合實際的生產狀況。

除了資料不足、資料記錄錯誤或不精準之外,數據處理會遇到的瓶頸還有資料理解錯誤或不足、資料蒐集包含人工輸入、資料遺失或缺值。這篇先做個入門,讓大家認識數據清理對於數據專案的重要性,以及解決方式相對容易的兩種情景,另外的三種狀況就留待下次囉!

Peter Wu
國立清華大學統計學系碩士,現任Synergies資料科學家,曾任友達光電數據分析師,專長製造業數位轉型領域,對資料清理、數據分析、機器學習及專案規劃皆有豐富經驗。

Mia Chen
國立臺北大學統計學系碩士,現任Synergies資料科學家。專長資料前處理與資料分析流程,對相關研究有多年觀察。結合統計背景,提供資料分析方面之解決方案。

Written by

創立於美國波士頓,核心AI技術源于麻省理工學院。全球首創JarviX自然語言智慧企業決策平台,透過AI增強分析技術,降低大數據分析門檻,讓任何人都能使用數據分析做決策依據,大幅提升企業決策品質和速度,加速數位轉型。2019年受到Gartner評選為亞洲四大最酷AI供應商之一,並多次獲得國際認證。

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store