2020年3月3日 10:25
作者:殷建剛
近日收到業(yè)務往來公司發(fā)來的數據文件,頓覺頭大,文件為CSV格式,有近600行的數據,內容是電話號碼的費用清單。話費的收費有多種目錄,并且一個號碼有多行,每個號碼行數不一致,用電子表格的VLOOKUP函數取數很難實現數據的對應,如果手工整理成統(tǒng)一的格式需半天多時間,且數據量大,手工方式極易出錯。
這種數據每月都要處理,重復的事情要想辦法完成,提高工作效率。思恃半天,何不用python小程序來處理這些數據,思路是先把每個號碼的數據合并成一行,再對齊相同內容的列,輸出到電子表格中處理。經過不斷摸索,編制出如下方法:
用python程序的pandas庫來進行數據處理,先用讀取函數取源文件,生成一個二維數據表后,用條件函數判斷,從數據表中取出每個號碼對應的多行數據合并成一行數據,經過處理,刪除多余數據,插入數據以使每個號碼最終生成的格式一致,把每個號碼生成的列表合并在一個列表中,轉換成新的二維表,輸出后導入excel文件,用VLOOKUP函數自動取數,5分鐘內即可處理完畢,程序雖小,也就是了了二十行代碼,很簡單,但是應用于工作中,可減少重復性的操作,工作效率大為提高。
這個方法只是拋磚引玉,在當今信息化與工業(yè)化日益融合的時期,我們只有不斷學習,引入新的技術應用于工作、生產中,才能更好地適應這個嶄新的時代。
版權?2020濟寧中銀電化有限公司 |魯ICP備2020037088號