pandas Dataframe常用的資料處理方法-上(合併資料、選擇欄位、刪除欄位、刪除列)
在使用pandas進行資料分析時,常常會遇到很多資料需要重新整理,包括篩選欄位、合併資料、刪除不要的欄位或刪除資料...等等,都是經常遇到的經典狀況,下面逐一分享如何處理
首先import pandas這個套件
import pandas as pd
把要處理的CSV檔倒進來
first_df = pd.read_csv('data_list.csv')
second_df = pd.read_csv('data_list.csv')
P.S. 倒進來之後的資料型態是dataframe,之後在資料處理上,不能把它當一般的list或dict來處理
合併兩個dataframe
result_dataframe = pd.concat([first_df,second_df])
使用兩個dataframe都擁有的共同資料來檢查是否都進到同一個dataframe
result_dataframe.loc[result_dataframe['time']=='2019-01-01 00:00:00.000']
查看dataframe欄位名稱
result_dataframe.columns.values
修改dataframe欄位名稱(指定欄位-需填入指定的欄位及修改後的欄位名稱)
result_dataframe = result_dataframe.rename(columns={'time': 'rename_time'})
修改dataframe欄位名稱(依序修改所有欄位名稱-直接在引號內填入修改後的名稱即可)
result_dataframe.columns = ['rename_time', 'value']
選擇特定欄位(範例為rename_time這個欄位)
result_dataframe['rename_time']
刪除特定欄位(範例為刪除rename_time這個欄位,需指定axis=1)
result_data = result_dataframe.drop("rename_time", axis = 1)
刪除特定欄位(範例為刪除rename_time這個欄位)
result_dataframe.drop(columns=['rename_time'])
刪除列(範例為刪除第0列資料)
result_dataframe.drop(0,axis=0,inplace=True)
inplace 可設True或是False(不指定的情況下預設是False),差異在於True會把指定的dataframe的內容永久刪除;False則僅將資料暫時刪除,但原本的dataframe內還保留著內容。實務上的使用通常會寫成這樣
delete_some_data_frame = result_dataframe.drop(0,axis=0)再操作新的dataframe,如還不懂可用result_dataframe.head()驗證就比較清楚了