pandas Dataframe常用的資料處理方法-(合併資料、選擇欄位、刪除欄位、刪除列)

在使用pandas進行資料分析時,常常會遇到很多資料需要重新整理,包括篩選欄位、合併資料、刪除不要的欄位或刪除資料...等等,都是經常遇到的經典狀況,下面逐一分享如何處理

 


首先import pandas這個套件
import pandas as pd

把要處理的CSV檔倒進來

first_df = pd.read_csv('data_list.csv') 
second_df = pd.read_csv('data_list.csv')

P.S. 倒進來之後的資料型態是dataframe,之後在資料處理上,不能把它當一般的listdict來處理

 

合併兩個dataframe
result_dataframe = pd.concat([first_df,second_df])

使用兩個dataframe都擁有的共同資料來檢查是否都進到同一個dataframe
result_dataframe.loc[result_dataframe['time']=='2019-01-01 00:00:00.000']

查看dataframe欄位名稱
result_dataframe.columns.values

修改dataframe欄位名稱(指定欄位-需填入指定的欄位及修改後的欄位名稱)
result_dataframe = result_dataframe.rename(columns={'time': 'rename_time'})

修改dataframe欄位名稱(依序修改所有欄位名稱-直接在引號內填入修改後的名稱即可)
result_dataframe.columns = ['rename_time', 'value']

選擇特定欄位(範例為rename_time這個欄位)
result_dataframe['rename_time']

刪除特定欄位(範例為刪除rename_time這個欄位,需指定axis=1)
result_data = result_dataframe.drop("rename_time", axis = 1)

刪除特定欄位(範例為刪除rename_time這個欄位)
result_dataframe.drop(columns=['rename_time'])

刪除列(範例為刪除第0列資料)
result_dataframe.drop(0,axis=0,inplace=True)


inplace 可設True或是False(不指定的情況下預設是False),差異在於True會把指定的dataframe的內容永久刪除;False則僅將資料暫時刪除,但原本的dataframe內還保留著內容。實務上的使用通常會寫成這樣
delete_some_data_frame = result_dataframe.drop(0,axis=0)再操作新的dataframe,如還不懂可用result_dataframe.head()驗證就比較清楚了

 

arrow
arrow
    全站熱搜

    newaurora 發表在 痞客邦 留言(0) 人氣()