ここでは、Pythonにおける「Pandas」を用いたExcelファイルの読み込み操作について解説しています。
Pandasを用いる前準備
「Pandas」を用いる前準備として「pandas」と「xlrd」をインストール必要があります。ちなみに「xlrd」はread_excelという中で使用します。
$ pip install pandas
$ pip install xlrd
準備としては以上です。
Excelファイルの読み込み
ここでは任意のExcelファイルを読み込んで出力する内容をとなっています。ファイルの内容としてはAmazonアソシエイトで売り上げたレポートです。ファイル名は「sum_data.xlsx」とします。
全てのシートを読み込み
ファイル内の全てのシートを読む込みます。「sum_data.xlsx」内には4つのシートがあるのでこれらを読み込みます。
#全てのシートを読み込み
import pandas as pd
#1---ファイルの指定&読み込み
file_excel = "sum_data.xlsx"
book = pd.read_excel(file_excel,sheetname=None)
print(book)
全てのシートを読み込む場合は「read_excel」内のsheetnameをNoneと指定するだけです。逆に指定したい場合は「sheetname=”sheet名”」とするだけです。プログラムの内容としては、全てのシートを読み込み、取得したデータを出力しています。
任意の列を指定しての読み込み
データを読み込むとき、とあるデータだけ抽出したい場合があると思います。任意の列を指定して読み込む場合は「read_excel」内に「usecols=[値の指定]」を記述することで指定できます。
#任意の列を指定しての読み込み
import pandas as pd
#1---ファイルの指定&読み込み
file_excel = "sum_data.xlsx"
sheet_name = "Fee-Earnings"
book = pd.read_excel(file_excel,sheetname=sheet_name,usecols=[11])
print(book)
上記のプログラムでは「Fee-Earnings」というシートの11列目だけを抽出する内容となっています。
任意の行を指定しての読み込み
ファイルのデータには開始行が1行目からではない場合があります。そんなときに「header」を用いることで任意の行から読み込むことが可能です。
#任意の行を指定しての読み込み
import pandas as pd
#1---ファイルの指定&読み込み
file_excel = "sum_data.xlsx"
sheet_name = "Fee-Earnings"
book = pd.read_excel(file_excel,sheetname=sheet_name,usecols=[11],header=2)
print(book)
上記のプログラムでは「Fee-Earnings」というシートの0から数えて11列目の3行目から抽出する内容となっています。行データの数値を指定する場合も0始まりなので3行目を示すには「header=2」となります。
「pandas」のドキュメントには上記で説明したものよりも詳しく使用方法が記載されています。覗いてみて下さい。
その他、Pandasを用いた使用例
項目 | 内容 |
Pandasを用いた複数の「xlsx」ファイルの結合方法 | ここでは、Pandasを用いた複数の「xlsx」ファイルの結合方法について「Amazonアソシエイトレポート」を用いて解説しています。 |