ここでは、Pythonにおける「XML」データの基本的な操作方法について解説しています。
「XML」とは
「XML(Extensible Markup Language)」とは、テキストデータを元にした形式であり、汎用的なフォーマットとして広く普及しています。Web APIで使用されている場合が多いのが特徴です。
スクレイピングした情報を解析する場合には「BeautifulSoup」を用いることが可能です。
「XML」を用いた使用例
以下のプログラムは予め保存した「XML」データを用意して、そのデータを解析して出力する内容となっています。
「soccer.xml」というデータをローカルに保存して、以下のようにプログラムを書きます。
#「XML」を用いた使用例
from bs4 import BeautifulSoup
import urllib.request as requ
import os.path
#1---xmlファイルの指定
xml_name = "soccer.xml"
xml = open(xml_name,"r",encoding="utf-8").read()
#2---解析
soup = BeautifulSoup(xml,'html.parser')
data = {}
for i in soup.find_all("team"):
name = i.find('name').string
manager = i.find('manager').string
notes = i.find('notes').string
if not (manager in data):
data[manager] = []
#3---出力
for manager in data.keys():
print("*",manager)
1の部分でファイルの指定をしています。2の部分ではBeautifulSoupを用いて解析しています。3の部分で任意の結果を出力しています。