【python】複数の文字列置換 取得したHTMLをきれいにする
「re.sub」を使って、一発複数置換する。
下記のコードは、Selenium+Firefoxを使用して、
獲得してきたソースの半角スペース、ダブルクォーテーション、改行を削除する内容。
# ライブラリの読み込み
import re
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
# Selenium起動オプション
options = Options()
#options.add_argument('-headless')
# firefoxドライバーの起動
DRIVER_PATH = "./geckodriver.exe"
driver = webdriver.Firefox(executable_path=DRIVER_PATH,firefox_options=options)
def main():
# アクセス
url = 'https://www.yahoo.co.jp/'
driver.get(url)
driver.implicitly_wait(5)
#ページソースを取得
p_source= driver.page_source
#re.subを使って、ソース置換
re_source = re.sub(r"\"|\s|\n", "", p_source)
print(re_source)
if __name__ == '__main__':
main()