【python】複数の文字列置換 取得したHTMLをきれいにする

「re.sub」を使って、一発複数置換する。

下記のコードは、Selenium+Firefoxを使用して、
獲得してきたソースの半角スペース、ダブルクォーテーション、改行を削除する内容。

# ライブラリの読み込み
import re
from selenium import webdriver
from selenium.webdriver.firefox.options import Options

# Selenium起動オプション
options = Options()
#options.add_argument('-headless')

# firefoxドライバーの起動
DRIVER_PATH = "./geckodriver.exe"
driver = webdriver.Firefox(executable_path=DRIVER_PATH,firefox_options=options)

def main():
    # アクセス
    url = 'https://www.yahoo.co.jp/'
    driver.get(url)
    driver.implicitly_wait(5)
          
    #ページソースを取得
    p_source= driver.page_source
    
    #re.subを使って、ソース置換
    re_source = re.sub(r"\"|\s|\n", "", p_source)
    print(re_source)
            
if __name__ == '__main__':
    main()

おすすめ

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください