So-net無料ブログ作成
プログラミング ブログトップ

グーグル翻訳をPythonでスクレイピング [プログラミング]

英語の勉強にジブリ映画の北米版を観たり聞いたりしてる。
字幕を追いかけるのが面倒なのでネットからスクリプトをゲット。
ただ、ちょっと意訳っぽい感じで日本語版と微妙に異なってる。
英語スクリプトの対訳が欲しい。
で、グーグル翻訳に思い至った。

ネットで調べるといろいろと出てくる。さっそくPythonで動作確認。が、どれもまともに動作しない。
どうやらPythonスクレイピング対策でいろいろとタグが変わってるみたい。まぁ、当然だな。
でも、そうなると出来る方法を模索してしまう。

結果、selenium、chromedriver、BeautifulSoupなどを使って動くようになったのでネットに恩返し。
とりあえずエッセンスコードだけ置いておきますね。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import urllib.parse

options = Options()
options.add_argument('--headless')

browser = webdriver.Chrome(chrome_options=options)
browser.implicitly_wait(3)

english = 'This is a pen.'
url_text = "https://translate.google.co.jp/#en/ja/{0}".format(english)
url = urllib.parse.quote_plus(url_text, "/:?=&#")

browser.get(url)
result = BeautifulSoup(browser.page_source, "html.parser").find(class_ = "tlid-translation translation").text
print(result)

browser.quit()
nice!(0)  コメント(0) 
共通テーマ:パソコン・インターネット
プログラミング ブログトップ