RPA (Web情報回収004_websiteからのデータ取得Get Source code)

■データを取得する。
前回で、目的のデータのページまでアクセスできたので、データの取得について考えてみる。
Websiteからデータ取得する場合、html形式で記載されている情報をもってくるのだから、まずhtmlのソースを取得する必要があると思う。
ブラウザのアクションの中に「Get Source code」というそれらしいものがあるので、これでソースが取得できないか試してみた。すると次のエラーがでた。

予期しないエラーnullとなっているので、おそらくSource Codeの取得先のリンクなどが空(null)になっている。設定がうまくいっていないよう。

Get Source codeの設定画面が下のもの。
Browser tabは対象とするページ、Time out~はタイムアウトとする時間、Save the outcome~は結果の出力先だろう。設定はこれだけなので、変数$window-2$の部分くらいしか原因が思いつかない。

Browser tabには、Browserと変数の2つの設定がある。今まで変数を使っていたけど、順番からしてBrowserの方が標準的なものかと思う。Browserにして何か入力しても画面上のテキストボックスに登録できず、いまいち使い方がよく分からなかった。
右にある「ウインドウを更新」のボタンを押してみると、現在表示しているページのタイトルが画面上に出現し選択できるようになるよう(下の図)。使い方の説明が一言あれば・・・。
これで先ほどのページを選択して実行してみたら、ソースコードを取得できた。下の図では、取得したソースをメッセージボックスに出力している。

ソースコードが取得できたので、後はhtmlの操作の問題。
次回はこの辺りを考えてみる。

おおまかに形にはなってきたけど、最終的な形として、新商品が更新される週1(火曜)に自動的にBotを起動、データを取得・整理、それをメール送信とかまでできたらいいかなー。