RPA (Web情報回収006_取得したデータの操作2)

■取得したソースを加工する(その2)
前回の続き。
javascriptのdocumentオブジェクトを使用するとエラーが出たので、その解消法を検討中。
これまで「JavaScript: 開く」「Javascriptを実行」のアクションでjavascriptを動かそうとしてきたけど、ブラウザの項目にも「ブラウザ: Run Javascript」としてjavascriptを動かすアクションがあった。
これなら動くかと思って同じコードを実行させてみたけどダメだった。

いろいろと試してみたところ、どうやら次のdocumentの式もあまり良くなかったよう。
var z = document.getElementById('contents').innerHTML;

Google Chromeの設定から「その他のツール」→「デベロッパーツール」で開けるConsole(下の画面)で実行できた次のコマンドはRPAでも使用できた。
window.document.getElementsByClassName("xxx").[0].textContent

Consoleでは、ピリオドなどの後に続けられる式を自動的に補完してくれるので分かりやすい。

「ブラウザ: Run Javascript」で実行する際にはソースコードを取得したのと同じように、変数にwebsiteのURLを入れた状態で、javascriptの式を直接書き込んだ(下の図)。実行結果がさらに一つ下のもの。
スペースやタブが入っているので、空の部分が多いけど、htmlのタグを省いたデータだけ取り出すことができた。

当初はGet Source Codeでwebsiteのソースコードを取得し、そのコードから必要なデータを取り出す流れで検討してみたけど、websiteから直接必要なデータを持ってこれた。そのため、Get Source Codeは省略する方向で進めていく。
ここで得られたデータを処理してファイルに保存するとかメールで送信するとかしたい。
おそらく上のメッセージボックスに出ているものは、文字列で保存されているだろうから、この文字列の処理について検討してみる。