【ペーパーレス化⑤】RPA?Python?スクレイピングでWeb情報の収集を自動化!

RPAを使ってWebスクレイピング

かじむー

それではPowerAutomateDesktopというRPAを使った場合の自動化を考えてみましょう!

RPAの動きを実際に見てみよう!

いきなりですが!
PowerAutomateDesktopで作ったロボットが
どんな風にスクレイピングするか動きを見てみましょう!

RPAを動かす箇所から再生されます

PowerAutomateDesktopで作った中身を解説

中身はPythonで作ったものを
そのままPowerAtuomateDesktopの機能で置き換えただけですね!

ポイントを絞って簡単に解説します!

収集データを格納する箱を用意

変数の設定」から
商品名・価格・特性・会社名 を
格納するテーブルを作ります!

変数の設定
%{ ^['商品名', '価格', '特性', '会社名'] }%

と書いてあげると
列だけ先に出来上がります!

上記の記事を参考にさせて頂いてます!感謝です_(._.)_

そしてこのテーブル
スクレイピングした情報を追加していきましよう!

Webページに遷移する

まずはChromeを立ち上げる!

ブラウザ自動化」→「新しいChromeを起動する

この初期URL
遷移先のURLを直接入力してもいいし

Chrome起動後の処理に

ブラウザ自動化」→「Webページに移動します」を追加し

ここでURL
遷移先URLを入力してもいいですね!

Web上の情報を取得

次にWebページ上の
品名や価格などをスクレピングします!

ブラウザー自動化」→「Webデータ抽出」→「Webページからデータを抽出する

次にスクレイピングしたいWebページを開きます!

画面上をマウスで触れると
自動的に要素単位で赤枠が出てきます!

スクレイピングしたい部分で
右クリックして「要素の値を抽出」→「テキスト
とするとテキスト値を取得できます!

実際の様子が見たい人は
動画をご覧ください!

スクレイピング設定箇所から再生されます

もっと詳しい解説が欲しい方は
下記記事もご覧ください!

スクレイピングデータを箱に追加

初めに作っておいた箱に
スクレイピングデータを追加します!

テーブル追加
%DataTable + [Product, Amount, Labels, Company]%

繰り返し処理の中で
情報を1つずつテーブルに追加する場合とかに使えますね!

[ 情報①, 情報②, 情報③, 情報④ ]と書くことで
1行分のデータとしてテーブルに追加できます!

全ての情報をテーブルに追加したら
Excelに出力したりして見える形で出してあげましょう!

次のページのリンクを取得

1ページだけでなく
次のページ」が存在する場合もありますよね!

その場合は
「次のページ」の要素を取得して判断しましょう!

ブラウザー自動化」→「Webデータ抽出」→「Webページ上の要素の詳細を取得します

」から「UI要素の追加」をした後
ページ上の「次へ」の要素を選択すると
その要素の詳細を取得できます!

あとは詳細からHrefを選択すれば
次のページのURLを取得できますね!

こうする事でページ数が多くても
次のページに遷移して同じ処理を行えますね!

かじむー

RPAを使ってペーパーレス化にチャレンジしてみましょう!


1 2 3 4