ログインすると広告表示が消えます

業務を行う中で、システムからCSVやPDFをダウンロードする、という業務は非常に多いと思います。
ですが、こういった機能がシステムにない場合は、どうでしょうか。
画面の内容をコピーして貼り付けるということを行っている、という方が多いと思います。

ここで重要になってくるのが「スクレイピング」という言葉です。
スクレイピングとは、非常に簡単に言うと「情報の抽出」です。
次の動画は、建設業で自治体の入札情報(道路工事など)しているものです。(宜しければチャンネル登録もお願いします!)

注意点

サービスの中には、ロボットによる自動収集を禁止しているものがあります。
代表的な一つがAmazonです。

Amazon.co.jp ヘルプ: Amazon.co.jp 利用規約より抜粋
利用許可およびサイトへのアクセス
この利用許可には、アマゾンサービスまたはそのコンテンツの転売および商業目的での利用、製品リスト、解説、価格などの収集と利用、アマゾンサービスまたはそのコンテンツの二次的利用、第三者のために行うアカウント情報のダウンロードとコピーやその他の利用、データマイニング、ロボットなどのデータ収集・抽出ツールの使用は、一切含まれません。

このように明確に禁止されているサイトもあるため、自動化する場合には必ず利用規約を参照し、注意しましょう。
また、ロボットの利用は禁止されていても、代わりに「API」を公開しているサービスも非常に多くあります。

抽出手順

レコーダーからデータの抽出を行う場合

PADはレコーダーを駆使するケースが多い為、レコーダーを使ったデータ取得がもっとも多用されると思います。
レコーダーでデータの抽出を行う方法は、抽出したい項目の上で「右クリック>要素の値を抽出>テキスト」を選択することで、指定した項目の抽出を行うことが可能です。
Webレコーダー、デスクトップレコーダーどちらも同様の処理が可能です。
ただし、デスクトップレコーダーの場合は、右クリック自体がアクションとして記録されてしまうため、注意が必要です。
値の他にも、リンク先のURL(HRef)や有効状態なども取得することが可能です。

Webレコーダーの場合は、複数列行を取得したい場合は、順番に取得することで、DataTableとして取得することが可能です。
行に関しては、1行目と2行目を取得するだけで、まとめて全ての行を取得することが可能です。
ただし、デスクトップレコーダーの場合は、「List」や「DataGrid」をまとめて取得すると、余計な列が入ってしまったり、正しく取得できない場合もあるため、ご注意ください。

それでは実際にやってみましょう。

1.初めに下記URLにアクセスしてください。(ブラウザはお好きなもので!チュートリアル内ではEdgeを使用しています)
得意先一覧 · Power Automate Desktop練習用サイト (asahi-robo.jp)

2.次にWebレコーダーを起動し、詳細内にある先ほど起動したタブを選択します。

3.記録の開始を行います。

4.コードの1行目[0001]にフォーカスを当て右クリック、要素の値を抽出、テキスト:(‘0001’)を選択します。

5.2行目の[0002]を同様の手順で選択します。

6.次に名称の1行目[株式会社あさひ建設]を選択します。

7.担当者も同様の手順で操作します。

8.レコーダーを終了します。

9.これでデータの抽出が完了です。
動作を確認してみましょう。

アクションからデータの抽出を行う場合

データの抽出はアクションから行うことも可能です。
データの抽出行うことが出来るアクションはWeb用、アプリケーション用でそれぞれ3つあります。

  • Web ページからデータを抽出する
    • Webブラウザを操作し、データの抽出を行います。(手順はレコーダーと同じです)
    • 複数の値を持つデータを取得した場合、DataTable型で取得できます。
  • Web ページ上の詳細を取得します
    • 表示しているWebページのURLやタイトルなど、表示しているページ自体の要素を抽出することが出来ます
  • Web ページ上の要素の詳細を取得します
    • UI要素を指定し対象のデータを抽出します。
    • 複数の値を持つデータを取得した場合、DataTable型では取得できず、テキストとなります。

それでは最も利用する、「Web ページからデータを抽出する」を使用してみましょう。

1.ブラウザで下記URLにアクセスしてください。
得意先一覧 · Power Automate Desktop練習用サイト (asahi-robo.jp)

2.「Web ページからデータを抽出する」アクションを追加します。

3.アクション画面が表示されたら、ブラウザを操作すると「ライブWebヘルパー」が起動します。

4.Webレコーダーの際と同様に、コードの1行目[0001]にフォーカスを当て右クリック、要素の値を抽出、テキスト:(‘0001’)を選択します。
ライブWebヘルパーでは、どのような値が抽出されたのかを確認することが可能です。

5.2行目も同様に処理します。

6.名称列も同様に処理します。

7.ライブWebヘルパーでは、タイトル列に名前を付けることも可能です。
名前を設定したら、終了を押しましょう。

8.データ保存モードを変更することで、直接Excelに出力することも出来ます。

9.設定が完了したら、動作を確認してみましょう。

演習

下記売上一覧ページから「得意先」と「金額」の2つの情報を抽出してください。
Webレコーダー、アクションどちらでも作ってみてください。

売上一覧 · Power Automate Desktop練習用サイト (asahi-robo.jp)

ログインすると広告表示が消えます