ChatGPT pluginでスクレイピングを試してみた

 

はじめに

  1. 無料で使えるChatGPT pluginでウェブからの情報抽出(スクレイピング)を試してみました。
  1. 「日本語で手軽にスクレイピングできるか」を確認しております。
  1. 最後に、pluginが適している利用シーンについて考察しております。

おことわり

調査は2023年10月中旬に行いました。
それ以降のChatGPTの機能拡張などで調査時とは異なる結果となる可能性がある点をご承知おきください。

「日本語で手軽にスクレイピングできるか」という観点で調査を行っており、指示文の調整などは行っておりません。pluginに合わせて指示文を調整することで実現できる機能も多々あると思われます。

目次

  • 概要
  • 結果
  • 調査内容
  • 詳細比較
  • まとめ

 

1. 概要

無料で使えるChatGPTのplugin(※1)でスクレイピングを試してみました。

ただし、pluginの性能はプロンプトによって変わる可能性が高いこともあり、ChatGPT pluginの全体的な傾向をつかんでいただければと考えております。

 

※1 ChtGPT plugin(リンク

ChatGPT pluginを用いることで、本来ChatGPTが持たないブラウジングなどの機能を追加することが可能になります。

 

2. 結果

機能比較

情報取得 処理時間 [sec] File DL CSV copy ページ送り リンクを辿る データ整形 meta情報 画像URL table PDF内テキスト PDF内画像
plugin 1 × 10~ × × × × × × × ×
plugin 2 20~ × × × ×
plugin 3 10~ × × × × ×
plugin 4 × 10~ × × × × ×
plugin 5 × 20~ × × × × × × × ×
plugin 6 10~ × × × ×
ShtockData 1~

pluginではございませんが、参考として弊社ShtockDataを比較対象として記載しております。

ShtockData(リンク

Webサイトを周期的にクローリング(巡回)し、Webページ上のデータを抽出・収集する弊社のサービスです。

 

3. 調査内容

3-1. 取得元データ

以下のサイトを対象に、スクレイピングによる情報抽出に関して主な調査を行いました。

https://www.keywalker.co.jp/company/outline.html

また、PDFに関しては以下のサイトを対象としました。

https://www.keywalker.co.jp/wp-content/uploads/2023/08/press_0822.pdf

3-2. 調査概要

調査項目 一覧

調査項目 内容
情報取得 対象ページから、会社名,電話番号,住所,代表者など企業情報を取得できるか
処理時間 [sec] ChatGPTへの問い合わせから応答が返るまでの時間
File DL 情報取得結果のファイルダウンロードできるか
CSV copy ブラウザ上でCSV形式でコピーできるか
ページ送り 1ページ目と分かるurlで2ページ目の情報を取得できるか
リンクを辿る 対象ページ内のリンクを指定して、リンク先の情報を取得できるか
データ整形 取得したデータの簡単な整形処理が行えるか
meta情報 metaタグの情報を取得できるか
画像URL 対象ページ内の画像urlを取得できるか
table 対象ページ内の表形式のデータを表として抽出できるか
PDF内 テキスト PDF内のテキスト情報を取得できるか
PDF 画像 PDF内の画像から情報を取得できるか

調査結果 一覧

評価 説明
実用上、問題なし
取得情報が足りないなど、一部問題あり
× 「取得できなかった」 もしくは 「問題あり」

3-3. 注意事項

  1. 今回、pluginに合わせた指示文の調整は行っておりません。そのため指示文が不適切だったために「×」評価となっている可能性はございます。
  2. ChatGPTでファイルのダウンロードは禁止されており、「File DL」機能も実現されていないと考えられます。

 

4. 詳細比較

正確性 取得時間 出力形式 metaタグ 後処理 PDF
plugin全般 ×
ShtockData

4-1. plugin全般とShtockDataとの機能面の比較

plugin全般

  1. (正確性)ChatGPT上のpluginは情報を正確性を保ちつつ確実に取得するのは難しいようです。この結果は「AI を用いた情報抽出システムの試作 #01 (リンク)」の調査結果とも整合しています。
  1. (取得時間)少数のページから情報を取得するにはpluginの取得時間は実用的な時間と思われます。一方で大規模データ収集を行うには適していない可能性があります。
  1. (出力形式)スクレイピング結果の取得方法に関しては、ChatGPTの制約もありファイルとして取得は難しいようです。ただしコピー&ペーストを許すのであれば、ChatGPTの応答として様々な形式で取得可能です。
  1. (metaタグ)おそらくテキストからの情報抽出を主眼としているため、metaタグの情報は捨てているのではないかと思われます。
  1. (後処理)データの後処理に関しては、GPTの機能を利用できるため、比較的容易に様々な後処理が可能と思われます。
  1. (PDF)テキスト情報については一部のpluginで対応されていました。一方、画像からの情報抽出には全てのpluginで未対応でした。

ShtockData

  1. (正確性)ShtockDataは、対象ページ内の情報を確実に取得できるよう開発を行うため、正確な情報を確実に取得できます。
  1. (取得時間)取得時間に関しては、オートスケーリング技術により大規模データ収集にも適しております。
  1. (出力形式)出力形式に関しては、お客様のご要望に合わせたフォーマット、ファイル形式で納品可能です。
  1. (metaタグ)ShtockDataは、対象ページのテキストデータからの情報抽出だけではなく、metaタグ、tableタグといったデータ種別に対しても収集可能です。
  1. (後処理)定型的なデータ処理であれば後処理工程で行うことが可能ですが、取得したデータに応じた柔軟な処理などは開発が難しいため、ChatGPTのデータ処理に劣る面があるかも知れません。
  1. (PDF)ウェブとはデータ保持方法が異なるため、データ抽出の精度はPDF依存となります。

4-2. 機能以外の比較

plugin全般とShtockDataの利用シーンを考えるために、機能面以外の比較も行います。

正確性(Q) コスト(C) 即応性(D) サポート体制
plugin全般 plugin依存
ShtockData
  1. (正確性)上記の機能面の比較をご参照ください。
  1. (導入コスト)無料のpluginでも比較的シンプルなサイトであれば問題なく情報取得が可能でした。一方でShtockDataは正確な情報を得るためにサイトやデータにあわせて開発を行っており、初期費用が必要になります。
  1. (運用時コスト)pluginは自動化する手段がないため、スクレイピング作業を毎回人が行う必要があります。一方でShtockDataは導入後は人手は不要となり、ランニングコストを低く抑えることができます。
  1. (即応性)pluginは簡単な指示で情報抽出が行えるため、データが必要となった場合に直ぐに対応することが可能です。一方でShtockDataはデータを収集し始めるまでに初期開発の期間が必要となります。
  1. (サポート体制)サポート体制については、plugin提供元に依存するため一概には言えませんが、海外の企業の場合には言語面での障害はあるかも知れません。一方でShtockDataは充実したサポート体制を確保しております。
  1. また、生成AIは発展が速いこともあり、pluginに新しい機能が拡充されていく可能性が高いです。しかし変化が激しいため陳腐化しやすい面もあると思われます。

4-3. 利用シーン

plugin

  1. 小規模なデータ収集
  2. データ収集時に処理が必要なケース
  3. 具体例:調査用などの小規模データ収集、その場でデータを収集したい場合、など

ShtockData

  1. 大規模なデータ収集
  2. 正確なデータ収集が要求されるケース
  3. データ種別(table, meta, …)に対して個別の対応が必要な場合
  4. データ処理要件に沿ったデータが必要な場合
    (お客様のご要望に応じて、整形・クレンジングなどを行い、ご提供いたします。)
  5. 具体例:ECサイト、カタログサイト、SEO分析、監視、など

 

5. まとめ

  • ChatGPT pluginは、準備もほぼいらず、「日本語で手軽にスクレイピングできる」便利な手段と思います。またデータ整形もChatGPTに依頼することができるため、データ取得後の柔軟な後処理が可能です。
  • しかし、正確なデータを大規模に収集する場合や長期にわたってデータを収集し続けるなどといった用途には、データの正確性・自動化・サポート体制といった点で、ChatGPT pluginでは不安があると感じました。
 

弊社のShtockData(リンク)は、Webサイトを周期的にクローリング(巡回)し、Webページ上のデータを抽出・収集するというサービスです。

「大量データ収集」や「正確な情報収集」が行えるだけでなく、お客様の活用しやすい形にデータを整形したうえでご提供が可能です。

ご興味がございましたら、こちら(ShtockDataリンク)のページ下部にあるお問い合わせフォームよりご連絡ください。

 

ShtockData

お問い合わせフォーム

お問い合わせ項目を選択してください