Webスクレイピングツール7選!ノーコード・無料で高機能なおすすめを紹介

最新の更新日
May 6, 2022 3:42 AM
Target Keywords
スクレイピング ツール, ノーコード スクレイピング
vol.
900, 40

ノーコードでWebスクレイピングができる、「ビジュアルスクレイピングツール」について主として無料かつ高機能な7つのサービスをまとめました。基本的には無料で利用することができるサービスを主としてまとめています。

目次:

image

1: シンプルでかんたん、高速スクレイピングが可能な "Simplescraper"。API構築も可能なコスパの高いChrome拡張機能

Simple ScraperはかんたんにスクレイピングすることができるChrome拡張機能です。CSVやJSON形式でデータを取得することができます。

どのようにスクレイピングされるのかについてのイメージは動画から。

使い方については下記が詳しいです。

公式ドキュメントはこちら。

直感的・スピーディーに利用できることと、APIが構築できることが特徴

私も使ってみましたが、非常に直感的に利用できます。とにかくスピーディーに利用できるのが印象的。

個人的には、後ほど紹介する無料で何度でもスクレイピング可能なChrome拡張機能 ”Web Scraper”よりも、Simplescraperのほうが直感的な設定が可能で使いやすかったです。

ローカルによるスクレイピングを実行するだけなら完全無料。登録・ログインすら不要でCSV・JSON形式でダウンロードできる

ローカルからSimplescraperを利用してスクレイピングする場合には、登録やログインすら不要です。

ただし、複数ページにまたがるスクレイピングや他アプリとの連携を行うことはできません。

無限スクロールについてはローカルからの利用でも対応可能です。

API構築ができることにより、他アプリとの連携やスケジューリング設定が可能

APIを使用・構築したい場合、Simplescraperではいくつかのプランが用意されており、無料のFreeプランでは50回(or100回)のAPIコールができるようになっています。本格的に使用する場合は有料のPlus、Proプランが用意されています。

(サービスが出始めた頃は無料プランでも5,000回のAPIコールができたのですが…)

API構築できることで、Simplescraperと他サービスとの連携が可能になりますね。

参考: WayScript

WayScriptとは(意訳): WayScriptは、ローカルで書いたコードを、信頼できるホスティングアプリに変換できる最も素早い方法。

言い換えると、ローコードなデプロイ用iPaaSであると言うことができそうです。

なお、APIによるスクレイピングの実行はサーバーサイド側(Simplescraperクラウドサーバー上)で実行されます。

複数ページにまたがるスクレイピングを実行したい場合は下記公式ドキュメント参照。

URLによって複数ページの遷移が推定できる場合: Crawling lists of URLs - Simplescraper docs

Simplescraperの価格: APIで活用したいなら$35/月~。

image

上の表のうち、”Cloud scrape credits”がスクレイピング実行可能回数です。

1ページのスクレイピングにつき、1または2、クレジットを消費するとのこと。

Credits allow you to scrape in the cloud. Scraping a single page with Javascript enabled uses 2 credits, and scraping without Javascript uses 1 credit. Because most modern websites require Javascript, it is enabled by default, but you can change this when creating/editing a recipe.

JavaScriptを利用したスクレイピングについては1ページにつき2クレジット、JavaScriptを利用しないスクレイピングの場合には1クレジットを消費すると定められているようです。

なお、多くのモダンなWebサイトではJavaScriptによるスクレイピングが要求されるため、デフォルトではJavaScriptによるスクレイピング設定となっているとのこと。(設定で変更可能)

便利なストアレシピ(既に作成されたスクレイピングレシピ)やGoogle Sheetのリアルタイムアップデート、実行スケジューリング機能を利用したい場合には$35/月~の有料プランを契約する必要がありそうです。

ストアレシピの数はまだあまり多くはなさそうです。

image

Simplescraper — Scrape Websites and turn them into APIs

2: 無料で自動スケジュール実行も可能 " Import.io "

Web Data Integration - Import.io - Data Extraction, Web Data, Web Harvesting, Data Preparation, Data Integration https://www.import.io

現在、無料版は利用できなくなっているようです。

import.ioの機能

  • 無料(Community Eddition)で毎月1,000ページのスクレイピングが可能
  • スケジュール自動実行も可能
  • API, webhook接続可能
  • ページネーション対応
  • 画像保存可能

ページネーションと無限スクロールの設定方法 Advanced Pagination & Infinite Scroll – Import.io Help Center

Google Sheets : スプレッドシートにAPI経由でリアルタイムに取得データを同期させる方法(コピペでOK) Using Google Sheets IMPORTDATA with Import.io – Import.io Help Center

import.ioについての参考リンク

3: 無料でスクレイピングし放題! "Web Scraper"

Web Scraperはブラウザの開発者ツールを利用してスクレイピングを可能にするChrome, Firefoxのブラウザ拡張機能。

Web Scraperのメリット

Chrome拡張である"Web Scraper"。下記の2点がメリットとのこと。

  • Chrome拡張であるゆえの気軽さ
  • 何回使おうが、どれだけスクレイピングしようが「完全無料」

現在ではCSV, XLSX, JSON形式に対応しています。

また、複雑なことはあまり出来ないようです。

クラウド機能(有料)を利用すれば、スケジューラを走らせることも可能なようです。

逆にいえば、スケジューラ等の機能を利用する予定がなければ、基本的には無料で無制限にスクレイピングすることが可能です。

また、個人的には上記に加えて、「公式ドキュメントや動画チュートリアルが充実していること」をメリットの1つに加えたいところ。

Twitter上でもChrome拡張"Web Scraper"はなかなか評判が高い

Web Scraperの使い方は大きく4ステップ

全体の流れとして、ダウンロード完了ページの流れ説明がわかりやすかったです。

  1. ブラウザ開発者ツールからWeb Scraperタブを開く
  2. スクレイピング用のサイトマップを作成する
  3. データセレクタ(スクレイピング対象とフロー)を作成する
  4. スクレイピング実行とデータのダウンロード

私はselect機能でリンクの選択ができなかったため、ChromeではなくFirefoxで試したら無事に選択されました。Chromeで他の拡張機能と競合してしまっていたのかもしれません。

また、開発者ツールのコンソール画面を画面横に表示させている状態だと、Web Scraperの項目が表示されませんでした。

画面下に開発者コンソール画面が表示されるように設定し、>>> から”.Web Scraper”を選択してください。

image

Chrome拡張のWeb ScraperはYouTube動画に説明あり

公式サイトにもチュートリアル動画一覧の掲載があります。

また、下記noteにも詳しくまとめてありました。

スクレイピング練習用の公式テストサイトは下記です。

4: ビジュアル操作で分かりやすい!無料でほとんどの機能が実行可能なデスクトップツール "Octoparse"

image

Octoparseの評判

iPaaSツールであるIntegromatを噛ませることで、下記の自動化フローを組んだ方がいらっしゃいました。

Octoparseでスクレイピング→Airtableにデータ保存→parabola経由でDeepLで一括日本語化

ただし海外発のサービスであるということもあり、サポートは微妙らしいです。日本語訳もちょっとヘン…?

Octoparseの特徴。無料版でも非常に高機能

  • 日本語チュートリアルもあり、UIも非常に直感的でわかりやすい
  • 自動スケジュール実行は有料版のみ
  • 画像保存機能はなし
  • テンプレートが優秀。たとえば
    • Amazon
    • eBay
    • Instagram
    • Twitter
    • Facebook
    • YouTube
    • Indeed
    • リクナビNEXT
    • 楽天
    • Yahooショッピング
    • ヤフオク
    • Googleマップ
    • メルカリ
    • 価格.com
    • Airbnb
    • PRtimes
    • 食べログ
    • SUUMO
    • Bigo Live
    • Yahoo Finance

などのサービスに対して、すでに設定済のテンプレートレシピがある。 (ただしテンプレートは有料プランのみ)

とにかく「視覚的にわかりやすい」というのが特徴。レビューの評価もその点は評価が高かったです。(5点中2.8点程度)

Macの場合、インストール時にセキュリティ解除が必要。

Octoparse無料版でできないことと制限、有料プラン($75/月)への契約が必要となる機能

Octoparseで下記の機能を利用しようと思ったら、$75/月以上の有料プランへの契約が必要になるようです。

無料プランでできないこと:

  • タスクの定期実行
  • APIの利用
  • 10,000レコード/回以上のデータのエクスポート

定期実行(スケジューリング)機能を除けば、ほとんどのことができてしまうのではないでしょうか…!

エクスポートのデータ数制限はありますが、スクレイピングによる取得ページ数自体は無制限のようです。

Octoparseを利用してヒートマップ視覚化ダッシュボードを作成された例

タピオカが大好きなので、東京におけるタピオカ店の分布と人気店舗が一目でわかるダッシュボード「タピオカマップ」を作ってみました。 手順は ①Octoparseで【Rettyグルメ】から東京のタピオカ店のデータ情報を抽出する ②Excelでデータを加工する ③FineReportでダッシュボードを作成する

1行もコードを書かずにTwitterからスクレイピング、Google Spread Sheetにデータを抽出・保存

Octoparse公式によるYouTube説明動画です。GUIのみでTwitterからデータをスクレイピングし、Google Spread Sheetにデータを抽出・保存させています。

ただし、通常Twitterではスクレイピングツールによるスクレイピングは利用規約で禁止されています。この点はグレーゾーンあるいは違反となる可能性があるため、ご注意ください。

5: 買い切り型$38のChrome拡張スクレイピングツール " Spider Pro "

Spider Proはシンプルにスクレイピングを行うことが出来るChrome拡張機能(有料プラグイン)です。

Product HuntのProduct of the Weekにも選出されています。

1度の買い切り価格、38ドルで購入することが可能。

ここまで紹介してきたスクレイピングツールもそうですが、一定の機能を使おうとすると月額課金となりますよね…!それが買い切り型なのは非常にコスパが良さそう。

公式サイトの冒頭にデモがあるのですが、Web上のUIを用いてビジュアル的に簡単にスクレイピング設定が可能でした。

複数ページにまたがるスクレイピングが可能。

ただし「次ページ」を手動でクリックしていく必要あり?「面倒だ」とのコメントがありました。

Spider Proについてはこちらの記事で知りました。使用感としては、複雑な構造のWebサイトのスクレイピングは難しいようです。

非常に便利ではあるのですが、割とサイトによっては著しく精度が悪くなります。HTMLの構造とクラス名が完全に一致している情報を取得するようになっているようで、構造は全く同じだけど、一つの要素だけ .active などのクラスが追加でついていると取得できなかったりします。

6: ほぼ無料で高機能なビジュアルスクレイピング。"scrapinghub/portia"

scrapinghub/portiaの特徴

" portiaを自前のサーバに入れて使う場合は、scrapinghubの料金を支払う必要もなく、制約もありません。

  • ほぼ無料で、高機能のビジュアルスクレイピングツールを利用できる
  • 環境設定が面倒
  • 細かい設定にはプラグインを導入したり、カスタマイズする必要がありそう

scrapinghub/portiaの注意点

  • 無料版だとレシピ(API設定)の保存ができない。
  • 無料版では、月に660ページの取得制限がある

No-Codeツールである「Bubble」と連携ができるよう。

7: ノーコードでスクレイピングを含むワークフローを自動化。Automatio(現在はEarly Access募集のみ→公開されました!🎉)

Automatioはスクレイピングを含む自動化のためのワークフローをGUIで操作できる自動化ワークフロー設定ツール。

AutomatioのChrome拡張機能(エクステンション)でWebページに対してどのような処理・スクレイピングをするかカラフルなUIベースで設定を行い、専用のユーザーページで結果を確認する、という流れになります。

2021/08/11現在はまだEarly Accessを募っている段階です。興味がある方はぜひ試してみてください。

→ 2022/03/09 において確認したところ、公開されていました!🎉

Automatioでできる複雑なスクレイピング

  • フォームや検索ボックスなどのInput Fieldにテキストを入力
  • ログイン認証の突破
  • 無限スクロール対応
  • ページネーションの指定(複数ページの遷移)
  • ループ処理

これらを自由に組み合わせて一連の「ワークフロー」として実行できるのがAutomatioの特徴です。

Automatioの料金: 25$/月〜。無料プランはなし

Automatioはお試しクレジット等もなく、有料プランのみで利用可能となります。

image

おまけ1: データ特化iPaaSツール: Blockspringの紹介

厳密にはスクレイピングでは無いのですが、Twitterやその他のアプリからデータを収集し、Google Spread Sheetに落とし込むことができます。

現在は

  • Lists
  • Reports
  • Pages という3つの異なる機能。このうちのReportsが、もともとのBlockspringが提供していた各種サービスからデータを吸い取って、SpreadSheet上に吐き出すというサービス。

Reports機能についての記事 まだAPIで消耗してるの? サクッとデータが欲しいなら「Blockspring」を使おう! – GUNMA GIS GEEK ↑は昔の記事。現在は画面仕様など異なります。

非常に便利なのですが、$29/月となりコストがかかります。有料でも大丈夫という方は試してみて下さい。

おまけ2: Google Spread Sheetでスクレイピングする方法も

私も実装したことがあるのですが、HTMLの一部の知識さえあれば簡単に実現できました。

ノーコード手法ではないのですが、ツールやサービスの制限なくスクレイピングを行いたいという方にはおすすめの方法です。数時間程度の学習は必要ですが、ある程度柔軟にスクレイピングが可能です。

この記事の気になる箇所を読み返す: