スクレイピング ツール, ノーコード スクレイピング
900, 40
ノーコードでWebスクレイピングができる、「ビジュアルスクレイピングツール」について主として無料かつ高機能な7つのサービスをまとめました。基本的には無料で利用することができるサービスを主としてまとめています。
7つの中でも特におすすめなのが、最初にご紹介する下記4つのノーコードスクレイピングツールです。それぞれ以下のような特徴があります。
- シンプル・かんたん・高速でAPI構築も可能なSimpleScraper
- 無料で自動スケジュールによるスクレイピング実行が可能なimport.io
- 無料でスクレイピングし放題のWeb Scraper
- ビジュアル操作で分かりやすく、ほとんどの機能が実行できるOctoparse
以下、それぞれ順番にご紹介したあと、残る3つのスクレイピングツール+おまけを解説していきます。
目次:
- 1: シンプルでかんたん、高速スクレイピングが可能な "Simplescraper"。API構築も可能なコスパの高いChrome拡張機能
- 直感的・スピーディーに利用できることと、APIが構築できることが特徴
- ローカルによるスクレイピングを実行するだけなら完全無料。登録・ログインすら不要でCSV・JSON形式でダウンロードできる
- API構築ができることにより、他アプリとの連携やスケジューリング設定が可能
- Simplescraperの価格: APIで活用したいなら$35/月~。
- 2: 無料で自動スケジュール実行も可能 " Import.io "
- import.ioの機能
- import.ioについての参考リンク
- 3: 無料でスクレイピングし放題! "Web Scraper"
- Web Scraperのメリット
- Twitter上でもChrome拡張"Web Scraper"はなかなか評判が高い
- Web Scraperの使い方は大きく4ステップ
- Chrome拡張のWeb ScraperはYouTube動画に説明あり
- 4: ビジュアル操作で分かりやすい!無料でほとんどの機能が実行可能なデスクトップツール "Octoparse"
- Octoparseの評判
- Octoparseの特徴。無料版でも非常に高機能
- Octoparse無料版でできないことと制限、有料プラン($75/月)への契約が必要となる機能
- Octoparseを利用してヒートマップ視覚化ダッシュボードを作成された例
- 1行もコードを書かずにTwitterからスクレイピング、Google Spread Sheetにデータを抽出・保存
- Octoparse類似のビジュアル重視ノーコードツール ”ScrapeStorm”
- 5: 買い切り型$38のChrome拡張スクレイピングツール " Spider Pro "
- 6: ほぼ無料で高機能なビジュアルスクレイピング。"scrapinghub/portia"
- scrapinghub/portiaの特徴
- scrapinghub/portiaの注意点
- 7: ノーコードでスクレイピングを含むワークフローを自動化。Automatio(現在はEarly Access募集のみ→公開されました!🎉)
- Automatioでできる複雑なスクレイピング
- Automatioの料金: 25$/月〜。無料プランはなし
- おまけ1: データ特化iPaaSツール”Blockspring”でTwitterなどからデータ収集
- Blockspring”Reports機能”について
- 無料または複雑なTwitterスクレイピングをしたいという場合はTwitter API経由で
- おまけ2: Google Spread Sheetでスクレイピングする方法も
1: シンプルでかんたん、高速スクレイピングが可能な "Simplescraper"。API構築も可能なコスパの高いChrome拡張機能
Simplescraper — Scrape Websites and turn them into APIs
Simple ScraperはかんたんにスクレイピングすることができるChrome拡張機能です。CSVやJSON形式でデータを取得することができます。
どのようにスクレイピングされるのかについてのイメージは動画から。
使い方については下記が詳しいです。
あらゆるWebページをAPI化してデータを取得できるChrome拡張機能のSimple Scraper
公式ドキュメントはこちら。
Getting started with Simplescraper - Simplescraper docs
直感的・スピーディーに利用できることと、APIが構築できることが特徴
私も使ってみましたが、非常に直感的に利用できます。とにかくスピーディーに利用できるのが印象的。
個人的には、後ほど紹介する無料で何度でもスクレイピング可能なChrome拡張機能 ”Web Scraper”よりも、Simplescraperのほうが直感的な設定が可能で使いやすかったです。
ローカルによるスクレイピングを実行するだけなら完全無料。登録・ログインすら不要でCSV・JSON形式でダウンロードできる
ローカルからSimplescraperを利用してスクレイピングする場合には、登録やログインすら不要です。
ただし、複数ページにまたがるスクレイピングや他アプリとの連携を行うことはできません。
無限スクロールについてはローカルからの利用でも対応可能です。
Local scraping and cloud scraping - what's the difference - Simplescraper docs
API構築ができることにより、他アプリとの連携やスケジューリング設定が可能
APIを使用・構築したい場合、Simplescraperではいくつかのプランが用意されており、無料のFreeプランでは50回(or100回)のAPIコールができるようになっています。本格的に使用する場合は有料のPlus、Proプランが用意されています。
(サービスが出始めた頃は無料プランでも5,000回のAPIコールができたのですが…)
API構築できることで、Simplescraperと他サービスとの連携が可能になりますね。
参考: WayScript
WayScriptとは(意訳): WayScriptは、ローカルで書いたコードを、信頼できるホスティングアプリに変換できる最も素早い方法。
言い換えると、ローコードなデプロイ用iPaaSであると言うことができそうです。
なお、APIによるスクレイピングの実行はサーバーサイド側(Simplescraperクラウドサーバー上)で実行されます。
複数ページにまたがるスクレイピングを実行したい場合は下記公式ドキュメント参照。
URLによって複数ページの遷移が推定できる場合: Crawling lists of URLs - Simplescraper docs
URLによる推定が難しい場合: Multiple page and infinite scroll scraping - Simplescraper docs
Simplescraperの価格: APIで活用したいなら$35/月~。
Simplescraper — Scrape Websites and turn them into APIs
上の表のうち、”Cloud scrape credits”がスクレイピング実行可能回数です。
1ページのスクレイピングにつき、1または2、クレジットを消費するとのこと。
Credits allow you to scrape in the cloud. Scraping a single page with Javascript enabled uses 2 credits, and scraping without Javascript uses 1 credit. Because most modern websites require Javascript, it is enabled by default, but you can change this when creating/editing a recipe.
Getting started with Simplescraper - Simplescraper docs
JavaScriptを利用したスクレイピングについては1ページにつき2クレジット、JavaScriptを利用しないスクレイピングの場合には1クレジットを消費すると定められているようです。
なお、多くのモダンなWebサイトではJavaScriptによるスクレイピングが要求されるため、デフォルトではJavaScriptによるスクレイピング設定となっているとのこと。(設定で変更可能)
便利なストアレシピ(既に作成されたスクレイピングレシピ)やGoogle Sheetのリアルタイムアップデート、実行スケジューリング機能を利用したい場合には$35/月~の有料プランを契約する必要がありそうです。
ストアレシピの数はまだあまり多くはなさそうです。
Simplescraper — Scrape Websites and turn them into APIs
2: 無料で自動スケジュール実行も可能 " Import.io "
Web Data Integration - Import.io - Data Extraction, Web Data, Web Harvesting, Data Preparation, Data Integration https://www.import.io
現在、無料版は利用できなくなっているようです。
import.ioの機能
- 無料(Community Eddition)で毎月1,000ページのスクレイピングが可能
- スケジュール自動実行も可能
- API, webhook接続可能
- ページネーション対応
- 画像保存可能
ページネーションと無限スクロールの設定方法 Advanced Pagination & Infinite Scroll – Import.io Help Center
Google Sheets : スプレッドシートにAPI経由でリアルタイムに取得データを同期させる方法(コピペでOK) Using Google Sheets IMPORTDATA with Import.io – Import.io Help Center
import.ioについての参考リンク
URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
import.ioで手軽にスクレイピング | kitayama lab
3: 無料でスクレイピングし放題! "Web Scraper"
Web Scraper - The #1 web scraping extension
Web Scraper - Free Web Scraping - Chrome ウェブストア
Web Scraperはブラウザの開発者ツールを利用してスクレイピングを可能にするChrome, Firefoxのブラウザ拡張機能。
Web Scraperのメリット
Chrome拡張である"Web Scraper"。下記の2点がメリットとのこと。
- Chrome拡張であるゆえの気軽さ
- 何回使おうが、どれだけスクレイピングしようが「完全無料」
Google WebScraperでWebスクレイピングしてみての感想 メリットとデメリット
現在ではCSV, XLSX, JSON形式に対応しています。
また、複雑なことはあまり出来ないようです。
[Chrome 拡張機能] Web Scraper で note の記事一覧を取得する – with a Christian Wife
クラウド機能(有料)を利用すれば、スケジューラを走らせることも可能なようです。
逆にいえば、スケジューラ等の機能を利用する予定がなければ、基本的には無料で無制限にスクレイピングすることが可能です。
また、個人的には上記に加えて、「公式ドキュメントや動画チュートリアルが充実していること」をメリットの1つに加えたいところ。
Twitter上でもChrome拡張"Web Scraper"はなかなか評判が高い
Web Scraperの使い方は大きく4ステップ
全体の流れとして、ダウンロード完了ページの流れ説明がわかりやすかったです。
- ブラウザ開発者ツールからWeb Scraperタブを開く
- スクレイピング用のサイトマップを作成する
- データセレクタ(スクレイピング対象とフロー)を作成する
- スクレイピング実行とデータのダウンロード
私はselect機能でリンクの選択ができなかったため、ChromeではなくFirefoxで試したら無事に選択されました。Chromeで他の拡張機能と競合してしまっていたのかもしれません。
また、開発者ツールのコンソール画面を画面横に表示させている状態だと、Web Scraperの項目が表示されませんでした。
画面下に開発者コンソール画面が表示されるように設定し、>>> から”Web Scraper”を選択してください。
Chrome拡張のWeb ScraperはYouTube動画に説明あり
公式サイトにもチュートリアル動画一覧の掲載があります。
また、下記noteにも詳しくまとめてありました。
スクレイピングツール「Web Scraper」でサイトのデータを抽出 - Qiita
スクレイピング練習用の公式テストサイトは下記です。
4: ビジュアル操作で分かりやすい!無料でほとんどの機能が実行可能なデスクトップツール "Octoparse"
スクレイピング | Webクローラー | Octoparse
Octoparseの評判
Octoparseの評判は総じて良く、「本当にノーコードでかんたんにスクレイピングが実装できて感動した」という声が多く挙がっているようです。
iPaaSツールであるIntegromatを噛ませることで、下記の自動化フローを組んだ方がいらっしゃいました。
Octoparseでスクレイピング→Airtableにデータ保存→parabola経由でDeepLで一括日本語化
ただし海外発のサービスであるということもあり、サポートは微妙らしいです。日本語訳もちょっとヘン…?
Octoparseの特徴。無料版でも非常に高機能
- 日本語チュートリアルもあり、UIも非常に直感的でわかりやすい
- 自動スケジュール実行は有料版のみ
- 画像保存機能はなし
- テンプレートが優秀。たとえば下記などのサービスに対して、すでに設定済のテンプレートレシピがある。 (ただしテンプレートを利用できるのは有料プランのみ)
- Amazon
- eBay
- YouTube
- Indeed
- リクナビNEXT
- 楽天
- Yahooショッピング
- ヤフオク
- Googleマップ
- メルカリ
- 価格.com
- Airbnb
- PRtimes
- 食べログ
- SUUMO
- Bigo Live
- Yahoo Finance
Octopraseはとにかく「視覚的にわかりやすい」というのが特徴。レビューの評価もその点は評価が高かったです。(総合評価は5点中2.8点程度)
Octoparseの最新ユーザーレビュー・評判を紹介!価格や製品の特徴、導入メリットなども掲載中【ITreview】IT製品のレビュー・比較サイト
Macの場合、インストール時にセキュリティ解除が必要。
Macにインストールする方法 – スクレイピングツール | Octoparse
参考: 画像を一括ダウンロードするのに超便利なツール5選 | Octoparse
Octoparse無料版でできないことと制限、有料プラン($75/月)への契約が必要となる機能
Octoparseで下記の機能を利用しようと思ったら、$75/月以上の有料プランへの契約が必要になるようです。
無料プランでできないこと:
- タスクの定期実行
- APIの利用
- 10,000レコード/回以上のデータのエクスポート
定期実行(スケジューリング)機能を除けば、ほとんどのことができてしまうのではないでしょうか…!
エクスポートのデータ数制限はありますが、スクレイピングによる取得ページ数自体は無制限のようです。
Webスクレイピングツール & Webクローラー - 料金表 | Octoparse
Octoparseを利用してヒートマップ視覚化ダッシュボードを作成された例
タピオカが大好きなので、東京におけるタピオカ店の分布と人気店舗が一目でわかるダッシュボード「タピオカマップ」を作ってみました。 手順は ①Octoparseで【Rettyグルメ】から東京のタピオカ店のデータ情報を抽出する ②Excelでデータを加工する ③FineReportでダッシュボードを作成する
\タピ活に必要/2019年最新の【タピオカマップ】を作った - Qiita
FineReport|パワフルで効果的な帳票とBIダッシュボード作成ツール
1行もコードを書かずにTwitterからスクレイピング、Google Spread Sheetにデータを抽出・保存
Octoparse公式によるYouTube説明動画です。GUIのみでTwitterからデータをスクレイピングし、Google Spread Sheetにデータを抽出・保存させています。
How to Extract Data from Twitter Without Coding - YouTube
ただし、通常Twitterではスクレイピングツールによるスクレイピングは利用規約で禁止されています。この点はグレーゾーンあるいは違反となる可能性があるため、ご注意ください。
Octoparse類似のビジュアル重視ノーコードツール ”ScrapeStorm”
Octoparseと似たビジュアル重視ノーコードツールに”ScrapeStorm”というものがあります。
人工知能Webスクレイピングツール | Webクローラ | ScrapeStorm
ScrapeStormのほうが新しい出てきたスクレイピングツールだと思われます。もしOctoparseが使いづらい、と感じた方はScrapeStormを試してみても良いかもしれません。
5: 買い切り型$38のChrome拡張スクレイピングツール " Spider Pro "
Spider Pro - the easiest way to scrape the internet
Spider Proはシンプルにスクレイピングを行うことが出来るChrome拡張機能(有料プラグイン)です。
Product HuntのProduct of the Weekにも選出されています。
Spider Pro - The easiest way to scrape the internet | Product Hunt
1度の買い切り価格、38ドルで購入することが可能。
ここまで紹介してきたスクレイピングツールもそうですが、一定の機能を使おうとすると月額課金となりますよね…!それが買い切り型なのは非常にコスパが良さそう。
公式サイトの冒頭にデモがあるのですが、Web上のUIを用いてビジュアル的に簡単にスクレイピング設定が可能でした。
複数ページにまたがるスクレイピングが可能。
ただし「次ページ」を手動でクリックしていく必要あり?「面倒だ」とのコメントがありました。
Spider Proについてはこちらの記事で知りました。使用感としては、複雑な構造のWebサイトのスクレイピングは難しいようです。
非常に便利ではあるのですが、割とサイトによっては著しく精度が悪くなります。HTMLの構造とクラス名が完全に一致している情報を取得するようになっているようで、構造は全く同じだけど、一つの要素だけ .active などのクラスが追加でついていると取得できなかったりします。
6: ほぼ無料で高機能なビジュアルスクレイピング。"scrapinghub/portia"
ビジュアルスクレイピングツールscrapinghub/portiaの使い方 - Qiita
scrapinghub/portiaの特徴
" portiaを自前のサーバに入れて使う場合は、scrapinghubの料金を支払う必要もなく、制約もありません。
- ほぼ無料で、高機能のビジュアルスクレイピングツールを利用できる
- 環境設定が面倒
- 細かい設定にはプラグインを導入したり、カスタマイズする必要がありそう
scrapinghub/portiaの注意点
- 無料版だとレシピ(API設定)の保存ができない。
- 無料版では、月に660ページの取得制限がある
No-Codeツールである「Bubble」と連携ができるよう。
Bubbleでスクレイピングをしてみよう! - ノーコード ラボ
Webスクレイピングツールdexi.ioの使い方 - ブログ|Web・ホームページ制作の株式会社アウラ(大阪)
7: ノーコードでスクレイピングを含むワークフローを自動化。Automatio(現在はEarly Access募集のみ→公開されました!🎉)
Automatio - No-code Web Automation Tool
Automatioはスクレイピングを含む自動化のためのワークフローをGUIで操作できる自動化ワークフロー設定ツール。
AutomatioのChrome拡張機能(エクステンション)でWebページに対してどのような処理・スクレイピングをするかカラフルなUIベースで設定を行い、専用のユーザーページで結果を確認する、という流れになります。
2021/08/11現在はまだEarly Accessを募っている段階です。興味がある方はぜひ試してみてください。
→ 2022/03/09 において確認したところ、公開されていました!🎉
Automatioでできる複雑なスクレイピング
- フォームや検索ボックスなどのInput Fieldにテキストを入力
- ログイン認証の突破
- 無限スクロール対応
- ページネーションの指定(複数ページの遷移)
- ループ処理
これらを自由に組み合わせて一連の「ワークフロー」として実行できるのがAutomatioの特徴です。
Automatioの料金: 25$/月〜。無料プランはなし
Automatioはお試しクレジット等もなく、有料プランのみで利用可能となります。
Automatio - No-code Web Automation Tool
おまけ1: データ特化iPaaSツール”Blockspring”でTwitterなどからデータ収集
厳密にはスクレイピングでは無いのですが、Twitterやその他のアプリからデータを収集し、Google Spread Sheetに落とし込むことができます。
Blockspring - get data for prospecting, reports, and landing pages – Blockspring
現在は下記3つの機能が提供されています。
- Lists
- Reports
- Pages
Blockspring”Reports機能”について
上記3つのうち、ReportsがBlockspringが当初から提供していたものです。各種サービスからデータを吸い取って、SpreadSheet上に吐き出すというサービス。
参考: まだAPIで消耗してるの? サクッとデータが欲しいなら「Blockspring」を使おう! – GUNMA GIS GEEK
上記参考リンク先は昔の記事。現在は画面仕様など異なります。
Blockspringは非常に便利なのですが、$29/月となりコストがかかります。有料でも大丈夫という方は試してみて下さい。
無料または複雑なTwitterスクレイピングをしたいという場合はTwitter API経由で
無料でTwitterスクレイピングを利用したい、という場合には、先述のOctoparseを利用するか、多少なりともPythonが書ける方ならTweepyというライブラリからTwitter APIを活用すると便利です。
Twitter API経由なら、無料でかなりのことが実現可能です。実装も比較的簡単なので、この機会にチャレンジしてみるのも良いでしょう。
おまけ2: Google Spread Sheetでスクレイピングする方法も
【スクレイピングツール】面倒な情報収集はGoogle Spreadsheetにやらせよう! | DAINOTE
私も実装したことがあるのですが、HTMLの一部の知識さえあれば簡単に実現できました。
ノーコード手法ではないのですが、ツールやサービスの制限なくスクレイピングを行いたいという方にはおすすめの方法です。数時間程度の学習は必要ですが、ある程度柔軟にスクレイピングが可能です。
この記事の気になる箇所を読み返す:
- 1: シンプルでかんたん、高速スクレイピングが可能な "Simplescraper"。API構築も可能なコスパの高いChrome拡張機能
- 直感的・スピーディーに利用できることと、APIが構築できることが特徴
- ローカルによるスクレイピングを実行するだけなら完全無料。登録・ログインすら不要でCSV・JSON形式でダウンロードできる
- API構築ができることにより、他アプリとの連携やスケジューリング設定が可能
- Simplescraperの価格: APIで活用したいなら$35/月~。
- 2: 無料で自動スケジュール実行も可能 " Import.io "
- import.ioの機能
- import.ioについての参考リンク
- 3: 無料でスクレイピングし放題! "Web Scraper"
- Web Scraperのメリット
- Twitter上でもChrome拡張"Web Scraper"はなかなか評判が高い
- Web Scraperの使い方は大きく4ステップ
- Chrome拡張のWeb ScraperはYouTube動画に説明あり
- 4: ビジュアル操作で分かりやすい!無料でほとんどの機能が実行可能なデスクトップツール "Octoparse"
- Octoparseの評判
- Octoparseの特徴。無料版でも非常に高機能
- Octoparse無料版でできないことと制限、有料プラン($75/月)への契約が必要となる機能
- Octoparseを利用してヒートマップ視覚化ダッシュボードを作成された例
- 1行もコードを書かずにTwitterからスクレイピング、Google Spread Sheetにデータを抽出・保存
- Octoparse類似のビジュアル重視ノーコードツール ”ScrapeStorm”
- 5: 買い切り型$38のChrome拡張スクレイピングツール " Spider Pro "
- 6: ほぼ無料で高機能なビジュアルスクレイピング。"scrapinghub/portia"
- scrapinghub/portiaの特徴
- scrapinghub/portiaの注意点
- 7: ノーコードでスクレイピングを含むワークフローを自動化。Automatio(現在はEarly Access募集のみ→公開されました!🎉)
- Automatioでできる複雑なスクレイピング
- Automatioの料金: 25$/月〜。無料プランはなし
- おまけ1: データ特化iPaaSツール”Blockspring”でTwitterなどからデータ収集
- Blockspring”Reports機能”について
- 無料または複雑なTwitterスクレイピングをしたいという場合はTwitter API経由で
- おまけ2: Google Spread Sheetでスクレイピングする方法も