TSV
Webスクレイピングツール - TSV
Webスクレイピングツールは、インターネット上のWebサイトから構造化データを自動的に収集するためのソフトウェアやライブラリです。静的HTMLの解析から動的JavaScriptレンダリング、ブラウザ自動化まで、様々なアプローチと用途に対応したツールが存在します。Python、JavaScript、Javaなど複数のプログラミング言語で実装されており、小規模なデータ収集から大規模なクローリングプロジェクトまで幅広く利用されています。
Webスクレイピング
データ収集
クローリング
自動化
Python
JavaScript
code slug name description githubUrl javascriptSupport language officialUrl type
01 scrapy Scrapy Python製の高機能Webクローリング・スクレイピングフレームワーク https://github.com/scrapy/scrapy false Python https://scrapy.org/ Framework
02 beautifulsoup BeautifulSoup Python製のHTML/XMLパースライブラリ false Python https://www.crummy.com/software/BeautifulSoup/ Library
03 selenium Selenium ブラウザ自動化のためのクロスプラットフォームツール https://github.com/SeleniumHQ/selenium true Multi-language https://www.selenium.dev/ Framework
04 playwright Playwright Microsoft製のエンドツーエンドテスト・自動化フレームワーク https://github.com/microsoft/playwright true Multi-language https://playwright.dev/ Framework
05 puppeteer Puppeteer Google製のNode.js Chrome/Firefox自動化ライブラリ https://github.com/puppeteer/puppeteer true JavaScript/Node.js https://pptr.dev/ Library
06 octoparse Octoparse ノーコードのビジュアルWebスクレイピングツール true N/A https://www.octoparse.com/ No-code Tool
07 apify Apify クラウドベースのWebスクレイピング・自動化プラットフォーム https://github.com/apify true JavaScript/Node.js https://apify.com/ Cloud Platform
08 parsehub ParseHub 機械学習搭載のクラウドベーススクレイピングツール true N/A https://www.parsehub.com/ Cloud Tool