旗標科技股份有限公司
LLM × 網路爬蟲終極實戰:n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent
LLM × 網路爬蟲終極實戰:n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent
無法載入取貨服務供應情況
出版社: 旗標科技股份有限公司
作者: 陳會安
譯者: 0
規格: 17x23x2.7
裝訂: 平裝
頁數: 576
出版日: 11/27/2025
ISBN 13 : 9789863128502
內容簡介: 內容介紹:
身處 LLM 時代的必備技能
AI 爬蟲與資料檢索的全本機工作流
你還在用傳統的方法爬取網路資料嗎?
還在手動分析 HTML 網頁結構、逐一定位網頁元素、再手刻爬蟲程式嗎?
身處 AI 世代,是時候該學習更聰明、更高效的資料收集方法,
讓你坐在電腦前,喝著咖啡、悠閒地看著 AI 為你自動爬取網路資料。
在 AI 飆速發展的今天,傳統網路爬蟲技術正迎來全新的變革。
過去,Python 爬蟲程式的開發者必須自行剖析 HTML 網頁結構,撰寫繁瑣複雜的資料擷取規則與步驟;如今,隨著 LLM 的普及,AI 已能協助我們理解 HTML 網頁結構、定位網頁資料,甚至能夠自動化建立整個爬取流程,大幅提升開發效率。
本書從 HTML 結構解析入門,循序講解 BeautifulSoup + CSS 選擇器、lxml + XPath 表達式、正規表達式等核心技術,再深入 Selenium 模擬瀏覽器互動及 Scrapy 爬蟲框架的專業應用,帶領讀者全面掌握靜態與動態網頁擷取技術。更進一步結合 Playwright 自動化瀏覽器、以及 AI 驅動的爬蟲框架 Crawl4AI 和 ScrapeGraphAI,讓 LLM 成為理解與提取網頁資料的主力。
不只如此,本書採用 n8n × Ollama 全本機架構,無需 API Key、無需 Docker,即可整合 SearXNG 搜尋引擎、Crawl4AI API 資料爬取、Qdrant 向量資料庫與 RAG 知識檢索生成,最終打造出 MCP + AI Agent 自動化流程 ⸺ 從搜尋、爬取到資料處理與知識生成一手包辦!
本書特色:
用 AI 分析 HTML 結構建立 Python 網路爬蟲
▸全面掌握靜態與動態 HTML 網頁擷取技術,CSS Selector、XPath 一次上手
▸實戰演練 BeautifulSoup、Selenium、Scrapy 經典 Python 爬蟲框架
Python × LLM 建立 AI 網路爬蟲
▸整合 OpenAI、Gemini、Groq、Ollama 等多種 LLM,打造智慧爬蟲系統
▸運用 AI 驅動的爬蟲技術 Crawl4AI 與 ScrapeGraphAI,自動理解並提取網頁內容
▸結合非同步程式設計,提升資料抓取效率與彈性
整合 Python × AI 網路爬蟲的 AI 工作流程:n8n
▸以視覺化介面建立自動化流程,輕鬆整合搜尋、爬取與資料處理
▸結合 Qdrant 向量資料庫 × RAG 技術,打造個人化知識檢索系統
▸構建全本機 AI Agent 工作流,實現從資料擷取到生成的自動化流程
目錄:
作者簡介:
