懶人采集器(網(wǎng)頁資源采集工具)官方版

版本：v3.2.9.1 大小：85.66M 語言：簡體中文類別：網(wǎng)絡(luò)輔助

類型：國產(chǎn)軟件
授權(quán)：免費軟件
更新：2024-05-29
標簽： 數(shù)據(jù)采集工具
環(huán)境：Windows11,Windows10,Windows8,Windows7

本地下載

9.1

詳情介紹

懶人采集器官方版是一款非常實用的網(wǎng)頁信息采集工具，軟件擁有內(nèi)置瀏覽器，能夠以可視化的方式幫助用戶采集各種網(wǎng)頁內(nèi)容，操作方便簡單，不需要掌握任何專業(yè)的網(wǎng)絡(luò)知識，只需點擊鼠標就能輕松創(chuàng)建采集任務(wù)。懶人采集器可自定義采集到你所需要網(wǎng)頁上的所有信息，可智能自動識別網(wǎng)頁列表、采集字段和分頁等，輸入采集網(wǎng)址，點擊鼠標即可輕松選取要抓取的內(nèi)容；懶人采集器可視化采集器，采集就像是搭積木，功能模塊隨意組合，可視化提取或操作網(wǎng)頁元素，自動登錄、自動發(fā)布、自動識別驗證碼，是萬能的瀏覽器，可以快速創(chuàng)建自動化腳本，甚至可以生成獨立的應(yīng)用程序；用戶可以通過懶人采集器來采集網(wǎng)頁上的一些數(shù)據(jù)內(nèi)容，并且可以將這些數(shù)據(jù)內(nèi)容單獨保存下來，這樣用戶如果在瀏覽網(wǎng)頁的時候需要收集素材的話就可以通過這款采集器將這些數(shù)據(jù)保存下來使用了，有興趣的小伙伴快來下載體驗吧！

功能介紹

1、操作簡單，可通過鼠標點擊的方式輕松選取要抓取的內(nèi)容
2、支持三種高速引擎：瀏覽器引擎、HTTP引擎、JSON引擎，內(nèi)置優(yōu)化后的火狐瀏覽器，加上獨創(chuàng)的內(nèi)存優(yōu)化使瀏覽器采集也可以高速運行，甚至可以快速轉(zhuǎn)換為HTTP方式運行，享受更高的采集速度，而在抓取JSON數(shù)據(jù)時，同樣可以使用瀏覽器可視化方式，通過鼠標點選需要抓取的內(nèi)容，完全不需要去分析JSON數(shù)據(jù)結(jié)構(gòu)，使非網(wǎng)頁專業(yè)設(shè)計人士也可以輕松抓取需要的數(shù)據(jù)
3、不用分析網(wǎng)頁請求和源代碼，卻支持更多的網(wǎng)頁采集
4、先進的智能算法，可以一鍵生成目標元素XPATH、自動識別網(wǎng)頁列表、自動識別分頁中的下一頁按鈕
5、支持豐富的數(shù)據(jù)導(dǎo)出方式，可以導(dǎo)出為txt文件、html文件、csv文件、excel文件，也可以導(dǎo)出到已有的數(shù)據(jù)庫，如sqlite數(shù)據(jù)庫、access數(shù)據(jù)庫、sqlserver數(shù)據(jù)庫、mysql數(shù)據(jù)庫，通過向?qū)У姆绞胶唵斡成渥侄?，即可輕松導(dǎo)出到目標網(wǎng)站數(shù)據(jù)庫中

軟件特色

1、可視化向?qū)В核胁杉?，自動生成采集?shù)據(jù)
2、計劃任務(wù)：靈活定義運行時間，全自動運行
3、多引擎支持：支持多個采集引擎，內(nèi)置高速瀏覽器內(nèi)核、HTTP引擎和JSON引擎
4、智能識別：可自動識別網(wǎng)頁列表、采集字段和分頁等
5、攔截請求：自定義攔截域名，方便過濾站外廣告，提高采集速度
6、多種數(shù)據(jù)導(dǎo)出：可導(dǎo)出為Txt 、Excel、MySQL、SQLServer、 SQlite、Access、網(wǎng)站等

懶人采集器使用方法

一、設(shè)置起始網(wǎng)址
要采集一個網(wǎng)站的數(shù)據(jù)，首先我們要設(shè)置從哪些網(wǎng)址進入采集，比如我們要采集一個網(wǎng)站的國內(nèi)新聞，那么我們就要設(shè)置起始網(wǎng)址為國內(nèi)新聞欄目列表的網(wǎng)址，而一般不會設(shè)置網(wǎng)站首頁為起始網(wǎng)址，因為首頁通常會包含很多列表，比如最新文章、熱門文章、推薦文章等等各種列表塊，并且這些列表塊里顯示的內(nèi)容也是非常有限的，采集這些列表的話一般都無法采集完整信息
下面我們以采集新浪新聞為例，從新浪首頁找到國內(nèi)新聞，但該欄目首頁內(nèi)容還是比較雜亂，而且還細分三個子欄目

我們從進入其中一個子欄目內(nèi)地新聞看一下

該欄目頁包含有一個帶分頁的內(nèi)容列表，通過切換分頁，我們就可以采集到該欄目下的所有文章，所以這種列表頁就非常適合作為我們采集的起始網(wǎng)址
現(xiàn)在，我們就復(fù)制該列表網(wǎng)址到任務(wù)編輯框第一步的文本框中

如果你要在一個任務(wù)中同時采集國內(nèi)新聞里的其他子欄目，也可以把另兩個子欄目列表地址復(fù)制進來，因為這些子欄目列表格式都是相似的，但為了便于導(dǎo)出或發(fā)布分類數(shù)據(jù)，一般不建議多個欄目內(nèi)容混合在一起
對于起始網(wǎng)址我們也可以批量添加或從txt文件導(dǎo)入，比如我們要采集前5頁，也可以這樣自定義五個起始頁

需要注意的是如果這里自定義了多個分頁列表，在后面的采集配置里就不要再啟用分頁了，通常我們要采集某個欄目下的所有文章時，都只需要定義該欄目第一頁為起始網(wǎng)址就行了，在后面的采集配置里啟用分頁，就可以采集到每個分頁列表的數(shù)據(jù)
二、自動生成列表和字段
進入第二步后，對于某些網(wǎng)頁，懶人采集器會智能分析出該頁的列表，并自動高亮選擇網(wǎng)頁列表和生成列表數(shù)據(jù)，如

然后我們再對這些數(shù)據(jù)進行修整，比如刪掉一些不需要的字段

點擊圖示三角符號，會彈出該字段采集詳細配置，點擊上面的刪按鈕即可刪除該字段，其余參數(shù)后面章節(jié)會獨立介紹
如果某些網(wǎng)頁自動生成的列表數(shù)據(jù)并不是我們想要的數(shù)據(jù)，可以點擊清除字段，把生成的字段全部清除

如果自動分析出的高亮列表也不是我們要采集的列表，那么我們就手動選取列表，要是想取消高亮顯示的列表框，可以點擊查找列表，列表XPATH，把里面的xpath清空后確定即可
三、手動生成列表
點擊查找列表按鈕，選擇手動選擇列表

按提示，用鼠標左鍵點擊網(wǎng)頁列表中的第一行數(shù)據(jù)
點完第一行，再按提示點擊第二行或其他相似的行

點擊完列表里的任意兩行后，整個列表就高亮顯示出來了，同時該列表里的字段也會字段生成，如果生成的字段不對，點擊清除字段，把下面的字段全部清除掉，下一章再介紹手動選取字段

四、手動生成字段
點擊增加字段按鈕

點擊列表中任意一行中要提取的元素，比如要提取標題和鏈接地址，鼠標左鍵點擊一下該標題即可

當(dāng)點擊的是網(wǎng)頁鏈接時，會提示是否用時要抓取鏈接地址

如果要同時提取鏈接標題和鏈接地址，點是，如果只要提取標題文本，點否，這里我們點是

系統(tǒng)會自動生成標題和鏈接地址字段，并在字段列表中顯示出提取到的字段內(nèi)容，當(dāng)點擊底部表格字段標題時，會在網(wǎng)頁上以黃色背景高亮顯示出匹配的內(nèi)容
如何還有標記列表中的其他字段，點擊新增字段，重復(fù)以上操作即可
五、分頁設(shè)置
當(dāng)列表有分頁時，啟用分頁后就可以采集到所有的分頁列表數(shù)據(jù)
網(wǎng)頁分頁有兩種
普通分頁：存在分頁條，并顯示有下一頁按鈕，點擊后可以進入下一頁，如之前的新浪新聞列表里的分頁
瀑布流分頁：網(wǎng)頁滾動條拉到底部時會自動加載下一頁內(nèi)容
如果是普通分頁，我們選擇嘗試自動設(shè)置或手動設(shè)置
1、自動設(shè)置分頁

新建任務(wù)時默認是沒有啟用分頁的，點擊不啟用分頁，會彈出一個菜單，選擇自動識別分頁，如果識別成功，會彈出對話框提示成功識別并設(shè)置了分頁元素，并在網(wǎng)頁下一頁按鈕上出現(xiàn)高亮的紅色虛線框，至此成功啟用自動分頁

如果自動識別識別，會出現(xiàn)如下綠色提示框

2、手動設(shè)置分頁
在菜單中選擇手動設(shè)置分頁

然后會自動出現(xiàn)查找分頁按鈕，點擊后彈出菜單，選擇標記分頁

按提示向?qū)c擊下一頁按鈕

點擊后會在網(wǎng)頁下一頁按鈕上出現(xiàn)高亮的紅色虛線框，至此成功標記了分頁，如果要查看剛才設(shè)置的分頁xpath，可以選擇菜單中的分頁XPath，即可看到該分頁xpath，在這里也可以手動輸入xpath進行設(shè)置

3、瀑布流分頁
有些網(wǎng)頁需要將滾動條拉到底部才能進入下一頁，例如今日頭條、知乎等網(wǎng)站，在菜單中選擇瀑布流分頁即可啟用該分頁，使用瀑布流分頁采集時，頁面會自動滾動到底部，直到分頁完成或達到指定的分頁次數(shù)
4、最大分頁
指定最大分頁次數(shù)，也就是切換分頁的次數(shù)不會超過此數(shù)值

六、采集內(nèi)容頁等多級網(wǎng)頁
如果我們要采集二級頁面，如內(nèi)容頁，或采集更深一級的頁面，三級、四級等，在當(dāng)前頁字段列表中，必須包含有一個提取鏈接地址的字段，也就是提取屬性為Href的字段，如圖

點擊該字段標題欄，選中該列后會出現(xiàn)深入鏈接頁采集按鈕

點擊該按鈕后會自動創(chuàng)建一個配置選項卡，并自動打開之前選中那個字段的一個網(wǎng)址

而采集模式也自動顯示為單條模式

列表模式：用于提取某個網(wǎng)頁列表中的數(shù)據(jù)，預(yù)覽中可看到多條數(shù)據(jù)
單條模式：適用于采集內(nèi)容詳情頁里的各項信息，如文章標題、時間、正文等
因為我們深入采集的這個頁面是內(nèi)容頁，所有使用默認的單條模式
然后，我們新建一個字段，提取網(wǎng)頁中的文章發(fā)布時間，因為文章標題在第一層列表采集里已經(jīng)提取了，這里就不需要重復(fù)了，采集運行時，多個頁面的字段會自動合并為一個表格數(shù)據(jù)的

繼續(xù)新建字段提取正文

而為了保持原文的段落格式，這里的取值屬性可以選擇InnerHtml，即該字段提取的數(shù)據(jù)包含Html標簽

七、其他設(shè)置
我們可以對瀏覽器做一些設(shè)置，比如禁用圖片、JS、Flash、框架等，提高瀏覽網(wǎng)頁的速度
還可以設(shè)置瀏覽器標識(UserAgent)、代理IP、請求的間隔時間等
瀏覽器標識(UserAgent)：網(wǎng)頁通過讀取瀏覽器標識來獲取客戶端的一些信息
請求間隔時間：用于降低請求的頻率，即降低采集速度，避免因采集太快而被封IP，如果不需要降速，可以設(shè)置為0時
多值連接符：字段設(shè)置了多個xpah提取多個元素時，使用這里自定義的連接符連接多個元素值
HTTP引擎線程數(shù)：使用HTTP請求時，多線程運行的線程數(shù)，同一個HTTP請求的任務(wù)可以拆分并使用多個線程同時采集，提高采集速度，只適用于HTTP引擎，瀏覽器引擎不適合

注意事項

系統(tǒng)組件：
① .Net Framework 4.7.2
② VC++2015運行庫
以上兩個組件缺一不可，請務(wù)必安裝完整，否則將無法正常運行。

更新日志

v3.2.9.1版本
修復(fù)預(yù)登錄部分網(wǎng)站后出現(xiàn)閃退等問題

下載地址

電腦版

懶人采集器(網(wǎng)頁資源采集工具)官方版 v3.2.9.1

本地下載通道：: 浙江電信下載; 北京聯(lián)通下載; 江蘇電信下載; 廣東電信下載

猜您喜歡

數(shù)據(jù)采集工具

電腦數(shù)據(jù)采集軟件: 工作中大家可能會用到一些數(shù)據(jù)，而苦于沒有好的數(shù)據(jù)采集軟件，只能一個一個的去網(wǎng)站采集。數(shù)據(jù)采集，又稱數(shù)據(jù)獲取，是利用一種裝置，從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部的一個接口。數(shù)據(jù)采集技術(shù)目前廣泛應(yīng)用于各個領(lǐng)域。針對制造業(yè)企業(yè)的龐大生產(chǎn)數(shù)據(jù)，數(shù)據(jù)采集工具尤為重要。那么市場上數(shù)據(jù)采集工具有哪些？3322小編整理了一批好用的數(shù)據(jù)采集軟件，安裝后可以輕松的采集到你想要的數(shù)據(jù)，還不趕快下載安裝。