97人妻人人做人碰人人爽台湾_无码精品久久久久久98久久_品人妻无码区二区三区_51午夜精品免费视频

V10來啦|火車采集器迎來重大版本更新

2021-07-05 13:52:37 瀏覽:10540


親愛的用戶:

為了給用戶更好的采集體驗,2021年07月05日我們進(jìn)行了火車采集器的版本更新,目前火車采集器V10.0版本已正式上線。






1、★數(shù)據(jù)獲取中支持調(diào)用其他標(biāo)簽的值作為截取條件

數(shù)據(jù)提取方式支持調(diào)用其他標(biāo)簽值可以讓采集過程更加靈活,在提取中點(diǎn)擊標(biāo)簽符號即可調(diào)用其他標(biāo)簽的值。下面介紹下具體使用方法:

我們以網(wǎng)址:https://detail.tmall.com/item.htm?id=644685533017,為例,目的為提取sku對應(yīng)的顏色名稱,以一個顏色為示例:

目標(biāo)網(wǎng)站獲取數(shù)據(jù)部分源碼:

QQ截圖20210705134752.png

QQ截圖20210705134803.png

注意:調(diào)用標(biāo)簽在前后截取以及正則提取中皆可使用,使用方法相同。


2、★數(shù)據(jù)獲取支持CSS selector

火車采集器數(shù)據(jù)獲取新增支持CSS selector,很多網(wǎng)頁的css 的屬性唯一,此功能更利于批量從網(wǎng)頁中提取數(shù)據(jù)。

如要系統(tǒng)性學(xué)習(xí)css提取的知識,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。

在火車采集器集成了css提取功能,直接將css路徑填寫在界面中即可使用。Selector中填寫css路徑,節(jié)點(diǎn)屬性選擇需要采集的屬性。

比如:

QQ截圖20210705134904.png

注意:只有網(wǎng)頁源碼中有的元素,才能使用css獲取,若是源碼中沒有而是瀏覽器渲染過后才展示的css,無法通過火車采集器來獲取


3、★增加關(guān)聯(lián)區(qū)域功能


關(guān)聯(lián)區(qū)域功能,可以先截取網(wǎng)頁中指定區(qū)域內(nèi)容,然后將該區(qū)域作為數(shù)據(jù)來源

進(jìn)行采集處理。

關(guān)聯(lián)區(qū)域功能有利于網(wǎng)頁結(jié)構(gòu)重復(fù)或者復(fù)雜的網(wǎng)頁形式的分析以及采集。

下面介紹下關(guān)聯(lián)區(qū)域功能的用法:

以網(wǎng)址:http://www.zxsww.com/download,為例,比如只想要采集2020年間的下載鏈接。如果直接循環(huán)采集,那么就會采集到其他年份的鏈接,干擾結(jié)果,所以我們可以使用關(guān)聯(lián)區(qū)域指定采集的區(qū)域。

QQ截圖20210705134936.png

下面介紹下具體的設(shè)置方法:

(1)添加關(guān)聯(lián)區(qū)域

QQ截圖20210705135004.png

(2)數(shù)據(jù)來源中選擇關(guān)聯(lián)區(qū)域,然后按照一般的方式進(jìn)行采集即可

QQ截圖20210705135027.png



4、★批量網(wǎng)址增加區(qū)間變化的網(wǎng)址增加方式

區(qū)間變化的變化原理為:地址中的兩個參數(shù)以固定的間隔進(jìn)行增長,并且相鄰兩組值的結(jié)束值與起始值間隔為1,以這種形式變化增長的地址格式可以使用區(qū)間變化來處理。

比如以https://www.powerchina.cn/col/col7440/index.html?uid=46098&pageNum=1,網(wǎng)址為例,我們使用fiddler抓包網(wǎng)址變化如下:

第一頁:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=1&endrecord=16&perpage=16

第二頁:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=17&endrecord=32&perpage=16

第三頁:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=33&endrecord=48&perpage=16

。。。

如下圖,我們可以清晰的看到列表網(wǎng)址中,每一頁的起始值跟結(jié)束值都相差15,且相鄰的頁數(shù),上一頁的結(jié)束值與下一頁的起始值相差為1,符合區(qū)間變化的規(guī)律。

微信截圖_20210705135123.png

所以就可以按照下圖設(shè)置,變化的字段選用地址參數(shù),起始值用[地址參數(shù)],結(jié)束值用[地址參數(shù)1],區(qū)間步長使用起始值與結(jié)束值的間隔數(shù)。

微信截圖_20210705135159.png

注意:區(qū)間變化不可與批量網(wǎng)址中的其他方式混用,且必須有兩個地址參數(shù)



5、批量設(shè)置步驟增加新增功能的相關(guān)設(shè)置



6、★運(yùn)行統(tǒng)計日志設(shè)置添加默認(rèn)關(guān)閉功能



7、★oss相關(guān)問題修復(fù)



8、★網(wǎng)址空格問題導(dǎo)致列表頁標(biāo)簽錯誤問題修復(fù)



9、下載相關(guān)問題修復(fù)


10、修復(fù)“任務(wù)數(shù)據(jù)批量處理”中刪除為空記錄無效的問題



11、文件下載插件增加文件下載后處理接口



感謝用戶的支持與使用,今后也請多多支持小采~






掃碼關(guān)注微信