尊龙集团官网

亚马逊上的数据采集

跨境电商亚马逊数据采集

2024/01/18

Amazon

下载并安装成功爬山虎采集器后，可以看到工具栏。单击“新建任务”，创建自定义采集。

482717679517171780

新建任务第一步需要输入网址。打开亚马逊网页，输入关键词“tunic tops for women”并进行搜索，搜索后将会生成以下的网页链接https://www.amazon.com/ s?k=tunci+tops+for+women&ref=nb_sb_noss，对该链接进行复制，粘贴至需要抓取的网页地址中。

爬山虎可以同时对多个链接进行抓取，因此如果需要同时抓取多个关键词搜索结果，可以输入多个链接，但抓取速度将会受到较大影响。

完成粘贴后单击“下一步”按钮，进入抓取数据环节。等待1~2分钟，爬山虎就会自动对网页信息进行试抓取和整理。最终生成的数据文件。从表格中可以看到，此处的7列数据中并没有数据化选品需要的数据。单击其他列上方的筛选按钮，即可选择删除该数据，最终只保留第2列的链接和第5列review数量进行深入采集。

当自动识别的结果不是想要的数据时，单击“列表模式”下拉按钮，在下拉列表中选择列表模式。“选择列表”选项，在上方网站中单击，即可完成数据选取。

此时采集器只能选中当前页面的数据，要想进行翻页抓取，需要单击左下角的分页设置，选择“自动识别分页”。采集器将自动找到翻页按钮，实际抓取时自动进行单击操作。

完成一级页面的操作后，选中title_link列，单击深入此链接采集。浏览器会新建一个内容页的标签页。

在内容页标签页中向下翻页，即可找到上架时间、父ASIN、大类目排名。由于抓取内容为文本内容，且不同链接中，这3行数据的位置不同，因此可以通过XPath功能完成抓取。具体操作为:双击选中抓取内容，右击并选择“生成XPath→根据前缀文本生成”命令。

此时将会生成对应代码。

选择复制该代码。单击“添加字段”按钮添加3列字段，并对每个字段进行手动设置XPath，将上述代码粘贴至手动设置区，最终完成设置后，单击“下一步”按钮。

此处需要注意的是，由于链接中所包含的ASIN为产品子SKU对应ASIN，不利于后期判断数据一致性，因此一定要采集父ASIN。

在第三步中，直接单击“保存”按钮，即可完成任务编辑，最终导出的数据将会合并一级页面的2列和二级页面的3列。

返回首页，选中刚才创建的任务，单击“开始”按钮，采集器即可开始抓取网页内容。在采集过程中，由于需要进行二级页面的采集，因此每个数据采集时间约为20秒以上。在实际的运营过程中，最好可以将采集时间设置为每日下午8点至次日上午8时。在保证抓取时间的相对一致以外，确保每天可以采集3 000条以上的数据。运营者持续抓取一个月并去除重复值后，可获取10 000余条链接数据。

由于采集器将会在短时间内产生大量重复点击，在1~2个月内将有可能触发亚马逊的机器人检测。因此采集器最好在非店铺后台的计算机进行操作，避免对日常运营产生影响。

上一篇：亚马逊店铺转让注意事项

下一篇：亚马逊数据化选品方法

最新

热门

进口电商

Amazon

Shopee

Ozon

TikTok

Temu

美客多

Lazada

独立站

AliExpress

Wish

eBay

本土店

沃尔玛

其他资讯

更多

热门搜索

热门文章

最新文章

在线客服
实时沟通，快速解决您的问题
客服电话 400-091-0999
工作日09:00~21:00
非工作日09:00~18:00
尊龙集团官网
出海热点，尽在掌握

【网站地图】