【发布时间】:2017-02-06 07:53:48
【问题描述】:
您好,我想从这个网站提取数据:taobao.com 我唯一需要的是在商店中的每个项目中提取 data-id 属性值。 我将举例说明数据源引用文件:
https://shop122418146.world.taobao.com
https://shop68989753.world.taobao.com
这是我尝试过的。
const L = "\n";
const numLines = 3;
/* --------------------- main --------------------- */
for (x = 1; x <= numLines; x++) {
iimPlayCode (
'SET !DATASOURCE E:\\XXX\\Taobao\\TaobaoShop.csv' + L +
'SET !DATASOURCE_LINE ' + x + L +
//'SET !REPLAYSPEED MEDIUM' + L
'URL GOTO={{!COL1}}' + L +
'WAIT SECONDS=1' + L +
'EVENTS TYPE=KEYPRESS SELECTOR="HTML" KEYS="[40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40,40]"' + L +
'WAIT SECONDS=1' + L
);
for (y = 1; ;y++) {
iimPlayCode (
'TAG POS=' + y + ' TYPE=DL ATTR=CLASS:item* EXTRACT=data-id' + L
);
if(iimGetLastExtract()=="#EANF#"){
break;
} else{
iimPlayCode (
'SAVEAS TYPE=EXTRACT FOLDER={{!FOLDER_DATASOURCE}}\\Taobao\ FILE=Taobao.csv' + L +
'SET !EXTRACT NULL' + L
);
}
}
}
我认为让它工作起来很容易,但它只会像这样返回
""
""
""
""
...
有什么解决办法吗?
【问题讨论】:
标签: javascript web-scraping imacros data-extraction