【问题标题】:how to wait wget finished to get more resources如何等待 wget 完成以获取更多资源
【发布时间】:2018-01-19 13:44:28
【问题描述】:

我是 bash 新手。

我想并行获取一些资源。

以下代码有什么问题:

for item in $list
do
  if [ $i -le 10 ];then
    wget -b $item
    let "i++"
  else
    wait
    i=1
  fi

当我执行这个 shell 时。抛出的错误:

fork: Resource temporarily unavailable

我的问题是如何正确使用 wget。

编辑:

我的问题是大约有四千个 url 要下载,如果我让所有这些工作并行工作,fork: Resource 暂时不可用将被抛出。我不知道如何控制并行计数。

【问题讨论】:

  • wget -b $item 在前台启动 wget。使用wget -b $item & 在后台启动并允许并行化。请注意,变量 i 看起来未初始化...
  • 请注意,GNU parallel 实用程序可以满足您的需求以及更多功能。
  • wget "$item" &(而不是wget -b)也可以在后台运行wget;这样,bash 知道它的背景,您可以使用jobs 来查看/控制。我个人更喜欢curllftp;我很少使用wget
  • @RenaudPacalet 在我花了一些时间之后,我发现我只需要将 wget -b $item 更改为 wget $item &。是的,就是你刚才说的。那么-b&有什么区别

标签: bash wget


【解决方案1】:

使用jobs|grep检查后台作业:

#!/bin/bash

urls=('www.cnn.com' 'www.wikipedia.org')  ## input data

for ((i=-1;++i<${#urls[@]};)); do
  curl -L -s ${urls[$i]} >file-$i.html &  ## background jobs
done

until [[ -z `jobs|grep -E -v 'Done|Terminated'` ]]; do
  sleep 0.05; echo -n '.'                 ## do something while waiting
done

echo; ls -l file*\.html                   ## list downloaded files

结果:

............................
-rw-r--r-- 1 xxx xxx 155421 Jan 20 00:50 file-0.html
-rw-r--r-- 1 xxx xxx  74711 Jan 20 00:50 file-1.html

另一个变化,简单并行的任务:

#!/bin/bash

urls=('www.yahoo.com' 'www.hotmail.com' 'stackoverflow.com')

_task1(){                                  ## task 1: download files
  for ((i=-1;++i<${#urls[@]};)); do
    curl -L -s ${urls[$i]} >file-$i.html &
  done; wait
}
_task2(){ echo hello; }                    ## task 2: a fake task
_task3(){ echo hi; }                       ## task 3: a fake task

_task1 & _task2 & _task3 &                 ## run them in parallel
wait                                       ## and wait for them

ls -l file*\.html                          ## list results of all tasks
echo done                                  ## and do something

结果:

hello
hi
-rw-r--r-- 1 xxx xxx 320013 Jan 20 02:19 file-0.html
-rw-r--r-- 1 xxx xxx   3566 Jan 20 02:19 file-1.html
-rw-r--r-- 1 xxx xxx 253348 Jan 20 02:19 file-2.html
done

限制一次并行下载的数量(最大=3)的示例:

#!/bin/bash

m=3                                            ## max jobs (downloads) at a time
t=4                                            ## retries for each download

_debug(){                                      ## list jobs to see (debug)
  printf ":: jobs running: %s\n" "$(echo `jobs -p`)"
}

## sample input data
## is redirected to filehandle=3
exec 3<<-EOF
www.google.com google.html
www.hotmail.com hotmail.html
www.wikipedia.org wiki.html
www.cisco.com cisco.html
www.cnn.com cnn.html
www.yahoo.com yahoo.html
EOF

## read data from filehandle=3, line by line
while IFS=' ' read -u 3 -r u f || [[ -n "$f" ]]; do
  [[ -z "$f" ]] && continue                  ## ignore empty input line
  while [[ $(jobs -p|wc -l) -ge "$m" ]]; do  ## while $m or more jobs in running
    _debug                                   ## then list jobs to see (debug)
    wait -n                                  ## and wait for some job(s) to finish
  done
  curl --retry $t -Ls "$u" >"$f" &           ## download in background
  printf "job %d: %s => %s\n" $! "$u" "$f"   ## print job info to see (debug)
done

_debug; wait; ls -l *\.html                  ## see final results

输出:

job 22992: www.google.com => google.html
job 22996: www.hotmail.com => hotmail.html
job 23000: www.wikipedia.org => wiki.html
:: jobs running: 22992 22996 23000
job 23022: www.cisco.com => cisco.html
:: jobs running: 22996 23000 23022
job 23034: www.cnn.com => cnn.html
:: jobs running: 23000 23022 23034
job 23052: www.yahoo.com => yahoo.html
:: jobs running: 23000 23034 23052
-rw-r--r-- 1 xxx xxx  61473 Jan 21 01:15 cisco.html
-rw-r--r-- 1 xxx xxx 155055 Jan 21 01:15 cnn.html
-rw-r--r-- 1 xxx xxx  12514 Jan 21 01:15 google.html
-rw-r--r-- 1 xxx xxx   3566 Jan 21 01:15 hotmail.html
-rw-r--r-- 1 xxx xxx  74711 Jan 21 01:15 wiki.html
-rw-r--r-- 1 xxx xxx 319967 Jan 21 01:15 yahoo.html

看了你更新的问题,我觉得用lftp方便多了,可以登录下载(自动follow-link+retry-download+continue-download);你永远不需要担心作业/分叉资源,因为你只运行几个 lftp 命令。只需将您的下载列表分成一些较小的列表,lftp 就会为您下载:

$ cat downthemall.sh 
#!/bin/bash

## run: lftp -c 'help get'
## to know how to use lftp to download files
## with automatically retry+continue

p=()                                     ## pid list

for l in *\.lst; do
  lftp -f "$l" >/dev/null &              ## run proccesses in parallel
  p+=("--pid=$!")                        ## record pid
done

until [[ -f d.log ]]; do sleep 0.5; done ## wait for the log file
tail -f d.log ${p[@]}                    ## print results when downloading

输出:

$ cat 1.lst 
set xfer:log true
set xfer:log-file d.log
get -c http://www.microsoft.com -o micro.html
get -c http://www.cisco.com     -o cisco.html
get -c http://www.wikipedia.org -o wiki.html

$ cat 2.lst 
set xfer:log true
set xfer:log-file d.log
get -c http://www.google.com    -o google.html
get -c http://www.cnn.com       -o cnn.html
get -c http://www.yahoo.com     -o yahoo.html

$ cat 3.lst 
set xfer:log true
set xfer:log-file d.log
get -c http://www.hp.com        -o hp.html
get -c http://www.ibm.com       -o ibm.html
get -c http://stackoverflow.com -o stack.html

$  rm *log *html;./downthemall.sh
2018-01-22 02:10:13 http://www.google.com.vn/?gfe_rd=cr&dcr=0&ei=leVkWqiOKfLs8AeBvqBA -> /tmp/1/google.html 0-12538 103.1 KiB/s
2018-01-22 02:10:13 http://edition.cnn.com/ -> /tmp/1/cnn.html 0-153601 362.6 KiB/s
2018-01-22 02:10:13 https://www.microsoft.com/vi-vn/ -> /tmp/1/micro.html 0-129791 204.0 KiB/s
2018-01-22 02:10:14 https://www.cisco.com/ -> /tmp/1/cisco.html 0-61473 328.0 KiB/s
2018-01-22 02:10:14 http://www8.hp.com/vn/en/home.html -> /tmp/1/hp.html 0-73136 92.2 KiB/s
2018-01-22 02:10:14 https://www.ibm.com/us-en/ -> /tmp/1/ibm.html 0-32700 131.4 KiB/s
2018-01-22 02:10:15 https://vn.yahoo.com/?p=us -> /tmp/1/yahoo.html 0-318657 208.4 KiB/s
2018-01-22 02:10:15 https://www.wikipedia.org/ -> /tmp/1/wiki.html 0-74711 60.7 KiB/s
2018-01-22 02:10:16 https://stackoverflow.com/ -> /tmp/1/stack.html 0-253033 180.8

【讨论】:

  • 感谢您的回答,我的问题是大约有四千个 url 要下载,如果我让所有这些工作并行工作,fork: Resource temporarily unavailable 将被淘汰。我不知道如何控制并行计数。
  • 如果要并行下载10个,那么并行运行10个任务,每个任务依次下载一个文件列表;但是,如果你真的要下载那么多文件,我建议使用全功能下载器,而不是 bash 脚本
  • 我怎样才能做到这一点,对不起,我对shell脚本真的很陌生。
  • 我添加了另一个示例,其中 max=3 个文件同时下载。
【解决方案2】:

有了更新的问题,这里有一个更新的答案。

以下脚本在后台启动 10 个(可以更改为任意数量)wget 进程并监视它们。一旦其中一个进程完成,它会获取列表中的下一个进程并尝试保持相同的$maxn(10) 进程在后台运行,直到它用完列表中的 url ($urlfile)。有内联的 cmets 可以帮助理解。

$ cat wget.sh
#!/bin/bash

wget_bg()
{
    > ./wget.pids # Start with empty pidfile
    urlfile="$1"
    maxn=$2
    cnt=0;
    while read -r url
    do
        if [ $cnt -lt $maxn ] && [ ! -z "$url" ]; then # Only maxn processes will run in the background
            echo -n "wget $url ..."
            wget "$url" &>/dev/null &
            pidwget=$! # This gets the backgrounded pid
            echo "$pidwget" >> ./wget.pids # fill pidfile
            echo "pid[$pidwget]"
            ((cnt++));
        fi
        while [ $cnt -eq $maxn ] # Start monitoring as soon the maxn process hits
        do
            while read -r pids
            do
                if ps -p $pids > /dev/null; then # Check pid running
                  :
                else
                  sed -i "/$pids/d" wget.pids # If not remove it from pidfile
                  ((cnt--)); # decrement counter
                fi
            done < wget.pids
        done
    done < "$urlfile"
}    
# This runs 10 wget processes at a time in the bg. Modify for more or less.
wget_bg ./test.txt 10 

运行:

$ chmod u+x ./wget.sh 
$ ./wget.sh
wget blah.com ...pid[13012]
wget whatever.com ...pid[13013]
wget thing.com ...pid[13014]
wget foo.com ...pid[13015]
wget bar.com ...pid[13016]
wget baz.com ...pid[13017]
wget steve.com ...pid[13018]
wget kendal.com ...pid[13019]

【讨论】:

  • 我认为 OP 想要并行下载东西。
  • 如果您希望所有进程针对不同的 url 并行运行,不知道为什么要等待。
  • 我认为OP想要在等待所有文件下载的同时做一些事情,而不是等待什么都不做;然后他/她将在所有文件下载后处理文件。并行下载会更快,尤其是从不同来源下载时。
  • 理想情况下,应该检查文件是否下载成功;但是,这是另一回事,而不是并行技术。我认为这个问题是关于并行性的,因此,按顺序下载文件并不是真正的答案。
  • 我认为 OP 的问题和示例需要比现在更加清晰。
【解决方案3】:

在你的 if 语句中添加这个:

until wget -b $item do
    printf '.'
    sleep 2
done

循环将等待进程完成并打印一个“。”每2秒

【讨论】:

  • 这将重试wget直到它成功,而不是打印.s直到单个实例完成。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-02-07
  • 2018-02-24
  • 1970-01-01
  • 2022-01-15
  • 2010-11-18
相关资源
最近更新 更多