Bash 中的进程池

Process pool in Bash

我正在尝试获得一个 for 循环,该循环将仅根据规则列表执行线程化波动性 yara 扫描模块。每个核心每个规则扫描一次。基本上它应该采用当前 vol.py 进程数 运行ning 并检查核心计数并最大化进程 运行ning.

然而,当我 运行 这样做时,它会为每个规则产生一个波动过程,而不仅仅是最大的 4 个(基于我的核心计数)。任何有关此处语法的帮助都会很棒。

目前我有这个:

count=$(ps aux | grep vol.py | wc -l)
cores=$(cat /proc/cpuinfo | grep processor | wc -l)
for x in $(cat $rules_path/rules.txt)
do
  if [ $count -lt $cores ]; then # we are under the limit
     echo $x
     vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp --profile=Win7SP1x64 yarascan --yara-file=$rules_path/allrules/$x --output=text --output-file=$out_dir/$x.log &>/home/$name/Desktop/error.txt & 
  else
     wait
  fi
done

您的方法可以奏效,例如:

cores=$(cat /proc/cpuinfo | grep processor | wc -l)
count=$(ps aux | grep vol.py | wc -l)
for x in $(cat $rules_path/rules.txt)
do
  if [ $count -lt $cores ]; then # we are under the limit
     echo $x
     vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp --profile=Win7SP1x64 yarascan --yara-file=$rules_path/allrules/$x --output=text --output-file=$out_dir/$x.log &>/home/$name/Desktop/error.txt & 
     count=$(ps aux | grep vol.py | wc -l)
  else
     wait -n
  fi
done

我改变的是:

  • 每次我们添加一个进程时重新计算count
  • wait -n -- 等待一个作业结束

不过,有更简单的方法可以实现这一点。一种是 xargs --max-procs:

cat $rules_path/rules.txt | xargs --max-procs="$cores" -n1 call_volatility 

... 其中 call_volatility 是这样的脚本:

#!/bin/bash
x=
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp \
     --profile=Win7SP1x64 yarascan \
     --yara-file=$rules_path/allrules/$x \
     --output=text \
     --output-file=$out_dir/$x.log \
     &>/home/$name/Desktop/error.txt

这两种方法都不能保证进程将在您的核心之间均匀分布。

您可以使用来自 GNU parallel 的 sem 轻松完成此操作:

for x in $(cat "$rules_path/rules.txt")
do
  sem -j +0 vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp \
      --profile=Win7SP1x64 yarascan --yara-file="$rules_path/allrules/$x" \
      --output=text --output-file="$out_dir/$x.log" \
         &> "/home/$name/Desktop/error.txt"
done

您不必计算内核数或管理进程。 sem 处理一切,每个核心运行一个进程。