Bash 中的进程池
Process pool in Bash
我正在尝试获得一个 for
循环,该循环将仅根据规则列表执行线程化波动性 yara 扫描模块。每个核心每个规则扫描一次。基本上它应该采用当前 vol.py 进程数 运行ning 并检查核心计数并最大化进程 运行ning.
然而,当我 运行 这样做时,它会为每个规则产生一个波动过程,而不仅仅是最大的 4 个(基于我的核心计数)。任何有关此处语法的帮助都会很棒。
目前我有这个:
count=$(ps aux | grep vol.py | wc -l)
cores=$(cat /proc/cpuinfo | grep processor | wc -l)
for x in $(cat $rules_path/rules.txt)
do
if [ $count -lt $cores ]; then # we are under the limit
echo $x
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp --profile=Win7SP1x64 yarascan --yara-file=$rules_path/allrules/$x --output=text --output-file=$out_dir/$x.log &>/home/$name/Desktop/error.txt &
else
wait
fi
done
您的方法可以奏效,例如:
cores=$(cat /proc/cpuinfo | grep processor | wc -l)
count=$(ps aux | grep vol.py | wc -l)
for x in $(cat $rules_path/rules.txt)
do
if [ $count -lt $cores ]; then # we are under the limit
echo $x
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp --profile=Win7SP1x64 yarascan --yara-file=$rules_path/allrules/$x --output=text --output-file=$out_dir/$x.log &>/home/$name/Desktop/error.txt &
count=$(ps aux | grep vol.py | wc -l)
else
wait -n
fi
done
我改变的是:
- 每次我们添加一个进程时重新计算
count
wait -n
-- 等待一个作业结束
不过,有更简单的方法可以实现这一点。一种是 xargs --max-procs
:
cat $rules_path/rules.txt | xargs --max-procs="$cores" -n1 call_volatility
... 其中 call_volatility
是这样的脚本:
#!/bin/bash
x=
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp \
--profile=Win7SP1x64 yarascan \
--yara-file=$rules_path/allrules/$x \
--output=text \
--output-file=$out_dir/$x.log \
&>/home/$name/Desktop/error.txt
这两种方法都不能保证进程将在您的核心之间均匀分布。
您可以使用来自 GNU parallel 的 sem
轻松完成此操作:
for x in $(cat "$rules_path/rules.txt")
do
sem -j +0 vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp \
--profile=Win7SP1x64 yarascan --yara-file="$rules_path/allrules/$x" \
--output=text --output-file="$out_dir/$x.log" \
&> "/home/$name/Desktop/error.txt"
done
您不必计算内核数或管理进程。 sem
处理一切,每个核心运行一个进程。
我正在尝试获得一个 for
循环,该循环将仅根据规则列表执行线程化波动性 yara 扫描模块。每个核心每个规则扫描一次。基本上它应该采用当前 vol.py 进程数 运行ning 并检查核心计数并最大化进程 运行ning.
然而,当我 运行 这样做时,它会为每个规则产生一个波动过程,而不仅仅是最大的 4 个(基于我的核心计数)。任何有关此处语法的帮助都会很棒。
目前我有这个:
count=$(ps aux | grep vol.py | wc -l)
cores=$(cat /proc/cpuinfo | grep processor | wc -l)
for x in $(cat $rules_path/rules.txt)
do
if [ $count -lt $cores ]; then # we are under the limit
echo $x
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp --profile=Win7SP1x64 yarascan --yara-file=$rules_path/allrules/$x --output=text --output-file=$out_dir/$x.log &>/home/$name/Desktop/error.txt &
else
wait
fi
done
您的方法可以奏效,例如:
cores=$(cat /proc/cpuinfo | grep processor | wc -l)
count=$(ps aux | grep vol.py | wc -l)
for x in $(cat $rules_path/rules.txt)
do
if [ $count -lt $cores ]; then # we are under the limit
echo $x
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp --profile=Win7SP1x64 yarascan --yara-file=$rules_path/allrules/$x --output=text --output-file=$out_dir/$x.log &>/home/$name/Desktop/error.txt &
count=$(ps aux | grep vol.py | wc -l)
else
wait -n
fi
done
我改变的是:
- 每次我们添加一个进程时重新计算
count
wait -n
-- 等待一个作业结束
不过,有更简单的方法可以实现这一点。一种是 xargs --max-procs
:
cat $rules_path/rules.txt | xargs --max-procs="$cores" -n1 call_volatility
... 其中 call_volatility
是这样的脚本:
#!/bin/bash
x=
vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp \
--profile=Win7SP1x64 yarascan \
--yara-file=$rules_path/allrules/$x \
--output=text \
--output-file=$out_dir/$x.log \
&>/home/$name/Desktop/error.txt
这两种方法都不能保证进程将在您的核心之间均匀分布。
您可以使用来自 GNU parallel 的 sem
轻松完成此操作:
for x in $(cat "$rules_path/rules.txt")
do
sem -j +0 vol.py -f /home/cuckoo/.cuckoo/storage/analyses/12/memory.dmp \
--profile=Win7SP1x64 yarascan --yara-file="$rules_path/allrules/$x" \
--output=text --output-file="$out_dir/$x.log" \
&> "/home/$name/Desktop/error.txt"
done
您不必计算内核数或管理进程。 sem
处理一切,每个核心运行一个进程。