perl python文本处理_awk, python, perl文本处理效率对比(zz)
轉(zhuǎn)載,比較結(jié)果不一定正確,比較設(shè)計(jì)不一定科學(xué).
以下3個(gè)文件依次是用python、awk和perl寫的腳本,做同一件事情:
diff.sh f1 f2
f1和f2每一行的第一個(gè)字段(以空格分割)為key,如果f2某一行的key在f1中不存在,則輸出f2該行。
比如:
a.dat的內(nèi)容是
1 a
2 a
b.dat的內(nèi)容是
1 b
3 b
那么diff.sh a.dat b.dat則輸出
3 b
代碼:
#!/usr/bin/python
import sys
if len(sys.argv) != 3:
print "Usage: " + sys.argv[0] + "file1 file2";
sys.exit(-1);
file1 = sys.argv[1]
file2 = sys.argv[2]
list1 = {};
for line in open(file1):
list1[line.split()[0]] = 1;
for line in open(file2):
key = line.split()[0];
if key not in list1:
sys.stdout.write(line)
#!/bin/sh
if [[ $# < 2 ]];then
echo "Usage: $0 file1 file2"
exit
fi
function do_diff()
{
if [[ $# < 2 ]];then
echo "Usage: $0 file1 file2"
return 1
fi
if [[ ! -f $1 ]];then
echo "$1 is not file"
return 2
fi
if [[ ! -f $2 ]];then
echo "$2 is not file"
return 3
fi
awk '
BEGIN{FS=OFS=" "}
ARGIND == 1 {
arr[$1] = 1;
}
ARGIND == 2 {
if (!($1 in arr)) {
print $0;
}
}
' $1 $2
}
do_diff $1 $2
#!/usr/bin/perl -w
exit if (1 > $#ARGV);
my %map_orig;
my $file_orig = shift @ARGV;
open FH, "
while () {
chomp;
#$map_orig{$_} = 1;
my ($filed) = split /\s+/;
$map_orig{$filed} = 1;
}
close (FH);
my $file_diff = shift @ARGV;
open FH, "
while () {
chomp;
my ($filed) = split /\s+/;
print "$_\n" if (!defined$map_orig{$filed});
}
close (FH)
測(cè)試方法:time diff.xx f1 f2 > out
測(cè)試文件f1有107375330行,每一行格式為:
key value(兩個(gè)字段)
文件大小為2.2G
f2有473951行,每一行的格式也是:
key value(兩字段)
文件大小為5.9M
測(cè)試結(jié)果:
diff.py的時(shí)間為3m24.687s = 205s
diff.sh的時(shí)間為3m39.762s = 220s
diff.pl的時(shí)間為5m49.478s = 349s
結(jié)果顯示awk和python的性能差不多,perl則要明顯差些。看來python的dict優(yōu)化得很好,居然能趕上awk的性能,很出乎我的意料。
總結(jié)
以上是生活随笔為你收集整理的perl python文本处理_awk, python, perl文本处理效率对比(zz)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 矩阵迹的性质_矩阵(含逆)的迹、行列式关
- 下一篇: python列表解析式如何使用_pyth