[摘要]最近有一个小需求:在一个目录下有很多文件,每个文件的第一行是BEGIN开头的,最后一行是END开头的,中间每一行有多列,数量不等,第一列称为"DN", 第二列称为"CV...
最近有一个小需求:在一个目录下有很多文件,每个文件的第一行是BEGIN开头的,最后一行是END开头的,中间每一行有多列,数量不等,第一列称为"DN", 第二列称为"CV",DN和CV的联合作为主键,现在需要检测文件中是否有重复的DN-CV。
于是写了个简单的python程序
#! /usr/bin/python
import os
import sys
cmd = "cat /home/zhangj/hosts/* grep -v BEGIN grep -v END"
def check_dc_line():
has_duplicate = False
dc_set = set()
for dc_line in os.popen(cmd, 'r').readlines():
dc_token = dc_line.split()
dn = dc_token[0]
cv = dc_token[1]
dc = dn + "," + cv
if dc in dc_set:
print "duplicate dc found:", dc
has_duplicate = True
else:
dc_set.add(dc)
return has_duplicate
if not check_dc_line():
print "no duplicate dc"