python 文件内容操作,如一个文件100万条数据,查询相同行数
发布网友
发布时间:2022-04-26 23:33
我来回答
共5个回答
热心网友
时间:2022-04-18 06:18
使用open函数逐行读取文件,依次对比,如包含要求字符串,则数量累加1,读取完成后可统计出行数,代码如下:
n = 0
for line in open('filename','r'):
if '固定字符串' in line:
n += 1
print(n)
说明:
使用 for line in open这种方式可以提高代码效率,如需要更复杂统计,例如重复行,则可以使用hash函数,把行hash值存入列表,再做统计。
热心网友
时间:2022-04-18 07:36
100万条,还是不是很大。建议用C语言。把100万条加载到内存里,然后字符串依次比较,也是很快的。具体是先read到内存里,然后把每个回车统计一下,建立一个行首字符的索引。
正常的做法是做索引的。在生成记录时,自动将关键词索引造出来。查询时,只查询索引就可以了。
这样,即使是几千万条记录,查询也是很快。1,2,3就是一个关键词。
热心网友
时间:2022-04-18 09:10
我总感觉你这标题和内部描述不是一个问题,
不知道理解的对不对,执行如下代码(python2.X)
foid=open('文件名',‘r’) #打开你的文件;
fov=open('结果',‘w’) #考虑到结果可能比较多,写入文件比较好;
n=0
for line in foid:
if not line.find('1,2,3')==-1: #用find查找这一行中是否有目标字符串;
n=n+1 #如果有该字符串,计数
fov.write(line) #保存有这个字符串的那一行数据,如果结果不多可以直接print line
foid.close()
fov.close()
print n
这样就找出所以包含'1,2,3'这个字符串的数据了,n是含有这个字符串的行数,如果在循环内部执行print n,可以得到这个字符串都在第几行出现过
热心网友
时间:2022-04-18 11:02
文件过大,考虑数据库。当作字符处理很占内存的。
1、str.count
2、你可以用sqlite来加载这个文件。用select的方式去查总数
热心网友
时间:2022-04-18 13:10
CONDSTR = '1,2,3'
def match(ln, condstr=CONDSTR):
''' 指定的串是否在行中 '''
return condstr in ln
cnt = 0
with open(thesrcfile, 'rt') as handle:
for ln in handle:
if match(ln):
cnt += 1追问Warning: 'with' will become a reserved keyword in Python 2.6
File "W:\templet_ws\PythonTest\PyTest\readtxt1.py", line 11
with open('e:\log.txt','rt')as handle:
^
SyntaxError: invalid syntax
貌似不支持。。。