【问题标题】:How can I fix "TypeError: cannot serialize '_io.BufferedReader' object" error when trying to multiprocess尝试多进程时如何修复“TypeError:无法序列化'_io.BufferedReader'对象”错误
【发布时间】:2019-02-03 20:59:42
【问题描述】:

我正在尝试将代码中的线程切换为多处理以测量其性能,并希望获得更好的暴力破解潜力,因为我的程序旨在暴力破解受密码保护的 .zip 文件。但是每当我尝试运行程序时,我都会得到这个:

BruteZIP2.py -z "Generic ZIP.zip" -f  Worm.txt
Traceback (most recent call last):
  File "C:\Users\User\Documents\Jetbrains\PyCharm\BruteZIP\BruteZIP2.py", line 40, in <module>
    main(args.zip, args.file)
  File "C:\Users\User\Documents\Jetbrains\PyCharm\BruteZIP\BruteZIP2.py", line 34, in main
    p.start()
  File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\process.py", line 112, in start
self._popen = self._Popen(self)
  File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\context.py", line 223, in _Popen
return _default_context.get_context().Process._Popen(process_obj)
  File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\context.py", line 322, in _Popen
return Popen(process_obj)
  File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\popen_spawn_win32.py", line 65, in __init__
reduction.dump(process_obj, to_child)
  File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\multiprocessing\reduction.py", line 60, in dump
ForkingPickler(file, protocol).dump(obj)
TypeError: cannot serialize '_io.BufferedReader' object

我确实找到了与我有相同问题的线程,但它们都未得到答复/未解决。我还尝试在p.start() 上方插入Pool,因为我相信这是由于我使用的是基于Windows 的机器,但这没有帮助。我的代码如下:

  import argparse
  from multiprocessing import Process
  import zipfile

  parser = argparse.ArgumentParser(description="Unzips a password protected .zip by performing a brute-force attack using either a word list, password list or a dictionary.", usage="BruteZIP.py -z zip.zip -f file.txt")
  # Creates -z arg
  parser.add_argument("-z", "--zip", metavar="", required=True, help="Location and the name of the .zip file.")
  # Creates -f arg
  parser.add_argument("-f", "--file", metavar="", required=True, help="Location and the name of the word list/password list/dictionary.")
  args = parser.parse_args()


  def extract_zip(zip_file, password):
      try:
          zip_file.extractall(pwd=password)
          print(f"[+] Password for the .zip: {password.decode('utf-8')} \n")
      except:
          # If a password fails, it moves to the next password without notifying the user. If all passwords fail, it will print nothing in the command prompt.
          print(f"Incorrect password: {password.decode('utf-8')}")
          # pass


  def main(zip, file):
      if (zip == None) | (file == None):
          # If the args are not used, it displays how to use them to the user.
          print(parser.usage)
          exit(0)
      zip_file = zipfile.ZipFile(zip)
      # Opens the word list/password list/dictionary in "read binary" mode.
      txt_file = open(file, "rb")
      for line in txt_file:
          password = line.strip()
          p = Process(target=extract_zip, args=(zip_file, password))
          p.start()
          p.join()


  if __name__ == '__main__':
      # BruteZIP.py -z zip.zip -f file.txt.
      main(args.zip, args.file)

正如我之前所说,我相信这主要是因为我现在使用的是基于 Windows 的机器。我与其他一些基于 Linux 的机器上的人共享了我的代码,他们运行上面的代码没有问题。

我的主要目标是启动 8 个进程/池,以最大限度地增加尝试次数,与线程相比,但由于我无法修复 TypeError: cannot serialize '_io.BufferedReader' object 消息,我不确定在这里做什么以及我该如何继续修复它。任何帮助将不胜感激。

【问题讨论】:

    标签: python python-3.x windows multiprocessing pool


    【解决方案1】:

    文件句柄不能很好地序列化...但是您可以发送 zip 文件的 name 而不是 zip filehandle(一个字符串在进程之间可以序列化)。并避免 zip 作为您的文件名,因为它是内置的。我选择了zip_filename

    p = Process(target=extract_zip, args=(zip_filename, password))
    

    然后:

    def extract_zip(zip_filename, password):
          try:
              zip_file = zipfile.ZipFile(zip_filename)
              zip_file.extractall(pwd=password)
    

    另一个问题是您的代码不会因此而并行运行:

          p.start()
          p.join()
    

    p.join 等待进程完成...几乎没用。最后你必须将进程标识符存储到join它们。

    这可能会导致其他问题:并行创建太多进程可能对您的机器来说是个问题,并且在某些时候不会有太大帮助。请考虑使用multiprocessing.Pool 来限制工作人员的数量。

    简单的例子是:

    with multiprocessing.Pool(5) as p:
        print(p.map(f, [1, 2, 3, 4, 5, 6, 7]))
    

    适应你的例子:

    with multiprocessing.Pool(5) as p:
        p.starmap(extract_zip, [(zip_filename,line.strip()) for line in txt_file])
    

    starmap 将元组扩展为 2 个单独的参数以适合您的 extract_zip 方法,如 Python multiprocessing pool.map for multiple arguments 中所述)

    【讨论】:

    • 我尝试过池化,但我认为我的想法不正确。我确实在p.start() 上方添加了pool = Pool(8),但这可能不是这样做的方法,对吧?如果是这样,是否有很好的指南?
    • 那么我应该怎么做startjoin呢?我查找了来自各种来源的指南和一些文档,其中许多都是这样做的。我也确实查看了 Python 3 文档(特别是this part,但不确定如何在这里实现它,因为我的函数(extract_zip)中有 2 个参数。
    • 我假设with 部分会转到for line in txt_file 所在的位置?删除for 并放置with?
    • 是的,去掉循环,它在参数生成中完成
    • 我确实接受了您的回复和 cmets 并编辑了您告诉我的部分。结果我得到了this。当我尝试使用名为“Generic ZIP”的 ZIP 和带有 5 个数字(如 00001002143210987654321 等)的 .txt 运行它时,我仍然得到相同的 TypeError。不知道出了什么问题/为什么错误仍然存​​在,因为我删除了 p.start()p.join() 并将整个 for line in txt_file 替换为 with multiprocessing.Pool(5) as pool
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-07-23
    • 2020-11-25
    • 1970-01-01
    • 2020-03-05
    • 1970-01-01
    • 2019-05-26
    • 2016-07-23
    相关资源
    最近更新 更多