访问文件时 TPath 忽略大小写 [Java TrueZip]答案

【问题标题】：TPath ignore case when accessing file [Java TrueZip]访问文件时 TPath 忽略大小写 [Java TrueZip]
【发布时间】：2017-03-18 19:56:59
【问题描述】：

有没有办法在使用 TrueZip 忽略文件名大小写的同时访问存档中的文件？

想象一下以下带有内容的 zip 存档：

MyZip.zip
-> myFolder/tExtFile.txt
-> anotherFolder/TextFiles/file.txt
-> myFile.txt
-> anotherFile.txt
-> OneMOREfile.txt

这就是它的工作原理：

TPath tPath = new TPath("MyZip.zip\\myFolder\\tExtFile.txt");
System.out.println(tPath.toFile().getName()); //prints tExtFile.txt

如何做同样的事情但忽略所有大小写，像这样：

// note "myFolder" changed to "myfolder" and "tExtFile" to "textfile"    
TPath tPath = new TPath("MyZip.zip\\myfolder\\textfile.txt");
System.out.println(tPath.toFile().getName()); // should print tExtFile.txt

上面的代码抛出FsEntryNotFoundException ... (no such entry)

它适用于普通的 java.io.File，不确定为什么不适用于 TrueZip 的 TFile，否则我错过了什么？

我的目标是仅使用小写的文件和文件夹来访问每个文件。

编辑：24-03-2017

假设我想从提到的 zip 存档 MyZip.zip 中的文件中读取字节

Path tPath = new TPath("...MyZip.zip\\myFolder\\tExtFile.txt");
byte[] bytes = Files.readAllBytes(tPath); //returns bytes of the file

上面的这个 sn-p 有效，但下面的这个无效（提到的抛出 -> FsEntryNotFoundException）。路径和文件相同，只是小写。

Path tPath = new TPath("...myzip.zip\\myfolder\\textfile.txt");
byte[] bytes = Files.readAllBytes(tPath);

【问题讨论】：

您正在开发什么平台（操作系统）？而且，以防万一存在差异，哪个工具生成了有问题的 ZIP 文件？我问这个问题是因为对我来说，这个 sn-p 总是打印我输入的内容，即使 ZIP 文件中的 ZIP 文件或路径根本不存在。所以可能你有更多的代码并且错误发生在其他地方。请分享SSCCE，而不仅仅是sn-ps。
感谢您的回复。我在 Windows 平台上工作。 zip 存档没有问题，因为它不适用于我迄今为止尝试的每个存档。正如我在帖子中提到的，我想执行小写选择。如果您可以尝试一下，请将路径中的任何字符替换为大写字母，它将不起作用。 .....\\myFolderInsideZip\\... 为.....\\myfolderinsidezip\\...
什么不起作用？正如我所说，仅实例化 TPath 将适用于任何路径，甚至是不存在的路径（至少在 TrueZIP 7.7.9 中）。我想看看你以后如何使用TPath 以及实际上什么不起作用。请尊重我的第一条评论并提供更多背景信息。这里的人不喜欢猜测（所以不是智力竞赛节目），我们想有效地提供帮助。
你刚刚添加的正是缺少的！正如我所说：您最初发布的代码不会引发任何异常。语句Files.readAllBytes(tPath) 是触发异常的原因！！！如果您隐藏导致您的问题的陈述，您如何期望和回答？现在至少我可以回答了。当我谈到 SSCCE 时，您可能一开始就听我的。请学习how to ask a question on SO。谢谢。

标签： java case truezip

【解决方案1】：

你说：

我的目标是仅对文件和文件夹使用小写字母来访问每个文件。

但一厢情愿的想法不会让你走得太远。事实上，大多数文件系统（Windows 类型除外）都是区分大小写的，即在它们中使用大写或小写字符会产生很大的不同。在那里，您甚至可以在同一目录中多次使用不同大小写的“相同”文件名。 IE。如果名称是file.txt、File.txt 或file.TXT，它实际上会有所不同。 Windows 在这里确实是一个例外，但 TrueZIP 不模拟 Windows 文件系统，而是模拟适用于所有平台上的 ZIP、TAR 等的通用存档文件系统。因此，您无法选择是使用大写还是小写字符，但您必须完全按照 ZIP 存档中存储的方式使用它们。

更新：作为一个小证据，我登录到一个带有 extfs 文件系统的远程 Linux 机器并这样做了：

~$ mkdir test
~$ cd test
~/test$ touch file.txt
~/test$ touch File.txt
~/test$ touch File.TXT
~/test$ ls -l
total 0
-rw-r--r-- 1 group user 0 Mar 25 00:14 File.TXT
-rw-r--r-- 1 group user 0 Mar 25 00:14 File.txt
-rw-r--r-- 1 group user 0 Mar 25 00:14 file.txt

您可以清楚地看到，有三个不同的文件，而不仅仅是一个。

如果将这三个文件压缩到存档中会发生什么？

~/test$ zip ../files.zip *
  adding: File.TXT (stored 0%)
  adding: File.txt (stored 0%)
  adding: file.txt (stored 0%)

添加了三个文件。但是它们仍然是存档中的不同文件还是仅以一个名称存储？

~/test$ unzip -l ../files.zip
Archive:  ../files.zip
  Length      Date    Time    Name
---------  ---------- -----   ----
        0  2017-03-25 00:14   File.TXT
        0  2017-03-25 00:14   File.txt
        0  2017-03-25 00:14   file.txt
---------                     -------
        0                     3 files

“3 个文件”，上面写着 - quod erat demostrandum。

如您所见，Windows 并不是整个世界。但是，如果您将该存档复制到 Windows 机器并在那里解压缩，它只会将一个文件写入具有 NTFS 或 FAT 文件系统的磁盘 - 这是一个运气问题。如果三个文件的内容不同，那就太糟糕了。

更新 2： 好的，TrueZIP 中没有解决方案，原因如上所述，但如果你想解决它，你可以像这样手动完成：

package de.scrum_master.app;

import de.schlichtherle.truezip.nio.file.TPath;

import java.io.IOException;
import java.net.URISyntaxException;
import java.nio.file.Files;

public class Application {
  public static void main(String[] args) throws IOException, URISyntaxException {
    TPathHelper tPathHelper = new TPathHelper(
      new TPath(
        "../../../downloads/powershellarsenal-master.zip/" +
          "PowerShellArsenal-master\\LIB/CAPSTONE\\LIB\\X64\\LIBCAPSTONE.DLL"
      )
    );
    TPath caseSensitivePath = tPathHelper.getCaseSensitivePath();
    System.out.printf("Original path: %s%n", tPathHelper.getOriginalPath());
    System.out.printf("Case-sensitive path: %s%n", caseSensitivePath);
    System.out.printf("File size: %,d bytes%n", Files.readAllBytes(caseSensitivePath).length);
  }
}

package de.scrum_master.app;

import de.schlichtherle.truezip.file.TFile;
import de.schlichtherle.truezip.nio.file.TPath;

import java.io.IOException;
import java.net.URISyntaxException;
import java.nio.file.Path;

public class TPathHelper {
  private final TPath originalPath;
  private TPath caseSensitivePath;

  public TPathHelper(TPath tPath) {
    originalPath = tPath;
  }

  public TPath getOriginalPath() {
    return originalPath;
  }

  public TPath getCaseSensitivePath() throws IOException, URISyntaxException {
    if (caseSensitivePath != null)
      return caseSensitivePath;
    final TPath absolutePath = new TPath(originalPath.toFile().getCanonicalPath());
    TPath matchingPath = absolutePath.getRoot();
    for (Path subPath : absolutePath) {
      boolean matchFound = false;
      for (TFile candidateFile : matchingPath.toFile().listFiles()) {
        if (candidateFile.getName().equalsIgnoreCase(subPath.toString())) {
          matchFound = true;
          matchingPath = new TPath(matchingPath.toString(), candidateFile.getName());
          break;
        }
      }
      if (!matchFound)
        throw new IOException("element '" + subPath + "' not found in '" + matchingPath + "'");
    }
    caseSensitivePath = matchingPath;
    return caseSensitivePath;
  }
}

当然，这有点难看，如果存档中有多个不区分大小写的匹配项，它只会为您提供第一个匹配路径。该算法将在每个子目录中的第一个匹配项之后停止搜索。我对这个解决方案并不特别自豪，但这是一个很好的练习，你似乎坚持要这样做。我只是希望您永远不会遇到在区分大小写的文件系统上创建并包含多个可能匹配项的 UNIX 样式 ZIP 存档。

顺便说一句，我的示例文件的控制台日志如下所示：

Original path: ..\..\..\downloads\powershellarsenal-master.zip\PowerShellArsenal-master\LIB\CAPSTONE\LIB\X64\LIBCAPSTONE.DLL
Case-sensitive path: C:\Users\Alexander\Downloads\PowerShellArsenal-master.zip\PowerShellArsenal-master\Lib\Capstone\lib\x64\libcapstone.dll
File size: 3.629.294 bytes

【讨论】：

更新了 Linux 文件系统和 zip 存档示例。
当然可以，但是，这能以某种方式解决我的问题吗？在仅限 Windows 中，如果已经存在，则无法创建具有相同字符序列的相同文件或文件夹。因此，无论大小写如何，TPath 都应该指向同一个文件，忽略大小写，就像 NIO.2 对本地文件所做的那样。 TPath 没有。正如我在拒绝编辑我的问题中提到的那样，路径不区分大小写，它访问存档中的文件，因此您可以使用 myzip.zip 而不是 myZip.zip 和之前的所有内容，例如：C:\\program files\\....but不是 textfile.txt 而不是 Textfile.txt 在 zip 中。
你不明白，是吗？ myFile.zip 之前的所有内容都在 Windows 文件系统中，之后的所有内容都在虚拟 ZIP 文件系统中。前者不区分大小写，后者不区分大小写。正如我所说，一厢情愿并不会改变文件系统。恕我直言，问题就在 PC 面前。您不喜欢答案的事实并不能证明它是伪造的。
更新 2：我为您创建了一个解决方法。幸运的是，我度过了一个无聊的周日下午，无事可做，等待客人到来。 ;-)
重构：(a) 匹配算法现在更短、更简单。 (b) 日志记录现在发生在应用程序类中，不再发生在助手类中。 (c) Helper 现在可以模拟测试，不再依赖静态方法。 (d) 转换为区分大小写的路径现已缓存，不再需要多次搜索文件系统+ZIP文件。

【解决方案2】：

我没有安装 TrueZip 但我也想知道它在正常的Path 下如何工作，所以我以与@kriegaex 非常相似的方式实现了以下解决方案，您可以尝试使用caseCheck(path):

public class Main {

    /**
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {

        Path path = Paths.get("/home/user/workspace/JParser/myfolder/yourfolder/Hisfolder/a.txt");

        Instant start = Instant.now();
        Path resolution;
        try{
            resolution = caseCheck(path);
        }catch (Exception e) {
            throw new IllegalArgumentException("Couldnt access given path", e);
        }
        Instant end = Instant.now();

        Duration duration = Duration.between(start, end);

        System.out.println("Path is: " + resolution + " process took " + duration.toMillis() + "ms");

    }

    /**
     * @param path
     * @return
     * @throws IOException
     */
    private static Path caseCheck(Path path) throws IOException {

        Path entryPoint = path.isAbsolute() ? path.getRoot() : Paths.get(".");
        AtomicInteger counter = new AtomicInteger(0);
        while (counter.get() < path.getNameCount()) {
            entryPoint = Files
                    .walk(entryPoint, 1)
                    .filter(s -> checkPath(s, path, counter.get()))
                    .findFirst()
                    .orElseThrow(()->new IllegalArgumentException("No folder found"));

            counter.getAndIncrement();

        }

        return entryPoint;

    }

    /**
     * @param s
     * @param path
     * @param index
     * @return
     */
    private static final boolean checkPath(Path s, Path path, int index){
        if (s.getFileName() == null) {
            return false;
        }
        return s.getFileName().toString().equalsIgnoreCase(path.getName(index).toString());
    }
}

【讨论】：

这实际上是一种优雅的方法。不幸的是，Files.walk(..) 在 TrueZIP 文件系统中不起作用，如TRUEZIP-368 中所述。
哦，这也是我周日的编码：）至少我现在知道如何检查区分大小写的文件夹
我玩过 TrueZIP，修复了票证中的错误。然后我注意到，当真正使用Files.walk时，在大文件系统中启动时非常慢，因为它不会跳过不相关的文件或目录而是访问所有它们，你只能在之后过滤。更糟糕的是，如果一个目录包含许多 ZIP 文件，它们也会被递归访问。为了优化，我不得不将Files.walkFileTree 与我自己的优化FileVisitor 实现一起使用。这很快，但walkFileTree 不会发出流，所以也不好。
Java NIO API 中似乎缺少的是遍历树、发出路径流并同时过滤要访问的文件和目录的选项。设计的 API 似乎不能满足这个简单的要求。或者您知道除了使用特殊库或自己从头开始实现所有内容之外的可行替代方案吗？
@kriegaex 是的，我正在考虑 FileVisitor，但我很懒惰:) 你尝试过使用深度 1 参数吗？然后 Files.walk 不会访问子目录/压缩包。为了快速访问当前目录，我已经添加到流第一个过滤器，好吧，现在不是星期天，而是创建一个流提供者或包装器，我可以考虑使用 Stream.builder() 或 Stream.generate() 但生成是无限的所以你需要使用 limint(x) 调用