【问题标题】:Java URL encoding of query string parameters查询字符串参数的 Java URL 编码
【发布时间】:2012-06-02 21:40:22
【问题描述】:

假设我有一个网址

http://example.com/query?q=

我有一个用户输入的查询,例如:

随机词 £500 银行 $

我希望结果是正确编码的 URL:

http://example.com/query?q=random%20word%20%A3500%20bank%20%24

实现这一目标的最佳方法是什么?我尝试了URLEncoder 并创建了 URI/URL 对象,但没有一个是完全正确的。

【问题讨论】:

标签: java http url encoding urlencode


【解决方案1】:

URLEncoder 是要走的路。您只需要记住编码 only 单个查询字符串参数名称和/或值,而不是整个 URL,确保不是查询字符串参数分隔符 & 也不是参数名称 -值分隔符=

String q = "random word £500 bank $";
String url = "https://example.com?q=" + URLEncoder.encode(q, StandardCharsets.UTF_8);

当您仍未使用 Java 10 或更高版本时,请使用 StandardCharsets.UTF_8.toString() 作为字符集参数,或者当您仍未使用 Java 7 或更高版本时,请使用 "UTF-8"


请注意,查询参数中的空格由+ 表示,而不是%20,这是合法有效的。 %20 通常用于表示 URI 本身中的空格(URI 查询字符串分隔符 ? 之前的部分),而不是查询字符串中的空格(? 之后的部分)。

还要注意,有三个encode() 方法。一个没有Charset 作为第二个参数,另一个没有String 作为第二个参数,这会引发检查异常。不推荐使用没有 Charset 参数的那个。永远不要使用它并始终指定 Charset 参数。 javadoc 甚至明确建议使用 UTF-8 编码,这是由 RFC3986W3C 强制要求的。

所有其他字符都是不安全的,首先使用某种编码方案将其转换为一个或多个字节。然后每个字节由 3 个字符的字符串“%xy”表示,其中 xy 是字节的两位十六进制表示。 推荐使用的编码方案是 UTF-8。但是,出于兼容性考虑,如果没有指定编码,则使用平台的默认编码。

另见:

【讨论】:

  • URL中可以有2种参数。查询字符串(后跟?)和路径参数(通常是 URL 本身的一部分)。那么,路径参数呢? URLEncoder 为空间生成 + 甚至路径参数。事实上,它只是不处理查询字符串以外的任何内容。此外,此行为与节点 js 服务器不同步。所以对我来说,这门课是一种浪费,只能用于非常具体/特殊的场景。
  • @sharadendusinha:正如记录和回答的那样,URLEncoder 用于 URL 编码的查询参数符合 application/x-www-form-urlencoded 规则。路径参数不属于此类别。你需要一个 URI 编码器。
  • 正如我预测的那样......用户会感到困惑,因为显然问题是人们需要编码的不仅仅是参数值。这是一种非常罕见的情况,您只需要对参数值进行编码。这就是为什么我提供我的“困惑”维基答案来帮助像@sharadendusinha 这样的人。
  • @WijaySharma:因为 URL 特定的字符也会被编码。仅当您想将整个 URL 作为另一个 URL 的查询参数传递时,才应该这样做。
  • " +, not %20" 是我需要听到的。非常感谢。
【解决方案2】:

我不会使用URLEncoder。除了被错误地命名(URLEncoder 与 URL 无关),效率低下(它使用 StringBuffer 而不是 Builder 并且做一些其他的很慢的事情)它也太容易搞砸了。

我会使用URIBuilderSpring's org.springframework.web.util.UriUtils.encodeQuery or Commons Apache HttpClient。 原因是您必须以不同于参数值的方式转义查询参数名称(即 BalusC 的答案q)。

上述唯一的缺点(我痛苦地发现)是URL's are not a true subset of URI's

示例代码:

import org.apache.http.client.utils.URIBuilder;

URIBuilder ub = new URIBuilder("http://example.com/query");
ub.addParameter("q", "random word £500 bank \$");
String url = ub.toString();

// Result: http://example.com/query?q=random+word+%C2%A3500+bank+%24

由于我只是链接到其他答案,因此我将其标记为社区 wiki。随意编辑。

【讨论】:

  • 为什么和 URL 无关?
  • @Luis: URLEncoder 正如其 javadoc 所说,旨在编码查询字符串参数符合application/x-www-form-urlencoded,如 HTML 规范中所述:w3.org/TR/html4/interact/…。一些用户确实混淆/滥用它来编码整个 URI,就像当前的回答者显然所做的那样。
  • @LuisSep in short URLEncoder 用于对表单提交进行编码。这不是为了逃避。它不是 exact 相同的转义,您将使用该转义来创建要放入您的网页的 URL,但恰好足够相似以至于人们滥用它。唯一应该使用 URLEncoder 的情况是在编写 HTTP 客户端时(即使这样,编码也有很多更好的选择)。
  • @BalusC "有些用户确实混淆/滥用它来编码整个 URI,就像当前的回答者显然所做的那样。"。你假设错了。我从来没有说过我搞砸了。我刚刚看到其他人已经做到了,我必须修复谁的错误。我搞砸的部分是 Java URL 类将接受非转义括号,但不接受 URI 类。有很多方法可以搞砸构建 URL,并不是每个人都像你一样聪明。我会说大多数在 SO 上寻找 URLEncoding 的用户可能是“用户确实混淆/滥用” URI 转义。
  • 问题与此无关,但您的回答暗示了这一点。
【解决方案3】:

Guava 15 现已添加a set of straightforward URL escapers

【讨论】:

  • 这些都受到与URLEncoder 相同的愚蠢转义规则的影响。
  • 不确定他们是否有问题。他们区分例如“+”或“%20”来转义“”(表单参数或路径参数),URLEncoder 没有。
  • 这对我有用我只是替换了对 URLEncoder() 的调用来调用 UrlEscapers.urlFragmentEscaper() 并且它有效,不清楚我是否应该使用 UrlEscapers.urlPathSegmentEscaper() 代替。
  • 实际上它对我不起作用,因为与 URLEncoder 不同,它不编码 '+' 它不理会它,服务器将 '+' 解码为空格,而如果我使用 URLEncoder '+' 将转换为 %2B 和正确解码回 +
  • 链接更新:UrlEscapers
【解决方案4】:

您需要先创建一个 URI,例如:

String urlStr = "http://www.example.com/CEREC® Materials & Accessories/IPS Empress® CAD.pdf"
URL url= new URL(urlStr);
URI uri = new URI(url.getProtocol(), url.getUserInfo(), url.getHost(), url.getPort(), url.getPath(), url.getQuery(), url.getRef());

然后将该 Uri 转换为 ASCII 字符串:

urlStr=uri.toASCIIString();

现在您的 url 字符串已完全编码,首先我们进行了简单的 url 编码,然后我们将其转换为 ASCII 字符串,以确保字符串中没有 US-ASCII 以外的字符。这正是浏览器所做的。

【讨论】:

  • 谢谢!您的解决方案有效,但内置 URL.toURI() 无效,这很愚蠢。
  • 不幸的是,这似乎不适用于“file:///”(例如:“file:///some/directory/a file contains spaces.html”);它在“new URL()”中使用 MalformedURLException 进行轰炸;知道如何解决这个问题吗?
  • @tibi 您可以简单地使用 uri.toString() 方法将其转换为字符串而不是 Ascii 字符串。
  • 我使用的 API 不接受 + 替换空格,但接受了 %20,所以这个解决方案比 BalusC 效果更好,谢谢!
  • 这是对 URL 的路径部分进行编码的正确方法。这不是对查询参数名称或值进行编码的正确方法,这就是问题所在。
【解决方案5】:

在android中我会使用这个代码:

Uri myUI = Uri.parse ("http://example.com/query").buildUpon().appendQueryParameter("q","random word A3500 bank 24").build();

其中Uriandroid.net.Uri

【讨论】:

  • 这不是使用标准的 Java API。所以请指定使用的库。
【解决方案6】:

Apache Http 组件库为构建和编码查询参数提供了一个简洁的选项 -

使用 HttpComponents 4.x 使用 - URLEncodedUtils

对于 HttpClient 3.x 使用 - EncodingUtil

【讨论】:

    【解决方案7】:

    您可以在代码中使用以下方法将 url 字符串和参数映射转换为包含查询参数的有效编码 url 字符串。

    String addQueryStringToUrlString(String url, final Map<Object, Object> parameters) throws UnsupportedEncodingException {
        if (parameters == null) {
            return url;
        }
    
        for (Map.Entry<Object, Object> parameter : parameters.entrySet()) {
    
            final String encodedKey = URLEncoder.encode(parameter.getKey().toString(), "UTF-8");
            final String encodedValue = URLEncoder.encode(parameter.getValue().toString(), "UTF-8");
    
            if (!url.contains("?")) {
                url += "?" + encodedKey + "=" + encodedValue;
            } else {
                url += "&" + encodedKey + "=" + encodedValue;
            }
        }
    
        return url;
    }
    

    【讨论】:

      【解决方案8】:
      1. 使用这个: URLEncoder.encode(query, StandardCharsets.UTF_8.displayName()); 或者这个:URLEncoder.encode(query, "UTF-8");
      2. 您可以使用以下代码。

        String encodedUrl1 = UriUtils.encodeQuery(query, "UTF-8");//not change 
        String encodedUrl2 = URLEncoder.encode(query, "UTF-8");//changed
        String encodedUrl3 = URLEncoder.encode(query, StandardCharsets.UTF_8.displayName());//changed
        
        System.out.println("url1 " + encodedUrl1 + "\n" + "url2=" + encodedUrl2 + "\n" + "url3=" + encodedUrl3);
        

      【讨论】:

      • 不正确。您必须分别对参数名称和值进行编码。编码整个查询字符串也会编码=&amp; 分隔符,这是不正确的。
      【解决方案9】:
      URL url= new URL("http://example.com/query?q=random word £500 bank $");
      URI uri = new URI(url.getProtocol(), url.getUserInfo(), IDN.toASCII(url.getHost()), url.getPort(), url.getPath(), url.getQuery(), url.getRef());
      String correctEncodedURL=uri.toASCIIString(); 
      System.out.println(correctEncodedURL);
      

      打印

      http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$
      

      这里发生了什么?

      1. 将 URL 拆分为结构部分。使用java.net.URL

      2.正确编码每个结构部分!

      3. 使用IDN.toASCII(putDomainNameHere)Punycode 编码主机名!

      4. 使用java.net.URI.toASCIIString() 进行百分比编码,NFC 编码的 unicode -(最好是 NFKC!)。欲了解更多信息,请参阅:How to encode properly this URL

      在某些情况下,建议使用check if the url is already encoded。还要用 '%20' 编码空格替换 '+' 编码空格。

      以下是一些也可以正常工作的示例

      {
            "in" : "http://نامه‌ای.com/",
           "out" : "http://xn--mgba3gch31f.com/"
      },{
           "in" : "http://www.example.com/‥/foo",
           "out" : "http://www.example.com/%E2%80%A5/foo"
      },{
           "in" : "http://search.barnesandnoble.com/booksearch/first book.pdf", 
           "out" : "http://search.barnesandnoble.com/booksearch/first%20book.pdf"
      }, {
           "in" : "http://example.com/query?q=random word £500 bank $", 
           "out" : "http://example.com/query?q=random%20word%20%C2%A3500%20bank%20$"
      }
      

      该解决方案通过了Web Plattform Tests 提供的大约 100 个测试用例。

      【讨论】:

        【解决方案10】:

        在我的情况下,我只需要传递整个 url 并只编码每个参数的值。 我没有找到这样做的通用代码(!!)所以我创建了这个小方法来完成这项工作:

        public static String encodeUrl(String url) throws Exception {
            if (url == null || !url.contains("?")) {
                return url;
            }
        
            List<String> list = new ArrayList<>();
            String rootUrl = url.split("\\?")[0] + "?";
            String paramsUrl = url.replace(rootUrl, "");
            List<String> paramsUrlList = Arrays.asList(paramsUrl.split("&"));
            for (String param : paramsUrlList) {
                if (param.contains("=")) {
                    String key = param.split("=")[0];
                    String value = param.replace(key + "=", "");
                    list.add(key + "=" +  URLEncoder.encode(value, "UTF-8"));
                }
                else {
                    list.add(param);
                }
            }
        
            return rootUrl + StringUtils.join(list, "&");
        }
        
        public static String decodeUrl(String url) throws Exception {
            return URLDecoder.decode(url, "UTF-8");
        }
        

        它使用 org.apache.commons.lang3.StringUtils

        【讨论】:

          【解决方案11】:

          使用 Spring 的 UriComponentsBuilder:

          UriComponentsBuilder
                  .fromUriString(url)
                  .build()
                  .encode()
                  .toUri()
          

          【讨论】:

          • 对于春季用户,确认此解决方案运行良好!!!
          猜你喜欢
          • 2017-07-22
          • 1970-01-01
          • 2011-07-16
          相关资源
          最近更新 更多