【问题标题】:How do you split a javascript string by spaces and punctuation?你如何用空格和标点符号分割一个javascript字符串?
【发布时间】:2011-05-28 15:33:35
【问题描述】:

我有一些随机字符串,例如:Hello, my name is john.。我希望将该字符串拆分成这样的数组:Hello, ,, , my, name, is, john, .,。我试过str.split(/[^\w\s]|_/g),但它似乎不起作用。有什么想法吗?

【问题讨论】:

  • @davin:在正则表达式中捕获括号会将捕获的结果拼接到结果数组中,尽管它也包含空格。不过,我无法仅使用 split 和正则表达式获得完美匹配的结果。

标签: javascript regex split


【解决方案1】:

在任何非单词字符的运行上分割一个 str,即不是 A-Z、0-9 和下划线。

var words=str.split(/\W+/);  // assumes str does not begin nor end with whitespace

或者,假设您的目标语言是英语,您可以使用以下方法从字符串中提取所有语义有用的值(即“标记”字符串):

var str='Here\'s a (good, bad, indifferent, ...) '+
        'example sentence to be used in this test '+
        'of English language "token-extraction".',

    punct='\\['+ '\\!'+ '\\"'+ '\\#'+ '\\$'+   // since javascript does not
          '\\%'+ '\\&'+ '\\\''+ '\\('+ '\\)'+  // support POSIX character
          '\\*'+ '\\+'+ '\\,'+ '\\\\'+ '\\-'+  // classes, we'll need our
          '\\.'+ '\\/'+ '\\:'+ '\\;'+ '\\<'+   // own version of [:punct:]
          '\\='+ '\\>'+ '\\?'+ '\\@'+ '\\['+
          '\\]'+ '\\^'+ '\\_'+ '\\`'+ '\\{'+
          '\\|'+ '\\}'+ '\\~'+ '\\]',

    re=new RegExp(     // tokenizer
       '\\s*'+            // discard possible leading whitespace
       '('+               // start capture group
         '\\.{3}'+            // ellipsis (must appear before punct)
       '|'+               // alternator
         '\\w+\\-\\w+'+       // hyphenated words (must appear before punct)
       '|'+               // alternator
         '\\w+\'(?:\\w+)?'+   // compound words (must appear before punct)
       '|'+               // alternator
         '\\w+'+              // other words
       '|'+               // alternator
         '['+punct+']'+        // punct
       ')'                // end capture group
     );

// grep(ary[,filt]) - filters an array
//   note: could use jQuery.grep() instead
// @param {Array}    ary    array of members to filter
// @param {Function} filt   function to test truthiness of member,
//   if omitted, "function(member){ if(member) return member; }" is assumed
// @returns {Array}  all members of ary where result of filter is truthy
function grep(ary,filt) {
  var result=[];
  for(var i=0,len=ary.length;i++<len;) {
    var member=ary[i]||'';
    if(filt && (typeof filt === 'Function') ? filt(member) : member) {
      result.push(member);
    }
  }
  return result;
}

var tokens=grep( str.split(re) );   // note: filter function omitted 
                                     //       since all we need to test 
                                     //       for is truthiness

产生:


tokens=[ 
  'Here\'s',
  'a',
  '(',
  'good',
  ',',
  'bad',
  ',',
  'indifferent',
  ',',
  '...',
  ')',
  'example',
  'sentence',
  'to',
  'be',
  'used',
  'in',
  'this',
  'test',
  'of',
  'English',
  'language',
  '"',
  'token-extraction',
  '"',
  '.'
]

编辑

也可作为Github Gist使用

【讨论】:

  • split(/\W+/) 删除所有非英文字符。不要使用它来拆分名称。
【解决方案2】:

试试这个(我不确定这是否是你想要的):

str.replace(/[^\w\s]|_/g, function ($1) { return ' ' + $1 + ' ';}).replace(/[ ]+/g, ' ').split(' ');

http://jsfiddle.net/zNHJW/3/

【讨论】:

  • @chromedude 最后一部分可以稍微缩短为这种形式:str.replace(/[^\w\s]|_/g, function ($1) { return ' ' + $1 + ' ';}).split(/[ ]+/g);。我只是不习惯在正则表达式中使用 split 方法。
【解决方案3】:

试试:

str.split(/([_\W])/)

这将由任何非字母数字字符 (\W) 和任何下划线分隔。它使用捕获括号将被拆分的项目包含在最终结果中。

【讨论】:

  • 由于 \W 表示任何不是 A-Z、0-9 或下划线的字符,您可以将 /[\W\s_]/ 简化为 /\W/ 以达到相同的效果。要将下划线添加到不可接受的字符列表中,请将其添加到字符类的开头以提高效率。
  • @Rob:在\s 位上击败你。不过,我将对其进行编辑以先添加下划线。谢谢。
  • 括号是多余的,因为不需要捕获任何内容,应该删除它们,因为它们的添加会增加执行时间。此外,除非您想要空结果,否则字符类需要附加一个加号(以匹配一个或多个)。因此,完整的表达式应该是“str.split(/[_\W]+/)”(为了便于阅读,我在下划线中添加了反斜杠转义,即使它不是必需的。)
  • @Rob:括号不是多余的。他们改变了结果。我也没有在你的完整表达中看到反斜杠。
  • 你当然是对的。错过了这一点是我的过失。一个考虑因素是,在正则表达式中使用捕获确实会增加其执行时间,因此如果速度是一个问题,那么拆分所有非目标值可能是一种更好的方法。
【解决方案4】:

这个解决方案给我带来了空间的挑战(仍然需要它们),然后我给了str.split(/\b/) 一个机会,一切都很好。空格在数组中输出,不难忽略,标点符号后面的可以剪掉。

【讨论】:

    猜你喜欢
    • 2021-11-17
    • 2022-01-17
    • 1970-01-01
    • 1970-01-01
    • 2014-12-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多