【发布时间】:2012-06-20 20:21:18
【问题描述】:
我有一个 getNextChar() 方法,它逐个字符地读取字符串。我正在编写一个方法来获取 getNextChar() 提供的字符序列中的单词。
文本包含标点符号和其他特殊字符。
我想有一个包含所有标点符号和特殊字符的数组,当我读取文本的字符时,检查字符是否在数组中以忽略它。 该方法将在获得空格时识别该单词。 单词将存储在集合中(例如:地图),因为我还需要通过检查该单词之前是否已在地图中插入并增加来计算频率那个词的计数器。
- 这是最好且高效的方法吗?我正在寻找最有效的方法。一个
- 是否有标点符号和特殊字符的完整列表?
【问题讨论】:
-
您一次只获取一个字符吗?或者你一次只得到一个字符串,而你只是选择字符迭代,因为你认为这是找到断字的最好方法?
-
docs.oracle.com/javase/1.4.2/docs/api/java/util/… 这可能可以做你想做的事情
-
我一次得到一个字符,直到没有更多字符时我得到 EOFException。
-
标点符号和特殊字符列表有助于了解您正在处理的语言。
标签: java string parsing character