【发布时间】:2013-10-09 13:27:36
【问题描述】:
此主题已在 link1、link2、link3 解决了基于文本的表情符号。但是,我想做一些与匹配简单表情符号略有不同的事情。我正在整理包含表情符号图标的推文。以下 unicode 信息仅包含此类表情符号:pdf。
使用包含来自pdf 的任何这些表情符号的英文单词字符串,我希望能够将表情符号的数量与单词的数量进行比较。
我前进的方向似乎不是最佳选择,我正在寻求帮助。正如您在下面的脚本中看到的,我只是打算从命令行完成这项工作:
$cat <file containing the strings with emoticons> | ./emo.py
emo.py 伪脚本:
import re
import sys
for row in sys.stdin:
print row.decode('utf-8').encode("ascii","replace")
#insert regex to find the emoticons
if match:
#do some counting using .split(" ")
#print the counting
我遇到的问题是解码/编码。我还没有找到如何编码/解码字符串的好选择,所以我可以正确找到图标。我要搜索的字符串的一个例子是找到单词和表情符号的数量如下:
“笑脸表情摇滚!我喜欢你。”
挑战:你能写一个脚本来计算这个字符串中的单词和表情符号的数量吗?请注意,表情符号都位于单词旁边,中间没有空格。
【问题讨论】:
-
这里是否需要使用正则表达式?
-
这些都是非常基本的正则表达式内容,所以……你读过Regular Expression HOWTO,或者更好的是第三方教程吗?
标签: python regex string unicode