【发布时间】:2023-03-29 18:01:01
【问题描述】:
目前我正在开发一个 Web 应用程序来获取 Twitter 流并尝试自己创建一个自然语言处理。
由于我的数据来自 Twitter(限制为 140 个字符),因此缩短了许多单词,或者在这种情况下,省略了空格。
例如:
"Hi, my name is Bob. I m 19yo and 170cm tall"
应标记为:
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
请注意,19yo 中的 19 和 yo 之间没有没有空格。我主要用它来提取带有单位的数字。
简单地说,我需要的是一种通过数字或字母没有分隔符来“分解”每个包含数字的标记的方法。
'123abc' 将是 ['123', 'abc']
'abc123' 将是 ['abc', '123']
'abc123xyz' 将是 ['abc', '123', 'xyz']
等等。
在 PHP 中实现它的最佳方法是什么?
我发现了一些接近它的东西,但它是 C# 并且特别适用于日/月拆分。 How do I split a string in C# based on letters and numbers
【问题讨论】:
-
#只是好奇,你为什么需要这样提取?
-
我可以看到这样做是为了创建动态 slug,但也可以只用空格/标点符号分隔。
-
@chasing-death 因为数据源(推特流)写入不一致
-
@Dutchie432:我对划界无能为力,因为我无法决定人们如何发布推文
-
@Akhyar Amarullah:我知道,但我正在回复
Chasing Death
标签: php regex string algorithm nlp