【发布时间】:2011-05-20 23:38:51
【问题描述】:
考虑:
$a = 'How are you?';
if ($a contains 'are')
echo 'true';
假设我有上面的代码,那么语句if ($a contains 'are')的正确写法是什么?
【问题讨论】:
标签: php string substring contains string-matching
考虑:
$a = 'How are you?';
if ($a contains 'are')
echo 'true';
假设我有上面的代码,那么语句if ($a contains 'are')的正确写法是什么?
【问题讨论】:
标签: php string substring contains string-matching
正如其他用户所提到的,您可以使用正则表达式,因为与 strpos 相比,它更适合单词匹配。 strpos 对 are 的检查也将返回 true,例如:fare、care、stare 等。在正则表达式中使用单词边界可以简单地避免这些意外匹配。
are 的简单匹配可能如下所示:
$a = 'How are you?';
if (preg_match('/\bare\b/', $a)) {
echo 'true';
}
在性能方面,strpos 大约快三倍。当我一次进行一百万次比较时,preg_match 需要 1.5 秒才能完成,strpos 需要 0.5 秒。
编辑: 为了搜索字符串的任何部分,而不仅仅是逐字搜索,我建议使用像
这样的正则表达式$a = 'How are you?';
$search = 'are y';
if(preg_match("/{$search}/i", $a)) {
echo 'true';
}
正则表达式末尾的i 将正则表达式更改为不区分大小写,如果您不想这样做,可以将其省略。
现在,在某些情况下这可能会出现很大问题,因为 $search 字符串没有以任何方式进行清理,我的意思是,在某些情况下它可能无法通过检查,好像 $search 是他们可以添加的用户输入一些可能表现得像一些不同的正则表达式的字符串......
另外,这是一个很好的工具,可以用来测试和查看各种正则表达式的解释Regex101
要将两组功能组合成一个多功能功能(包括可选择区分大小写),您可以使用以下内容:
function FindString($needle,$haystack,$i,$word)
{ // $i should be "" or "i" for case insensitive
if (strtoupper($word)=="W")
{ // if $word is "W" then word search instead of string in string search.
if (preg_match("/\b{$needle}\b/{$i}", $haystack))
{
return true;
}
}
else
{
if(preg_match("/{$needle}/{$i}", $haystack))
{
return true;
}
}
return false;
// Put quotes around true and false above to return them as strings instead of as bools/ints.
}
还有一点需要注意,\b 不能用于英语以外的其他语言。
The explanation for this and the solution is taken from here:
\b表示单词的开头或结尾(单词边界)。这 正则表达式将匹配苹果派中的苹果,但不会匹配苹果中的苹果 菠萝、苹果车或烤苹果。“咖啡馆”怎么样?我们如何在正则表达式中提取“café”这个词? 实际上,\bcafé\b 是行不通的。为什么?因为“咖啡厅”包含 非 ASCII 字符:é。 \b 不能简单地与 Unicode 一起使用,例如 समुद्र、감사、месяц 和?。
当你想提取Unicode字符时,你应该直接 定义代表单词边界的字符。
答案:
(?<=[\s,.:;"']|^)UNICODE_WORD(?=[\s,.:;"']|$)
所以为了在PHP中使用答案,可以使用这个函数:
function contains($str, array $arr) {
// Works in Hebrew and any other unicode characters
// Thanks https://medium.com/@shiba1014/regex-word-boundaries-with-unicode-207794f6e7ed
// Thanks https://www.phpliveregex.com/
if (preg_match('/(?<=[\s,.:;"\']|^)' . $word . '(?=[\s,.:;"\']|$)/', $str)) return true;
}
如果你想搜索单词数组,你可以使用这个:
function arrayContainsWord($str, array $arr)
{
foreach ($arr as $word) {
// Works in Hebrew and any other unicode characters
// Thanks https://medium.com/@shiba1014/regex-word-boundaries-with-unicode-207794f6e7ed
// Thanks https://www.phpliveregex.com/
if (preg_match('/(?<=[\s,.:;"\']|^)' . $word . '(?=[\s,.:;"\']|$)/', $str)) return true;
}
return false;
}
从 PHP 8.0.0 开始,您现在可以使用 str_contains
<?php
if (str_contains('abc', '')) {
echo "Checking the existence of the empty string will always
return true";
}
【讨论】:
您可以使用strpos() 函数来查找一个字符串在另一个字符串中的出现:
$a = 'How are you?';
if (strpos($a, 'are') !== false) {
echo 'true';
}
请注意,!== false 的使用是故意的(!= false 和 === true 都不会返回所需的结果); strpos() 返回针头字符串在 haystack 字符串中开始的偏移量,如果未找到针头,则返回布尔值 false。由于 0 是一个有效的偏移量,而 0 是“错误的”,我们不能使用像 !strpos($a, 'are') 这样更简单的构造。
现在使用 PHP 8,您可以使用 str_contains:
if (str_contains('How are you', 'are')) {
echo 'true';
}
【讨论】:
strpos($a, 'are') > -1 来测试是否为真来避免这个问题。从调试的角度来看,当我不必计算连续的等号时,我发现我的大脑在确定行是否正确写入时浪费的时钟周期更少。
<?php
$mystring = 'abc';
$findme = 'a';
$pos = strpos($mystring, $findme);
// Note our use of ===. Simply, == would not work as expected
// because the position of 'a' was the 0th (first) character.
if ($pos === false) {
echo "The string '$findme' was not found in the string '$mystring'.";
}
else {
echo "The string '$findme' was found in the string '$mystring',";
echo " and exists at position $pos.";
}
?>
【讨论】:
要确定一个字符串是否包含另一个字符串,您可以使用 PHP 函数strpos()。
int strpos ( string $haystack , mixed $needle [, int $offset = 0 ] )`
<?php
$haystack = 'how are you';
$needle = 'are';
if (strpos($haystack,$needle) !== false) {
echo "$haystack contains $needle";
}
?>
注意:
如果您要搜索的针位于大海捞针的开头,它将返回位置 0,如果您进行 == 比较将无法正常工作,您将需要进行 ===
== 符号是一个比较,测试左边的变量/表达式/常量是否与右边的变量/表达式/常量具有相同的值。
=== 符号用于比较两个变量/表达式/常量是否相等 AND 具有相同的类型 - 即都是字符串还是整数。
【讨论】:
【讨论】:
strstr($a, 'are') 比丑陋的strpos($a, 'are') !== false 优雅得多。 PHP 真的需要一个str_contains() 函数。
这里有一个小实用函数,在这种情况下很有用
// returns true if $needle is a substring of $haystack
function contains($needle, $haystack)
{
return strpos($haystack, $needle) !== false;
}
【讨论】:
if ($email->contains("@") && $email->endsWith(".com)) { ... 或 if (strpos($email, "@") !== false && substr($email, -strlen(".com")) == ".com") { ...
如果要避免“假”和“真”的问题,可以使用substr_count:
if (substr_count($a, 'are') > 0) {
echo "at least one 'are' is present!";
}
它比 strpos 慢一点,但它避免了比较问题。
【讨论】:
false 表示“你确定吗?”因为strpos 的位置是0
下面的函数也可以工作,不依赖于任何其他函数;它只使用原生 PHP 字符串操作。就个人而言,我不建议这样做,但你可以看看它是如何工作的:
<?php
if (!function_exists('is_str_contain')) {
function is_str_contain($string, $keyword)
{
if (empty($string) || empty($keyword)) return false;
$keyword_first_char = $keyword[0];
$keyword_length = strlen($keyword);
$string_length = strlen($string);
// case 1
if ($string_length < $keyword_length) return false;
// case 2
if ($string_length == $keyword_length) {
if ($string == $keyword) return true;
else return false;
}
// case 3
if ($keyword_length == 1) {
for ($i = 0; $i < $string_length; $i++) {
// Check if keyword's first char == string's first char
if ($keyword_first_char == $string[$i]) {
return true;
}
}
}
// case 4
if ($keyword_length > 1) {
for ($i = 0; $i < $string_length; $i++) {
/*
the remaining part of the string is equal or greater than the keyword
*/
if (($string_length + 1 - $i) >= $keyword_length) {
// Check if keyword's first char == string's first char
if ($keyword_first_char == $string[$i]) {
$match = 1;
for ($j = 1; $j < $keyword_length; $j++) {
if (($i + $j < $string_length) && $keyword[$j] == $string[$i + $j]) {
$match++;
}
else {
return false;
}
}
if ($match == $keyword_length) {
return true;
}
// end if first match found
}
// end if remaining part
}
else {
return false;
}
// end for loop
}
// end case4
}
return false;
}
}
测试:
var_dump(is_str_contain("test", "t")); //true
var_dump(is_str_contain("test", "")); //false
var_dump(is_str_contain("test", "test")); //true
var_dump(is_str_contain("test", "testa")); //flase
var_dump(is_str_contain("a----z", "a")); //true
var_dump(is_str_contain("a----z", "z")); //true
var_dump(is_str_contain("mystringss", "strings")); //true
【讨论】:
if (preg_match('/(are)/', $a)) {
echo 'true';
}
【讨论】:
WARNING preg_match(): Delimiter must not be alphanumeric or backslash
使用stripos()不区分大小写:
if (stripos($string,$stringToSearch) !== false) {
echo 'true';
}
【讨论】:
我遇到了一些麻烦,最后我选择创建自己的解决方案。不使用regular expression引擎:
function contains($text, $word)
{
$found = false;
$spaceArray = explode(' ', $text);
$nonBreakingSpaceArray = explode(chr(160), $text);
if (in_array($word, $spaceArray) ||
in_array($word, $nonBreakingSpaceArray)
) {
$found = true;
}
return $found;
}
您可能会注意到,前面的解决方案不是作为另一个词的前缀的答案。为了使用您的示例:
$a = 'How are you?';
$b = "a skirt that flares from the waist";
$c = "are";
对于上面的示例,$a 和 $b 都包含 $c,但您可能希望您的函数告诉您只有 $a 包含 $c。
【讨论】:
$found = false开头
如果您只想检查一个字符串是否包含在另一个字符串中,请不要使用preg_match()。请改用strpos() 或strstr(),因为它们会更快。 (http://in2.php.net/preg_match)
if (strpos($text, 'string_name') !== false){
echo 'get the string';
}
【讨论】:
虽然这些答案中的大多数会告诉您字符串中是否出现子字符串,但如果您正在寻找特定的 word,而不是 substring。
有什么区别?子字符串可以出现在其他单词中:
缓解这种情况的一种方法是使用正则表达式和word boundaries (\b):
function containsWord($str, $word)
{
return !!preg_match('#\\b' . preg_quote($word, '#') . '\\b#i', $str);
}
此方法没有上述相同的误报,但它确实有一些自己的边缘情况。单词边界匹配非单词字符 (\W),这将是不是 a-z、A-Z、0-9 或 _ 的任何字符。这意味着数字和下划线将被视为单词字符,这样的场景将失败:
如果您想要比这更准确的东西,您将不得不开始进行英语语法解析,这是一个相当大的蠕虫罐(并且假设正确使用语法,无论如何,这并不总是给定的) .
【讨论】:
\b 匹配 \W 不匹配的两个内容,这使得在字符串中查找 words 非常有用:它匹配字符串的开头 (^) 和结尾字符串 ($)
与 SamGoody 和 Lego Stormtroopr cmets 相媲美。
如果您正在寻找一种 PHP 算法来根据多个词的接近度/相关性对搜索结果进行排名 这是一种仅使用 PHP 生成搜索结果的快速简便的方法:
strpos()、preg_match()、strstr() 或 stristr() 等其他布尔搜索方法的问题
基于Vector Space Model和tf-idf (term frequency–inverse document frequency):的PHP方法
听起来很困难,但非常容易。
如果我们想在一个字符串中搜索多个单词,核心问题是我们如何为每个单词分配一个权重?
如果我们可以根据它们在整个字符串中的代表性对字符串中的术语进行加权, 我们可以按与查询最匹配的结果排序。
这就是向量空间模型的思路,与SQL全文搜索的工作原理不相上下:
function get_corpus_index($corpus = array(), $separator=' ') {
$dictionary = array();
$doc_count = array();
foreach($corpus as $doc_id => $doc) {
$terms = explode($separator, $doc);
$doc_count[$doc_id] = count($terms);
// tf–idf, short for term frequency–inverse document frequency,
// according to wikipedia is a numerical statistic that is intended to reflect
// how important a word is to a document in a corpus
foreach($terms as $term) {
if(!isset($dictionary[$term])) {
$dictionary[$term] = array('document_frequency' => 0, 'postings' => array());
}
if(!isset($dictionary[$term]['postings'][$doc_id])) {
$dictionary[$term]['document_frequency']++;
$dictionary[$term]['postings'][$doc_id] = array('term_frequency' => 0);
}
$dictionary[$term]['postings'][$doc_id]['term_frequency']++;
}
//from http://phpir.com/simple-search-the-vector-space-model/
}
return array('doc_count' => $doc_count, 'dictionary' => $dictionary);
}
function get_similar_documents($query='', $corpus=array(), $separator=' '){
$similar_documents=array();
if($query!=''&&!empty($corpus)){
$words=explode($separator,$query);
$corpus=get_corpus_index($corpus, $separator);
$doc_count=count($corpus['doc_count']);
foreach($words as $word) {
if(isset($corpus['dictionary'][$word])){
$entry = $corpus['dictionary'][$word];
foreach($entry['postings'] as $doc_id => $posting) {
//get term frequency–inverse document frequency
$score=$posting['term_frequency'] * log($doc_count + 1 / $entry['document_frequency'] + 1, 2);
if(isset($similar_documents[$doc_id])){
$similar_documents[$doc_id]+=$score;
}
else{
$similar_documents[$doc_id]=$score;
}
}
}
}
// length normalise
foreach($similar_documents as $doc_id => $score) {
$similar_documents[$doc_id] = $score/$corpus['doc_count'][$doc_id];
}
// sort from high to low
arsort($similar_documents);
}
return $similar_documents;
}
案例 1
$query = 'are';
$corpus = array(
1 => 'How are you?',
);
$match_results=get_similar_documents($query,$corpus);
echo '<pre>';
print_r($match_results);
echo '</pre>';
结果
Array
(
[1] => 0.52832083357372
)
案例 2
$query = 'are';
$corpus = array(
1 => 'how are you today?',
2 => 'how do you do',
3 => 'here you are! how are you? Are we done yet?'
);
$match_results=get_similar_documents($query,$corpus);
echo '<pre>';
print_r($match_results);
echo '</pre>';
结果
Array
(
[1] => 0.54248125036058
[3] => 0.21699250014423
)
案例 3
$query = 'we are done';
$corpus = array(
1 => 'how are you today?',
2 => 'how do you do',
3 => 'here you are! how are you? Are we done yet?'
);
$match_results=get_similar_documents($query,$corpus);
echo '<pre>';
print_r($match_results);
echo '</pre>';
结果
Array
(
[3] => 0.6813781191217
[1] => 0.54248125036058
)
还有很多需要改进的地方
但是该模型提供了一种从自然查询中获得良好结果的方法,
没有布尔运算符,例如 strpos()、preg_match()、strstr() 或 stristr()。
没有好处
在搜索单词之前可以选择消除冗余
从而减少索引大小并减少存储需求
更少的磁盘 I/O
更快的索引和因此更快的搜索。
1.标准化
2。停用词消除
3.字典替换
将单词替换为具有相同或相似含义的其他单词。 (例如:将“饥饿”和“饥饿”的实例替换为“饥饿”)
可以执行进一步的算法措施(雪球),以进一步减少单词的基本含义。
颜色名称替换为对应的十六进制数
通过降低精度来减少数值是标准化文本的其他方法。
资源
【讨论】:
您需要使用相同/不相同的运算符,因为 strpos 可以返回 0 作为它的索引值。如果您喜欢三元运算符,请考虑使用以下内容(我承认这似乎有点倒退):
echo FALSE === strpos($a,'are') ? 'false': 'true';
【讨论】:
您应该使用不区分大小写的格式,因此如果输入的值是small 或caps 则无关紧要。
<?php
$grass = "This is pratik joshi";
$needle = "pratik";
if (stripos($grass,$needle) !== false) {
/*If i EXCLUDE : !== false then if string is found at 0th location,
still it will say STRING NOT FOUND as it will return '0' and it
will goto else and will say NOT Found though it is found at 0th location.*/
echo 'Contains word';
}else{
echo "does NOT contain word";
}
?>
stripos 在这里 没有 考虑大小写(小/大写)。
【讨论】:
简写版
$result = false!==strpos($a, 'are');
【讨论】:
也许你可以使用这样的东西:
<?php
findWord('Test all OK');
function findWord($text) {
if (strstr($text, 'ok')) {
echo 'Found a word';
}
else
{
echo 'Did not find a word';
}
}
?>
【讨论】:
为了找到一个“单词”,而不是出现实际上可能是另一个单词的一部分的一系列字母,以下将是一个很好的解决方案。
$string = 'How are you?';
$array = explode(" ", $string);
if (in_array('are', $array) ) {
echo 'Found the word';
}
【讨论】:
$string 是Are are, are?,它将失败
我有点印象深刻的是,这里使用strpos、strstr 和类似功能的答案都没有提到Multibyte String Functions (2015-05-08)。
基本上,如果您在查找包含某些语言特定字符的单词时遇到困难,例如德语、法语、葡萄牙语、西班牙语等(例如:ä , é, ô, ç, º, ñ),你可能想要在函数前面加上mb_。因此,接受的答案将改用mb_strpos 或mb_stripos(用于不区分大小写的匹配):
if (mb_strpos($a,'are') !== false) {
echo 'true';
}
如果您不能保证all your data is 100% in UTF-8,您可能需要使用mb_ 函数。
一篇很好的文章来理解为什么是 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) by Joel Spolsky。
【讨论】:
strpos 函数可以正常工作,但如果你想在段落中检查一个单词的case-insensitive,那么你可以使用PHP 的stripos 函数。
例如,
$result = stripos("I love PHP, I love PHP too!", "php");
if ($result === false) {
// Word does not exist
}
else {
// Word exists
}
查找不区分大小写的子字符串在字符串中第一次出现的位置。
如果字符串中不存在单词,则返回false,否则返回单词的位置。
【讨论】:
你可以使用strstr函数:
$haystack = "I know programming";
$needle = "know";
$flag = strstr($haystack, $needle);
if ($flag){
echo "true";
}
不使用内置函数:
$haystack = "hello world";
$needle = "llo";
$i = $j = 0;
while (isset($needle[$i])) {
while (isset($haystack[$j]) && ($needle[$i] != $haystack[$j])) {
$j++;
$i = 0;
}
if (!isset($haystack[$j])) {
break;
}
$i++;
$j++;
}
if (!isset($needle[$i])) {
echo "YES";
}
else{
echo "NO ";
}
【讨论】:
检查字符串是否包含特定的单词?
这意味着必须将字符串解析为单词(请参阅下面的注释)。
执行此操作并指定分隔符的一种方法是使用preg_split (doc):
<?php
function contains_word($str, $word) {
// split string into words
// separators are substrings of at least one non-word character
$arr = preg_split('/\W+/', $str, NULL, PREG_SPLIT_NO_EMPTY);
// now the words can be examined each
foreach ($arr as $value) {
if ($value === $word) {
return true;
}
}
return false;
}
function test($str, $word) {
if (contains_word($str, $word)) {
echo "string '" . $str . "' contains word '" . $word . "'\n";
} else {
echo "string '" . $str . "' does not contain word '" . $word . "'\n" ;
}
}
$a = 'How are you?';
test($a, 'are');
test($a, 'ar');
test($a, 'hare');
?>
跑步给了
$ php -f test.php
string 'How are you?' contains word 'are'
string 'How are you?' does not contain word 'ar'
string 'How are you?' does not contain word 'hare'
注意:这里我们并不是指每个符号序列的单词。
单词的实际定义是 PCRE 正则表达式引擎,其中单词是仅由单词字符组成的子字符串,由非单词字符分隔。
“单词”字符是任何字母或数字或下划线字符, 也就是说,任何可以成为 Perl“单词”一部分的字符。这 字母和数字的定义由PCRE的字符控制 表,并且如果发生特定于区域设置的匹配可能会有所不同(..)
【讨论】:
如果你想检查字符串是否包含几个特定的单词,你可以这样做:
$badWords = array("dette", "capitale", "rembourser", "ivoire", "mandat");
$string = "a string with the word ivoire";
$matchFound = preg_match_all("/\b(" . implode($badWords,"|") . ")\b/i", $string, $matches);
if ($matchFound) {
echo "a bad word has been found";
}
else {
echo "your string is okay";
}
这对于在发送电子邮件时避免垃圾邮件很有用。
【讨论】:
可以使用以下函数检查字符串:
function either_String_existor_not($str, $character) {
return strpos($str, $character) !== false;
}
【讨论】:
return strpos($str, $character) !== false
特定字符串的另一种解决方案:
$subject = 'How are you?';
$pattern = '/are/';
preg_match($pattern, $subject, $match);
if ($match[0] == 'are') {
echo true;
}
你也可以使用strpos()函数。
【讨论】:
可以通过三种不同的方式完成:
$a = 'How are you?';
1-stristr()
if (strlen(stristr($a,"are"))>0) {
echo "true"; // are Found
}
2-strpos()
if (strpos($a, "are") !== false) {
echo "true"; // are Found
}
3- preg_match()
if( preg_match("are",$a) === 1) {
echo "true"; // are Found
}
【讨论】:
用途:
$text = 'This is a test';
echo substr_count($text, 'is'); // 2
// So if you want to check if is exists in the text just put
// in a condition like this:
if (substr_count($text, 'is') > 0) {
echo "is exists";
}
【讨论】: