【发布时间】:2021-10-20 00:04:54
【问题描述】:
我已经编写了使用 pyspark 验证电子邮件地址的代码,但得到了无效的电子邮件地址。
输入电子邮件地址
alcaraz@lcc@uma.es
输出获取
lcc@ums.es
预期输出
"invalid email address"
代码尝试
df1 = df.withColumn(df.columns[0], regexp_replace(lower(df.columns[0]), "^a-zA-Z0-9@\._\-| ", ""))
extract_expr = expr(
"regexp_extract_all(emails, '(\\\w+([\\\.-]?\\\w+)*@\\[A-Za-z\-\.]+([\\\.-]?\\\w+)*(\\\.\\\w{2,3})+)', 0)")
df2 = df1.withColumn(df.columns[0], extract_expr) \
.select(df.columns[0])
【问题讨论】:
-
感谢@Steven 它现在对我有用。
标签: python regex pyspark email-validation