import re comments ="abc大家好,浙江省,杭州市,西溪湿地" pattern = re.compile(r\'[\u4e00-\u9fa5]+\') filterdata = re.findall(pattern, comments) print(filterdata) # [\'大家好\', \'浙江省\', \'杭州市\', \'西溪湿地\'] # 连接所有中文 resultdata = \'\'.join(filterdata) print(resultdata) # 大家好浙江省杭州市西溪湿地
取出文档中的中文
待续。。。