【发布时间】:2022-01-17 18:42:20
【问题描述】:
我有一个具有以下行类型的 txt 文件:
"Hello I'm in Tensorflow"
"My name is foo"
'Mr "alias" is running'
...
因此可以看出,每行只有一个字符串。当我尝试创建tf.data.Dataset 时,输出如下所示:
conver = TextLineDataset('path_to.txt')
for utter in conver:
print(utter)
break
# tf.Tensor(b'"Hello I'm in Tensorflow"', shape=(), dtype=string)
如果您注意到,引号" 仍然出现在字符串的开头和结尾(加上由张量' 定义的)。我想要的输出是:
# tf.Tensor(b'Hello I'm in Tensorflow', shape=(), dtype=string)
即不带引号。 提前谢谢你
【问题讨论】:
-
遍历行和
strip(b'"')…?! -
你好@deceze我认为strip是用于空格的,我只想从每行的开头和结尾删除
" -
@deceze 哦,我以为你说的是
tf.strings.strip。问题是通过使用pd.read_csv()打开文件,它可以正确读取,没有引号 -
因为
pd.read_csv将格式解释为CSV,其中"充当分隔符,而不是值本身的一部分。
标签: python tensorflow tensorflow2.0 tensorflow-datasets