【发布时间】:2018-06-10 02:28:09
【问题描述】:
我有一个包含字母、数字、空格和特殊字符等的大型纯文本文档 (UTF-8)。
我想将文本文档中的所有单个字符转换为数字,然后将文档表示为一个 numpy 数组。
我可以为此使用内置的 python ord() 函数吗?
我的理解是它返回一个表示字符的 Unicode 代码点的整数,但一次只接受一个字符,我想知道是否有更好的方法将大型文本文档转换为数字。
或者我可以使用 ord() 函数遍历整个文档吗?
编辑
我基本上想做这样的事情!但原生于 python https://www.browserling.com/tools/text-to-ascii
这是我目前拥有的
def convert_to_ascii(text):
return ",".join(str(ord(char)) for char in text)
with open('test.txt', 'r') as myfile:
data = myfile.read()
convert_to_ascii(data)
values = [int(i) for i in x.split(',')]
array = np.array(values)
有没有更好的方法来做到这一点?
【问题讨论】:
标签: python-3.x numpy utf-8 nlp ascii