【问题标题】:Tokenizing source code by removing all types of whitespace characters and punctuations in python通过删除python中所有类型的空白字符和标点符号来标记源代码
【发布时间】:2022-06-11 01:03:29
【问题描述】:

我有一个字符串,它是一个类似这样的 java 源代码:

public int sum()
{
   System.out.println("Hello");
   return 0;
}

在这种也可以是任何其他源代码的字符串中,有空格字符,如简单空格'',或其他如'\n'、'\t'、'\r'等。我想要删除所有这些空白字符和标点符号,并希望对源代码进行标记以获取标记列表。

例如,对于上面的源代码,结果列表可能是这样的:

[“public”、“int”、“sum”、“System.out.println”、“Hello”、“return”、“0”]

我该怎么做?

【问题讨论】:

  • 您如何查找教程和一些关于如何标记化的示例的方式。您在这里没有任何我们可以提供帮助的代码,但这就是该站点的用途;让我们帮助您编写您正在编写的代码。如果您没有考虑到设计,那么您就无法开始编程,所以如果您在这里发帖甚至不知道从哪里开始,没有代码,那么您就没有在正确的网站上发帖以获得基本级别的帮助。 tourHow to Ask 页面阐明了这一点。

标签: python string token


猜你喜欢
  • 2011-08-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-08-25
  • 2020-05-14
  • 1970-01-01
相关资源
最近更新 更多