【问题标题】:Extracting text from a Google document and get particular page从 Google 文档中提取文本并获取特定页面
【发布时间】:2021-03-18 12:24:18
【问题描述】:

到目前为止,我通过从此链接获取内容来导出我的 Google 文档:

https://docs.google.com/feeds/download/documents/export/Exportid=DOCUMENT_ID&exportFormat=EXPORT_FORMAT

这很好,事实上我将我的文档导出为 HTML 格式然后我从中读取,但是没有办法知道页面何时开始或结束。

这是我知道的所有导出格式:

HTML、PDF、ODT、TXT、RTF 和 DOCX

PDF、ODT、RTF 和 DOCX 在渲染器中打开时都表示单独的页面。但是,在为所有格式(python-docx、PyPDF4、PyRTF 等)搜索了无数 API 之后,我一直无法找到一种工作方式来逐页阅读 Google 文档。

有什么建议吗?

【问题讨论】:

    标签: google-api html-parsing google-docs python-docx pypdf


    【解决方案1】:

    您可以将Apps Script 与它一起使用,您可以利用DocumentApp 获得PageBreaks

    然后您可以将您定制的内容作为web app 提供。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-16
      相关资源
      最近更新 更多