【发布时间】:2019-10-09 12:20:56
【问题描述】:
我正在使用 azure 函数来提取 pdf 文件的文本。我想将流(由包含 pdf 的 azure blob 存储接收)转换为 pdf,以便我可以使用 this question here 的代码。
public static class PdfSharpExtensions
{
public static IEnumerable<string> ExtractText(this PdfPage page)
{
var content = ContentReader.ReadContent(page);
var text = content.ExtractText();
return text;
}
public static IEnumerable<string> ExtractText(this CObject cObject)
{
if (cObject is COperator)
{
var cOperator = cObject as COperator;
if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
cOperator.OpCode.Name == OpCodeName.TJ.ToString())
{
foreach (var cOperand in cOperator.Operands)
foreach (var txt in ExtractText(cOperand))
yield return txt;
}
}
else if (cObject is CSequence)
{
var cSequence = cObject as CSequence;
foreach (var element in cSequence)
foreach (var txt in ExtractText(element))
yield return txt;
}
else if (cObject is CString)
{
var cString = cObject as CString;
yield return cString.Value;
}
}
}
有办法吗?
【问题讨论】:
-
你有哪种流?
-
流中有什么内容?
-
那么您的实际目标不是将其转换为 pdf 页面,而是提取存储在流中的 pdf 文本?
-
@TAHASULTANTEMURI System.IO.Stream
-
@BugFinder 一个 pdf 文件
标签: c# pdf stream azure-functions pdfsharp