您的示例文档的每一页都包含文本绘制说明,这些说明使用 y 坐标 39 处的基线绘制空格字符:
BT
/F2 14.04 Tf
1 0 0 1 72.024 39.024 Tm
[( )] TJ
ET
BT
1 0 0 1 306.05 39.024 Tm
[( )] TJ
ET
BT
1 0 0 1 397.63 39.024 Tm
[( )] TJ
ET
没有低于这个
因此,您的代码将正确返回 39 + descent 作为最后一行的底部。
要解决此问题,您可以使用this answer to "TextMarginFinder to verify printability" 中的 Java/iText 中解释和概述的方法,即在计算文本边界框时忽略所有空格字符:
using (PdfReader pdfReader = new PdfReader(source))
{
System.Console.Write("\n*\n*\n* Filtered last lines per page of {0}\n*\n*\n", source);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
TextMarginFinder finder = new TextMarginFinder();
FilteredRenderListener filtered = new FilteredRenderListener(finder, new SpaceFilter());
parser.ProcessContent(page, new TextRenderInfoSplitter(filtered));
System.Console.Write("Page {0}, Bottom y {1}\n", page, finder.GetLly());
}
}
使用这两个辅助类
class TextRenderInfoSplitter : IRenderListener
{
public TextRenderInfoSplitter(IRenderListener strategy) {
this.strategy = strategy;
}
public void RenderText(TextRenderInfo renderInfo) {
foreach (TextRenderInfo info in renderInfo.GetCharacterRenderInfos()) {
strategy.RenderText(info);
}
}
public void BeginTextBlock() {
strategy.BeginTextBlock();
}
public void EndTextBlock() {
strategy.EndTextBlock();
}
public void RenderImage(ImageRenderInfo renderInfo) {
strategy.RenderImage(renderInfo);
}
IRenderListener strategy;
}
class SpaceFilter : RenderFilter
{
public override bool AllowText(TextRenderInfo renderInfo)
{
return renderInfo != null && renderInfo.GetText().Trim().Length > 0;
}
}
您的示例文档的输出是:
*
*
* Filtered last lines per page of PACACH0123.pdf
*
*
Page 1, Bottom y 81,92254
Page 2, Bottom y 413,1685
Page 3, Bottom y 688,4785
这看起来更像你所追求的数字。