【发布时间】:2014-04-11 13:22:31
【问题描述】:
我正在使用 java,我正在尝试使用 apache tika 提取一些元数据,但我无法提取“主题”元数据的预期值。该文件是 jpg 图像。这是我的代码:
首先我是这样解析文件的:
inputStream = new FileInputStream(fileToExtract);
Parser parser = new AutoDetectParser();
ContentHandler contentHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
parser.parse(inputStream, contentHandler, metadata, new ParseContext());
然后我尝试打印这些:
metadata.get(Metadata.AUTHOR) --> "MyAuthor"
metadata.get(TikaCoreProperties.CREATOR) --> "MyCreator"
metadata.get(TikaCoreProperties.TITLE) --> "MyTitle"
metadata.get(Metadata.SUBJECT) --> **null**
metadata.get(TikaCoreProperties.KEYWORDS) --> **null**
所以,我得到了正确的所有值,并且我得到了主题的空值。元数据是我手动添加的(右键->属性,windows OS)。
我做错了吗?
PS:请注意,“TikaCoreProperties.KEYWORDS”是另一种根据 apache tika 文档检索主题的方式。
【问题讨论】:
标签: java metadata apache-tika