搜索功能,尤其企业级的搜索,对于企业里面的KM来说是非常重要的,试想,企业里面沉淀下来的上百G甚至几个TB的数据,怎么样来更加方便的检索和精确的定位,是很多企业所关心的。在SPS 2003年代,要想实现信息的精确定位和检索,是有难度的,到了MOSS 2007的时代后,一切都变了,微软从底层架构实现了对搜索的支持,这种搜索是全文搜索的爬网式检索,对于性能方面,微软当然也有考虑,利用了索引的技术,使除第一次爬网外的速度有了明显的提升,而且微软针对企业里的真正需求,单独包装了MOSS for search的独立产品来卖,可见微软对企业级信息检索的重视。

      由于企业里面的文档,往往不仅仅是OFFICE系列格式的,比如还有最平常见到的PDF格式的文档,MOSS默认情况下是不兼容的,当然,我们可以把PDF上传到MOSS里面的文档库,在客户端装了adobe 公司的 reader或者Acrobat后,就可以浏览,但是想实现对PDF的全文爬网式搜索是不可以的,接下来和大家分享下Configuring MOSS 2007 to search pdf documents的详细步骤。

      在分享具体步骤之前,有必要和大家交代下adobe公司的 Adobe PDF IFilter v6.0这个产品,想要实现在MOSS平台上对PDF文档的兼容,这个产品是必须的,如果客户端有安装reader 7.0.5及以上的版本或Acrobat系列的产品,就不需要装此插件了,安装成功后,我们可以到注册表中检查此插件是否安装成功,步骤如下

开始/运行/regedit/ HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf

此注册表子项必须包含如下注册表项,表明安装成功:

Type: REG_MULTI_SZ

Data: {4C904448-74A9-11D0-AF6E-00C04FD8DC02}

    HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Setup\Filters\.pdf

 Name: Default

Type: REG_SZ

Data: (value not set)

• Name: Extension

Type: REG_SZ

Data: pdf

• Name: FileTypeBucket

Type: REG_DWORD

Data: 0x00000001 (1)

• Name: MimeTypes

Type: REG_SZ

Data: application/pdf

         Configuring MOSS 2007 to search pdf documents步骤如下:

1:下载Configuring MOSS 2007 to search pdf documentsConfiguring MOSS 2007 to search pdf documents17*17Configuring MOSS 2007 to search pdf documents 的图标,地址如下 http://www.adobe.com/misc/linking.html ,并命名为 icpdf.gif

2:把 icpdf.gif拷入如下位置 C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\12\Template\Images

3:修改 C:\Program Files\Common Files\Microsoft Shared\Web server extensions\12\Template\Xml\ 路径下的 DOCICON.XML文件,添加内容如下:

<Mapping Key="pdf" Value="icpdf.gif"/>

4:开始/运行/iisreset

 

5: 添加PDF文件类型为MOSS2007平台的搜索文件类型,进入MOSS 2007的管理中心\SharedServices1\搜索设置\文件类型\新建文件类型\pdf\确定

6:执行全文爬网(当然执行这个动作之前必须在某个文档库里面上传PDF文件),进入MOSS 2007的管理中心\SharedServices1\搜索设置\内容源和爬网计划\开始所以爬网

这些步骤完成之后, 就可以在文档库中看到上传的PDF文件前面的类型有一个Configuring MOSS 2007 to search pdf documentsConfiguring MOSS 2007 to search pdf documentsConfiguring MOSS 2007 to search pdf documentsConfiguring MOSS 2007 to search pdf documentsConfiguring MOSS 2007 to search pdf documents的图标,表明我们上面的设置成功。此时其实对于PDF文件还不能实现全文式爬网搜索,只能针对文件名的关键字来进行检索,还必须修改注册表才能对PDF兼容。

7:开始\运行\regedit\确定\

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Shared Tools\Web Server Extensions\12.0\Search\Applications\<GUID>\Gather\Search\Extensions\ExtensionList\

右键\编辑\新建\字符串值\输入38\确定\右键38\修改\在值数据中输入pdf\确定

8:开始\运行\cmd\确定\ set stop spsearch

9: 开始\运行\cmd\确定\ set start spsearch

10: 执行全文爬网进入MOSS 2007的管理中心\SharedServices1\搜索设置\内容源和爬网计划\开始所以爬网.

效果如下:

Configuring MOSS 2007 to search pdf documents 

       整个配置的过程中需要注意的地方是上传的PDF文件一定要签入,才能搜索得到

相关文章: