错字3网站爬虫没有索引答案

【问题标题】：typo3 site crawler not indexing错字3网站爬虫没有索引
【发布时间】：2016-01-17 14:50:53
【问题描述】：

我正在尝试在旧的 TYPO3 4.5 网站上使用索引搜索和站点爬虫索引页面 - 但我尝试了几乎任何方法都无济于事。

我正在运行网站爬虫，它会获取可以爬取的 URL 的完整列表，并且我正在运行整个队列

我已经设置了一个“索引配置”

还有一个网站爬虫

但它不会索引

“cache_pages”表似乎也是空的 - 但所有页面都启用了缓存。

我可能会错过什么？

【问题讨论】：

您是否添加并运行了一个调度程序任务以通过收集的 URL 进行爬网？队列视图上应该有一些状态 - 好的，或者一些错误。但是什么都没有
所有页面都显示OK！但是没有任何东西被索引！但是我在根目录下确实有一个页面，它有自己的 TypoScript 模板！该页面确实被编入索引，但不是下面的页面！
很难猜测，如果您的较低级别页面包含例如一些 COA_INT 或 USER_INT（非缓存）元素，则该页面将不会被索引。
您是否在您的排版设置中设置了 `page.config.index_enable = 1`？
我设置了 index_enable = 1。我以某种方式怀疑 rootpage 是课程问题。那是被索引的，但不是孩子。

标签： php indexing web-crawler typo3 typo3-4.5

【解决方案1】：

显示爬虫队列的屏幕截图看起来不错。爬虫似乎配置正确，但索引搜索没有索引页面。空页面缓存表明您已禁用缓存 shomehow。

索引搜索是在满足少数条件时索引页面：

页面是可缓存的（TypoScript 中没有page.config.no_cache = 1，页面属性中没有禁用缓存，PHP 代码中没有禁用缓存）
源代码中有特殊标记和
TypoScript page.config.index_enable = 1 已设置
页面被访问的用户没有登录到后端或爬虫

你可以检查的是：

请在 TypoScript 对象浏览器中验证 index_enable 和 no_cache 值对于未编入索引的页面是否具有正确的值。
在扩展管理器中为爬虫和索引搜索启用调试模式
对于某些未编入索引的页面，单击“queue id”列中的数字并检查其中显示的数据。
在开始索引之前，仔细检查索引搜索配置记录中的“会话 ID”字段是否为空
从索引搜索配置记录的“下一个索引日期”字段中删除日期

几个有用的链接：

【讨论】：

确保定义“page.config.index_enable = 1”而不是简单的“config.index_enable = 1”。这对我有用
好的，文档很好，但是，在对所有抓取的 URL 进行查询之后，还有一种方法可以捕获它们并一次编制索引，而无需单击每个 URL 行中的每个按钮“读取 url”。在我的网站中，我必须索引大约 3000 页，而且不可能没有自动化的方法来做到这一点

【解决方案2】：

如果 Tymoteusz 的建议都不起作用，请检查您是否使用自签名证书以 https 模式运行您的网站（例如，如果您在本地计算机上开发）。如果是这种情况，只需在没有 https 的情况下运行您的网站并重新测试爬虫。我最近测试了一个正确配置了爬虫和 indexed_search 的 TYPO3 6.2 网站，并且页面从未被编入索引。我在爬虫日志中收到的错误是一条空的错误消息，并且在数据库中 tx_crawler_queue 表显示值 b:0;在“结果数据”列中。一旦我传递给 http，一切都正常。

在生产中，只要您使用有效的证书，它就可以使用 https 正常工作。

【讨论】：