【问题标题】:typo3 site crawler not indexing错字3网站爬虫没有索引
【发布时间】:2016-01-17 14:50:53
【问题描述】:

我正在尝试在旧的 TYPO3 4.5 网站上使用索引搜索和站点爬虫索引页面 - 但我尝试了几乎任何方法都无济于事。

我正在运行网站爬虫,它会获取可以爬取的 URL 的完整列表,并且我正在运行整个队列

我已经设置了一个“索引配置”

还有一个网站爬虫

但它不会索引

“cache_pages”表似乎也是空的 - 但所有页面都启用了缓存。

我可能会错过什么?

【问题讨论】:

  • 您是否添加并运行了一个调度程序任务以通过收集的 URL 进行爬网?队列视图上应该有一些状态 - 好的,或者一些错误。但是什么都没有
  • 所有页面都显示OK!但是没有任何东西被索引!但是我在根目录下确实有一个页面,它有自己的 TypoScript 模板!该页面确实被编入索引,但不是下面的页面!
  • 很难猜测,如果您的较低级别页面包含例如一些 COA_INT 或 USER_INT(非缓存)元素,则该页面将不会被索引。
  • 您是否在您的排版设置中设置了 `page.config.index_enable = 1`?
  • 我设置了 index_enable = 1。我以某种方式怀疑 rootpage 是课程问题。那是被索引的,但不是孩子。

标签: php indexing web-crawler typo3 typo3-4.5


【解决方案1】:

显示爬虫队列的屏幕截图看起来不错。爬虫似乎配置正确,但索引搜索没有索引页面。 空页面缓存表明您已禁用缓存 shomehow。

索引搜索是在满足少数条件时索引页面:

  1. 页面是可缓存的(TypoScript 中没有page.config.no_cache = 1,页面属性中没有禁用缓存,PHP 代码中没有禁用缓存)
  2. 源代码中有特殊标记<!--TYPO3SEARCH_begin--><!-- TYPO3SEARCH_end-->
  3. TypoScript page.config.index_enable = 1 已设置
  4. 页面被访问的用户没有登录到后端或爬虫

你可以检查的是:

  • 请在 TypoScript 对象浏览器中验证 index_enable 和 no_cache 值对于未编入索引的页面是否具有正确的值。
  • 在扩展管理器中为爬虫和索引搜索启用调试模式
  • 对于某些未编入索引的页面,单击“queue id”列中的数字并检查其中显示的数据。
  • 在开始索引之前,仔细检查索引搜索配置记录中的“会话 ID”字段是否为空
  • 从索引搜索配置记录的“下一个索引日期”字段中删除日期

几个有用的链接:

【讨论】:

  • 确保定义“page.config.index_enable = 1”而不是简单的“config.index_enable = 1”。这对我有用
  • 好的,文档很好,但是,在对所有抓取的 URL 进行查询之后,还有一种方法可以捕获它们并一次编制索引,而无需单击每个 URL 行中的每个按钮“读取 url”。在我的网站中,我必须索引大约 3000 页,而且不可能没有自动化的方法来做到这一点
【解决方案2】:

如果 Tymoteusz 的建议都不起作用,请检查您是否使用自签名证书以 https 模式运行您的网站(例如,如果您在本地计算机上开发)。如果是这种情况,只需在没有 https 的情况下运行您的网站并重新测试爬虫。我最近测试了一个正确配置了爬虫和 indexed_search 的 TYPO3 6.2 网站,并且页面从未被编入索引。我在爬虫日志中收到的错误是一条空的错误消息,并且在数据库中 tx_crawler_queue 表显示值 b:0;在“结果数据”列中。 一旦我传递给 http,一切都正常。

在生产中,只要您使用有效的证书,它就可以使用 https 正常工作。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-09-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多