【问题标题】:HTML table Parsing xcodeHTML表格解析xcode
【发布时间】:2013-04-09 10:49:27
【问题描述】:

我正在尝试解析:[www.neiu.edu/~neiutemp/PhoneBook/alpha.htm] 使用 TFHPPLE 解析器,我正在从表中的每个 TR(行)中查找第一个 TD(第一列) .这里 TD 的所有属性都是相同的。我无法区分 TD。
我能够获取所有 HTML 代码,但无法从每个 TR 中获取第一个 TD。在// 3(在代码中)tutorialsNodes 之后是空的。的输出

NSLog(@"Nodes are : %@",[tutorialsNodes description]);

练习1[62351:c07] 节点是:()。

我看不出有什么问题。任何帮助,将不胜感激。 我解析此 URL 的代码:

NSURL *tutorialsUrl = [NSURL URLWithString:@"http://www.neiu.edu/~neiutemp/PhoneBook/alpha.htm"];
NSData *tutorialsHtmlData = [NSData dataWithContentsOfURL:tutorialsUrl];

// 2
TFHpple *tutorialsParser = [TFHpple hppleWithHTMLData:tutorialsHtmlData];

// 3
NSString *tutorialsXpathQueryString = @"//TR/TD";
NSArray *tutorialsNodes = [tutorialsParser searchWithXPathQuery:tutorialsXpathQueryString];
NSLog(@"Nodes are : %@",[tutorialsNodes description]);
// 4
NSMutableArray *newTutorials = [[NSMutableArray alloc] initWithCapacity:0];
for (TFHppleElement *element in tutorialsNodes) {
    // 5
    Tutorial *tutorial = [[Tutorial alloc] init];
    [newTutorials addObject:tutorial];

    // 6
    tutorial.title = [[element firstChild] content];

    // 7
    tutorial.url = [element objectForKey:@"href"];

    NSLog(@"title is: %@",[tutorial.title description]);
}

// 8
_objects = newTutorials;
[self.tableView reloadData];

【问题讨论】:

  • Xcode 不解析 HTML。这是针对 OS X os iOS 的吗?您应该相应地改写为“使用 Cocoa/Cocoa Touch”。
  • 我已经重写了问题。

标签: ios objective-c html-parsing


【解决方案1】:

如果您使用 @"//tr/td" 而不是 @"//TR/TD",这应该可以工作。

但是,查看您的 HTML,由于其作者显然不知道如何拼写 CSS,因此您在整个源代码中都隐藏了字体标签。所以,你的下一行代码,显然取自优秀的Hpple tutorial by Matt Galloway on Ray Wenderlich's site,说:

tutorial.title = [[element firstChild] content];

但这在这里行不通,因为对于您的大多数条目,firstChild 不是text,而是font 标记。所以你可以检查它是否是这样的字体标签:

TFHppleElement *subelement = [element firstChild];
if ([[subelement tagName] isEqualToString:@"font"])
    subelement = [subelement firstChild];
tutorial.title = [subelement content];

或者,您也可以只搜索@"//tr/td/font" 而不是@"//tr/td"。这里有很多方法。诀窍(就像所有的 HTML 解析一样)是让它相当健壮,这样你就不会受到页面的细微修饰的影响。

显然,您的 HTML 没有 URL,因此该代码不适用于此处。

无论如何,我希望这足以让你继续前进。


你报告有问题,所以我想我只是提供一个更完整的代码示例:

NSURL *tutorialsUrl = [NSURL URLWithString:@"http://www.neiu.edu/~neiutemp/PhoneBook/alpha.htm"];
NSData *tutorialsHtmlData = [NSData dataWithContentsOfURL:tutorialsUrl];

TFHpple *tutorialsParser = [TFHpple hppleWithHTMLData:tutorialsHtmlData];

NSString *tutorialsXpathQueryString = @"//tr/td";
NSArray *tutorialsNodes = [tutorialsParser searchWithXPathQuery:tutorialsXpathQueryString];

if ([tutorialsNodes count] == 0)
    NSLog(@"nothing there");
else
    NSLog(@"There are %d nodes", [tutorialsNodes count]);

NSMutableArray *newTutorials = [[NSMutableArray alloc] initWithCapacity:0];
for (TFHppleElement *element in tutorialsNodes) {

    Tutorial *tutorial = [[Tutorial alloc] init];
    [newTutorials addObject:tutorial];

    TFHppleElement *subelement = [element firstChild];
    if ([[subelement tagName] isEqualToString:@"font"])
        subelement = [subelement firstChild];
    tutorial.title = [subelement content];

    NSLog(@"title is: %@", [tutorial.title description]);
}

产生以下输出:

2013-05-10 19:39:42.027 hpple-test[33881:c07] 有 10773 个节点 2013-05-10 19:39:42.028 hpple-test[33881:c07] 标题是:A 2013-05-10 19:39:46.027 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:46.698 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:47.333 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:47.827 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:48.358 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:49.133 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:49.775 hpple-test[33881:c07] 标题是:Abay,Hiwet B 2013-05-10 19:39:50.326 hpple-test[33881:c07] 标题是:H-Abay 2013-05-10 19:39:50.992 hpple-test[33881:c07] 标题是:773-442-5140 2013-05-10 19:39:51.597 hpple-test[33881:c07] 标题是:(空) 2013-05-10 19:39:52.092 hpple-test[33881:c07] 标题是:控制器 2013-05-10 19:39:52.598 hpple-test[33881:c07] 标题是:E 2013-05-10 19:39:53.149 hpple-test[33881:c07] 标题是:223 2013-05-10 19:39:55.040 hpple-test[33881:c07] 标题是:Abbruscato,Terence 2013-05-10 19:39:55.806 hpple-test[33881:c07] 标题是:T-Abbruscato 2013-05-10 19:39:56.525 hpple-test[33881:c07] 标题是:773-442-5339 ...

【讨论】:

  • 非常感谢罗布。有用。但是在:NSLog(@"title is: %@",[tutorial.title description]);,我得到了:2013-05-10 14:23:15.375 Practice1[78352: c07] title is: (null) 作为输出。我使用 tr/td/font 作为 xpathQueryString。有更多建议请!
  • @MitraPatel 我已经用更完整的代码示例更新了我的答案。
  • 我得到了同样的结果非常感谢。
猜你喜欢
  • 1970-01-01
  • 2013-01-02
  • 2011-01-04
  • 2015-08-17
  • 1970-01-01
  • 1970-01-01
  • 2016-09-20
  • 2014-09-03
  • 2018-08-28
相关资源
最近更新 更多