【发布时间】:2014-07-29 02:47:28
【问题描述】:
嗨,所以我尝试在浏览器中打开下面的链接,它可以工作,但不能在代码中。该链接实际上是一个新闻站点的组合,然后是从另一个文件 url.txt 调用的文章的扩展名。我在普通网站 (www.google.com) 上尝试了代码,它运行良好。
import sys
import MySQLdb
from mechanize import Browser
from bs4 import BeautifulSoup, SoupStrainer
from nltk import word_tokenize
from nltk.tokenize import *
import urllib2
import nltk, re, pprint
import mechanize #html form filling
import lxml.html
with open("url.txt","r") as f:
first_line = f.readline()
#print first_line
url = "http://channelnewsasia.com/&s" + (first_line)
t = lxml.html.parse(url)
print t.find(".//title").text
这就是我遇到的错误。
这是 url.txt 的内容
/news/asiapacific/australia-to-send-armed/1284790.html
【问题讨论】: