【发布时间】:2017-04-26 10:14:21
【问题描述】:
我想从一些博客网站捕获一些博客。我知道使用HttpClient获取html字符串,然后使用Html Agility Pack捕获特定html标签下的内容。但是如果你用WebView来显示这个html字符串,你会发现它在移动端并不好。例如,css 样式将无法正确加载。一些代码块不会自动换行。有些图片不会显示(它会显示 x)。
一些广告也会显示,但我不想要。
有人知道怎么获得吗?任何建议都会受到重视。
【问题讨论】:
我想从一些博客网站捕获一些博客。我知道使用HttpClient获取html字符串,然后使用Html Agility Pack捕获特定html标签下的内容。但是如果你用WebView来显示这个html字符串,你会发现它在移动端并不好。例如,css 样式将无法正确加载。一些代码块不会自动换行。有些图片不会显示(它会显示 x)。
一些广告也会显示,但我不想要。
有人知道怎么获得吗?任何建议都会受到重视。
【问题讨论】:
尝试通过Google Mobilizer 之类的方式运行html 字符串。这应该会生成一个对移动设备更友好的 html 字符串,然后您可以使用 Agility 包“解包”
【讨论】:
理想情况下,您应该捕获 HTML 页面及其所有相关资源:CSS 文件、图像、脚本…… 然后更新 HTML 内容,以便从本地数据存储中检索资源(例如,如果您将 HTML 页面保存在本地,则相对 URL 将不再起作用)。
您还可以发送带有User-Agent 标头的 HTTP 请求,该标头对应于 Microsoft 浏览器使用的标头,以便从网站获取相应版本(如果他们进行某种用户代理嗅探)。
【讨论】: