lucifer890

关于浏览器收藏夹导入

最近一个朋友做了个浏览器,想直接从遨游导入到自己的浏览器,

他问我可以怎么做,我后来看了一下,发现需要相关东西太多,我做不了,就做了个简便的,先将遨游导出为HTML,然后导入到本地。

做的不是很好,大家随便看看

主要是读取HTML文件中<a>标签里的内容,用了点正则

public static void RH(string path)
        {
            //string p = "收藏2011-07-02.html";
            string dirPath = HttpContext.Current.Server.MapPath(path);
            string p1 = HttpContext.Current.Server.MapPath("test.txt");

            StreamReader sr = new StreamReader(dirPath, Encoding.Default);
            string HtmlCode = sr.ReadToEnd();
            sr.Dispose();
            sr.Close();
            string reg = @"<a[^>]*href=(""(?<href>[^""]*)""|\'(?<href>[^\']*)\'|(?<href>[^\s>]*))[^>]*>(?<text>[\s\S]*?)</a>";
            Regex re = new Regex(reg);
            MatchCollection mc1 = Regex.Matches(HtmlCode, reg, RegexOptions.IgnoreCase | RegexOptions.Compiled);

            StreamWriter sw = new StreamWriter(p1, true, Encoding.Default);
            for (int i = 0; i < mc1.Count; i++)
            {
                string href = mc1[i].Groups["href"].Value;// 这里取到了#
                string text = mc1[i].Groups["text"].Value;// 这是text内容,就是<a>这里的内容</a>
               
                sw.WriteLine("链接:"+href+"内容:"+text);
              
            }
            sw.Flush();
            sw.Close();
           
        }

分类:

技术点:

相关文章: