【发布时间】:2014-09-18 17:57:25
【问题描述】:
我有这行:
<a onmouseover="EnterContent('ToolTip','לחיילים ולתושבי הדרום באהבה','<u><span style=color:#000099;>כתב: רוטרית בתאריך: 22.07.14 שעה: 08:56</span></u><br>המון רצון לעזור, להתנדב, להעניק, לפנק, לאהוב, ולחבק קיים היום בעם.<br>נצלו אשכול זה לפרסם דברים שיוכלו לעזור לחיילים ולתושבי הדרום.<br><br>חיילים, ותו...'); Activate();" onmouseout="deActivate()" href="javascript:void(0)">
从这一行我只需要得到希伯来语单词。 删除所有标签和鼠标悬停和工具提示和无效,只留下希伯来语和部分中的单词:בתאריך:22.07.14 שעה:08:56
或者在这种情况下:
<a onmouseover="EnterContent('ToolTip','אין לדווח בפורום על תנועת כוחות, סדרי כוחות, פעילות מבצעית וכל דיווח המסכן חיי חיילים','<u><span style=color:#000099;>כתב: מובחר בתאריך: 17.07.14 שעה: 23:20</span></u><br>[anchor:אשכול עוגן מתאריך 17.07.14 בשעה 23:20 על-ידי Maya, (גלובל)]במסגרת הכניסה הקרקעית במבצע צוק איתן, ההנהלה פונה אליכם ומבקשת בכל לשון של בקשה...'); Activate();" onmouseout="deActivate()" href="javascript:void(0)">
再次留下所有希伯来语单词和: מתאריך 17.07.14 בשעה 23:20
我该怎么做?
我有这个方法用来解析文本:
public List<string> CreateTextList(string filePath)
{
List<string> text = new List<string>();
var htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.OptionFixNestedTags = true;
htmlDoc.Load(filePath, System.Text.Encoding.GetEncoding(65001));
if (htmlDoc.DocumentNode != null)
{
var nodes = htmlDoc.DocumentNode.SelectNodes("//a/b");
foreach (var node in nodes)
{
text.Add(node.InnerText);
}
}
text = Filters.filterNumbers(text);
return text;
}
它运行良好,但它获取文件而不是行/文本。
【问题讨论】: