我需要删除 Google 警报 URL
I need to strip a Google Alerts URL
作为序言,我知道有类似的主题,但我使用的是 C#,而不是 java、python 或 Php。部分线程提供了针对单个URL的解决方案,不具有通用性。谢谢你没有举报我。
所以我使用 Google 警报通过电子邮件获取文章链接。我已经编写了一个可以从电子邮件中删除 URL 的程序以及另一个用于抓取网站的程序。我的问题是 google 提醒电子邮件中的链接如下所示:
因为这会通过 google 重定向到实际文章,所以我的抓取程序无法处理这些链接。我已经从这里和其他来源的问题中尝试了一百万种不同的正则表达式。我设法剥离了实际文章的 http:// 之前的所有内容,但它的尾部仍然把它搞砸了。这是我到目前为止所拥有的。它们现在看起来像:
private List<string> GetLinks(string message)
{
List<string> list = new List<string>();
Regex urlRx = new Regex(@"((http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?)", RegexOptions.IgnoreCase);
MatchCollection matches = urlRx.Matches(message);
foreach (Match match in matches)
{
if(!match.ToString().Contains("news.google.com/news") && !match.ToString().Contains("google.com/alerts"))
{
string find = "=http";
int ind = match.ToString().IndexOf(find);
list.Add(match.ToString().Substring(ind+1));
}
}
return list;
}
一些帮助摆脱结尾的东西会很棒,无论是新的 RegEx 还是一些额外的代码。提前致谢。
您可以使用 HttpUtility.ParseQueryString
检索查询字符串的 url 部分。它位于 System.Web
命名空间(需要参考)。
var uri = new Uri("https://www.google.com/url?rct=j&sa=t&url=http://www.foxnews.com/health/2016/08/19/virtual-reality-treadmills-help-prevent-falls-in-elderly.html&ct=ga&cd=CAEYACoTOTc2NjE4NjYyNzMzNzc3NDcyODIaODk2NWUwYzRjMzdmOGI4Nzpjb206ZW46VVM&usg=AFQjCNGyK2EyVBLoKnNkdxIBDf8a_B3Ung");
var queries = HttpUtility.ParseQueryString(uri.Query);
var foxNews = queries["url"]; //http://www.foxnews.com/health/2016/08/19/virtual-reality-treadmills-help-prevent-falls-in-elderly.html
作为序言,我知道有类似的主题,但我使用的是 C#,而不是 java、python 或 Php。部分线程提供了针对单个URL的解决方案,不具有通用性。谢谢你没有举报我。
所以我使用 Google 警报通过电子邮件获取文章链接。我已经编写了一个可以从电子邮件中删除 URL 的程序以及另一个用于抓取网站的程序。我的问题是 google 提醒电子邮件中的链接如下所示:
因为这会通过 google 重定向到实际文章,所以我的抓取程序无法处理这些链接。我已经从这里和其他来源的问题中尝试了一百万种不同的正则表达式。我设法剥离了实际文章的 http:// 之前的所有内容,但它的尾部仍然把它搞砸了。这是我到目前为止所拥有的。它们现在看起来像:
private List<string> GetLinks(string message)
{
List<string> list = new List<string>();
Regex urlRx = new Regex(@"((http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?)", RegexOptions.IgnoreCase);
MatchCollection matches = urlRx.Matches(message);
foreach (Match match in matches)
{
if(!match.ToString().Contains("news.google.com/news") && !match.ToString().Contains("google.com/alerts"))
{
string find = "=http";
int ind = match.ToString().IndexOf(find);
list.Add(match.ToString().Substring(ind+1));
}
}
return list;
}
一些帮助摆脱结尾的东西会很棒,无论是新的 RegEx 还是一些额外的代码。提前致谢。
您可以使用 HttpUtility.ParseQueryString
检索查询字符串的 url 部分。它位于 System.Web
命名空间(需要参考)。
var uri = new Uri("https://www.google.com/url?rct=j&sa=t&url=http://www.foxnews.com/health/2016/08/19/virtual-reality-treadmills-help-prevent-falls-in-elderly.html&ct=ga&cd=CAEYACoTOTc2NjE4NjYyNzMzNzc3NDcyODIaODk2NWUwYzRjMzdmOGI4Nzpjb206ZW46VVM&usg=AFQjCNGyK2EyVBLoKnNkdxIBDf8a_B3Ung");
var queries = HttpUtility.ParseQueryString(uri.Query);
var foxNews = queries["url"]; //http://www.foxnews.com/health/2016/08/19/virtual-reality-treadmills-help-prevent-falls-in-elderly.html