Abot Crawler 省略 CrawledPage HttpWebRequest/Response

Abot Crawler Omit CrawledPage HttpWebRequest/Response

我使用 Abot 的方式是我有一个显示浏览器控件 (CefSharp) 的 WPF 应用程序。 用户登录,网站使用的任何可能的自定义身份验证都将在抓取时以与用户实际浏览网站相同的方式工作。

因此,当我抓取时,我想使用这个浏览器控件来发出请求并简单地return 页面数据。 因此,我实现了我的自定义 PageRequester,完整列表如下。

问题在于,与其他浏览器控件一样,CefSharp 无法获得与 CrawlPage 关联的 HttpWebRequest/Response。 如果不设置这两个属性,Abot 将不会继续抓取。

有什么办法可以避免这个问题吗?

代码清单:

using Abot.Core;
using Abot.Poco;
using CefSharp.Wpf;
using System;
using System.Net;
using System.Text;
using System.Threading;

public class CefPageRequester : IPageRequester
{
    private MainWindowDataContext DataContext;
    private ChromiumWebBrowser ChromiumWebBrowser;
    private CrawlConfiguration CrawlConfig;

    private volatile bool _navigationCompleted;
    private string _pageSource;

    public CefPageRequester(MainWindowDataContext dataContext, ChromiumWebBrowser chromiumWebBrowser, CrawlConfiguration crawlConfig)
    {
        this.DataContext = dataContext;
        this.ChromiumWebBrowser = chromiumWebBrowser;
        this.CrawlConfig = crawlConfig;

        this.ChromiumWebBrowser.FrameLoadEnd += ChromiumWebBrowser_FrameLoadEnd;
    }

    public CrawledPage MakeRequest(Uri uri)
    {
        return this.MakeRequest(uri, cp => new CrawlDecision() { Allow = true });
    }

    public CrawledPage MakeRequest(Uri uri, Func<CrawledPage, CrawlDecision> shouldDownloadContent)
    {
        if (uri == null)
            throw new ArgumentNullException("uri");

        CrawledPage crawledPage = new CrawledPage(uri);

        try
        {
            //the browser control is bound to the address of the data context, 
            //if we set the address directly it breaks for some reason, although it's a two way binding.
            this.DataContext.Address = uri.AbsolutePath;

            crawledPage.RequestStarted = DateTime.Now;
            crawledPage.DownloadContentStarted = crawledPage.RequestStarted;

            while (!_navigationCompleted)
                Thread.CurrentThread.Join(10);
        }
        catch (WebException e)
        {
            crawledPage.WebException = e;
        }
        catch
        {
            //bad luck, we should log this.
        }
        finally
        {
            //TODO must add these properties!!
            //crawledPage.HttpWebRequest = request;
            //crawledPage.HttpWebResponse = response;
            crawledPage.RequestCompleted = DateTime.Now;
            crawledPage.DownloadContentCompleted = crawledPage.RequestCompleted;
            if (!String.IsNullOrWhiteSpace(_pageSource))
                crawledPage.Content = this.GetContent("UTF-8", _pageSource);

            _navigationCompleted = false;
            _pageSource = null;
        }

        return crawledPage;
    }

    private void ChromiumWebBrowser_FrameLoadEnd(object sender, CefSharp.FrameLoadEndEventArgs e)
    {
        if (!e.IsMainFrame)
            return;

        this.ChromiumWebBrowser.Dispatcher.BeginInvoke(
            (Action)(() =>
            {
                _pageSource = this.ChromiumWebBrowser.GetSourceAsync().Result;
                _navigationCompleted = true;
            }));
    }

    private PageContent GetContent(string charset, string html)
    {
        PageContent pageContent = new PageContent();
        pageContent.Charset = charset;
        pageContent.Encoding = this.GetEncoding(charset);
        pageContent.Text = html;
        pageContent.Bytes = pageContent.Encoding.GetBytes(html);

        return pageContent;
    }

    private Encoding GetEncoding(string charset)
    {
        Encoding e = Encoding.UTF8;
        if (charset != null)
        {
            try
            {
                e = Encoding.GetEncoding(charset);
            }
            catch { }
        }

        return e;
    }
}

问题也可以表述为:如何避免必须从流创建 HttpWebResponse?鉴于 MSDN says

,这似乎是不可能的

You should never directly create an instance of the HttpWebResponse class. Instead, use the instance returned by a call to HttpWebRequest.GetResponse.

我实际上必须 post 请求才能得到响应,这正是我想要通过使用网络浏览器控件来避免的。

如您所知,许多功能取决于所设置的 HttpWebRequest 和 HttpWebResponse。我已经为您订购了一些选项...

1) 重构 Abot 以使用一些 POCO 抽象而不是那些 类。然后只需要一个将真正的 HttpWebRequest 和 HttpWebResponse 转换为那些 POCO 类型的转换器,以及一个将您的浏览器对象响应转换为那些 POCO 的转换器。

2) 创建一个继承自 .net 类 的 CustomHttpWebRequest 和 CustomHttpWebResponse,这样您就可以 access/override public/protected 属性,这可能允许您手动创建一个模拟request/response 您的浏览器组件 return 是给您的。我知道这可能很棘手,但可能会奏效(我从未做过,所以我不能肯定地说)。

3) [我讨厌这个主意。它应该是你最后的选择] 创建这些 类 的真实实例并使用反射来设置任何 properties/values 需要设置以满足 Abot 的所有用法。

4) [我更讨厌这个想法] 使用 MS Fakes 创建 shims/stubs/fakes HttpWebRequest 和 HttpWebResponse 的属性和方法。然后您可以将其配置为 return 您的值。这个工具通常只用于测试,但我相信如果你不顾一切,它可以用于生产代码,不关心性能 and/or 是疯了。

我还包括了一些糟糕的想法,以防它们能帮助你激发一些想法。希望对您有所帮助...