在 Selenium 中设置磁盘缓存大小,同时抓取多个网站?

Setting Disk Cache size in Selenium, while webscraping multiple websites?

根据可用信息,我了解到在 selenium 中设置磁盘缓存大小有助于加快网页加载速度,当我们在单个网站上进行抓取或任何操作时。但我的问题是,如果我们在处理多个网站时设置磁盘缓存大小有什么好处?

或者设置磁盘缓存大小实际上是错误的?当抓取多个网页时,即网站可以跟踪我们正在抓取的方式?

Disk Cache是一个高速缓存,用于加速从主机硬盘存储和访问数据的过程。它可以在reading/writing、硬盘内存内存之间发出命令和其他I/O进程时加快处理速度=46=]计算组件。磁盘缓存也称为 磁盘缓冲区 缓存缓冲区


Chromium disk cache

磁盘缓存存储从网络上获取的资源,以便以后需要时可以快速访问它们。主要特点是:

  • 缓存不应无限增长,因此必须有一种算法来决定何时删除旧条目。
  • 虽然从缓存中丢失一些数据并不重要,但应该尽量减少丢弃整个缓存的情况。目前的设计应该能够优雅地处理应用程序崩溃,不管当时发生了什么,只丢弃当时打开的资源。但是,如果我们在更新缓存时整个计算机都崩溃了,那么缓存中的所有内容可能都会被丢弃。
  • 访问以前存储的数据应该相当高效,并且应该可以使用同步或异步操作。
  • 我们应该能够避免阻止我们同时存储两个给定资源的冲突。换句话说,设计应该避免缓存垃圾。
  • 应该可以从缓存中删除给定的条目,并继续使用给定的条目,同时使其他请求无法访问它(就好像它从未存储过一样)。
  • 缓存不应使用显式多线程同步,因为它将始终从同一线程调用。但是,回调应该避免重入问题,因此它们必须通过线程的消息循环发出。

结论

总而言之,默认情况下 will be configured with the default value for the 用户可以根据各自的用例进行配置。


Changing Chrome Cache size on Windows 10

只有一种方法可以用来设置和限制GoogleChrome的缓存大小

  • 启动 Google Chrome.

  • 右键单击任务栏上 Google Chrome 的图标,然后再次右键单击标记为 Google Chrome.[=80= 的条目]
  • 现在单击“属性”。它将打开 Google Chrome 属性 window.
  • 导航到标记为“快捷方式”的选项卡。
  • 在名为 Target 的字段中,在完整地址后键入以下内容:

    -disk-cache-size-<size in bytes>
    
  • 例如配置为-disk-cache-size-2147483648:

    "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" -disk-cache-size-2147483648
    

Here 2147483648 is the size of the cache in bytes which is equal to 2 Gigabytes.

  • 点击Apply然后点击OK设置限制。