BizTalk 尝试连接到服务器 "DB" 上的 "BizTalkMgmtDb" SQL 服务器数据库失败

BizTalk An attempt to connect to "BizTalkMgmtDb" SQL Server database on server "DB" failed

我 运行 BizTalk 生产环境在两个独立的虚拟机 (Hyper-V) 上,我们称它们为 APP 和 DB。它们在同一个网络中,与域控制器绑定。我在虚拟机中的网络适配器和虚拟化主机中的虚拟交换机上使用了 2 个我们公司的 DNS。

问题是 有时 DB 收到无法授权 APP 的错误,这是一个阻止程序 - 一切都失败了。我找不到任何模式,这发生在 3 到 6 个月内,对我来说完全是随机的。

首先我归咎于域,但在域控制器主机中没有关于它的日志。我也责怪网络,但网络管理员也有 none 有关任何故障的信息,我也没有。

建议我监视什么以及如何检测错误。

从APP角度看有错误:

An attempt to connect to "BizTalkMgmtDb" SQL Server database on server "DB" failed.
Error: "Login failed. The login is from an untrusted domain and cannot be used with Windows authentication."

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">  
 <System>    
  <Provider Name="BizTalk Server" />    
  <EventID Qualifiers="49344">6913</EventID>    
  <Level>2</Level>    
  <Task>1</Task>    
  <Keywords>0x80000000000000</Keywords>    
  <TimeCreated SystemTime="2020-04-28T13:51:48.000000000Z" />    
  <EventRecordID>2831238</EventRecordID>    
  <Channel>Application</Channel>    
  <Computer>APP.mydomain.com</Computer>    
  <Security />    
  </System>    
 <EventData>    
  <Data>DB</Data>    
  <Data>BizTalkMgmtDb</Data>    
  <Data>Login failed. The login is from an untrusted domain and cannot be used with Windows authentication.</Data>    
  </EventData>    
  </Event>

从数据库的角度来看,我遇到了以下错误:

SSPI handshake failed with error code 0x80090311, state 14 while establishing a connection with integrated security; the connection has been closed. Reason: AcceptSecurityContext failed. The Windows error code indicates the cause of failure. [CLIENT: APP IP].

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">  
 <System>   
  <Provider Name="MSSQLSERVER" />   
  <EventID Qualifiers="49152">18452</EventID>   
  <Level>0</Level>   
  <Task>4</Task>   
  <Keywords>0x90000000000000</Keywords>   
  <TimeCreated SystemTime="2020-04-28T13:51:48.000000000Z" />   
  <EventRecordID>712620</EventRecordID>   
  <Channel>Application</Channel>   
  <Computer>DB.mydomain.com</Computer>   
  <Security />   
  </System>   
<EventData>   
  <Data>[CLIENT: APP IP]</Data>     <Binary>144800000E0000000900000042005400500052004F004400300032000000070000006D00610073007400650072000000</Binary>
  </EventData>   
  </Event>

第二个:

Login failed. The login is from an untrusted domain and cannot be used with Windows authentication. [CLIENT: APP IP]

<Event xmlns="http://schemas.microsoft.com/win/2004/08/events/event">   
 <System>    
  <Provider Name="MSSQLSERVER" />    
  <EventID Qualifiers="49152">17806</EventID>    
  <Level>2</Level>    
  <Task>4</Task>    
  <Keywords>0x80000000000000</Keywords>    
  <TimeCreated SystemTime="2020-04-28T13:51:48.000000000Z" />    
  <EventRecordID>712614</EventRecordID>    
  <Channel>Application</Channel>    
  <Computer>DB.mydomain.com</Computer>    
  <Security />    
  </System>    
 <EventData>    
  <Data>80090311</Data>    
  <Data>14</Data>    
  <Data>AcceptSecurityContext failed. The Windows error code indicates the cause of failure.</Data>    
  <Data>[CLIENT: APP IP]</Data>  
  <Binary>8E450000140000000900000042005400500052004F00440030003200000000000000</Binary>    
  </EventData>    
  </Event>

经过今天一整天的调查,我知道它看起来像 something/somebody 禁用了 APP 和 DB NIC -(没有禁用它的日志)。这绝对是网络相关问题,但我不知道如何监控或排除故障。也许 Hyper-V 本身有问题?

您的主机实例是否有集群故障转移?集群我们的主机实例时,我遇到了类似的问题。我向 Microsoft 开了一个事件单,经过大量调查我们无法找到根本原因,我们简单地卸载了集群服务。 Microsoft 支持使用他们每隔 1à 秒安排一次的工具(一个 .Net 控制台应用程序)open/close 从每个 Biztalk 服务器到 Db 服务器的连接并记录异常消息。这是一个与网络相关的问题

我发现了这个话题:

https://support.microsoft.com/en-us/help/2986895/virtual-machines-lose-network-connectivity-when-you-use-broadcom-netxt

适用于我的环境的 broadcomm 驱动程序和 VMQ 设置存在问题。

我会在下一次服务中尝试关闭 VMQ window。