访问外部设备时 ARM Cortex 上的 SIGBUS

SIGBUS on ARM Cortex when accessing external device

我有一个带有四核 ARM Cortex 的 Zynq UltraScale MPSoC 运行 Linux。有时,某个事件会生成 SIGBUS 错误。我在下面包含了一段调试分析。我确信 dst 和 src 的值在合法区域。实际访问本身是从 FPGA 内存资源到内部 ARM 内存位置的复制例程。

我在另一个 post 中读到,SIGBUS 的原因可能是 I/O 故障。任何人都可以扩展 "I/O failure" 与 ARM 的关系吗?我设想,类似于失败的总线确认。

相对于 ARM Cortex,是否有与机器检查寄存器等效的东西可以提供对 SIGBUS 原因的进一步洞察?

#0 ecfm_copy_table_entry_backward (dst=dst@entry=0xee189830, src=<optimized out>, num_words=num_words@entry=72) at src/software/saos-sds/ecfm_driver/ecfm_driver.c:478
#1 0xf658347c in ecfm_copy_table_entry_backward (num_words=72, src=<optimized out>, dst=0xee189830) at src/software/saos-sds/ecfm_driver/ecfm_driver.c:1186
#2 ecfm_get_rx_stats (session_id=session_id@entry=2637, stat=stat@entry=0xee189830) at src/software/saos-sds/ecfm_driver/ecfm_driver.c:1185
#3 0x011c463c in eCfmApiGetRxProcessingStats (sessionId=<optimized out>, stat=0xee1898e0) at src/software/saos-sds/leos/platform/common/src/eCfmApi.c:1836
#4 0x011d6aac in halFPGAGetStats (pPlatformData=pPlatformData@entry=0xe7f98abc, lossStats=0xee1899a8, lossStats@entry=0xee1899a0)
at src/software/saos-sds/leos/platform/common/src/halEcfmFpgaApi.c:2214
#5 0x00a71870 in cfmAgentReadHwStats (data=0xe7f98a70, role=<optimized out>, testType=<optimized out>) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmApal.c:1760
#6 0x009fd39c in cfmTestSessionSmiSmEvent (pSession=0xe7f98a70, event=event@entry=CfmTestSmiEvent_DeltaTComplete)
at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfm.c:26242
#7 0x00a75f04 in cfmApalOamFpgaSessionStatusIntHdlr (context=<optimized out>, pMsg=<optimized out>) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmApal.c:2461
#8 cfmApalOamFpgaHalY1731IntHdlr (context=<optimized out>, pMsg=0x37b7768 <__func__.44940>) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmApal.c:2548
#9 0x00a7cf04 in oamMsgDispatchMsgList (msgList=msgList@entry=0x68dfae8, pMsgContext=pMsgContext@entry=0xee189bc8)
at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/oamMsg.c:92
#10 0x00a76e50 in cfmHalDispatchMsgList (cpe=<optimized out>, msgList=msgList@entry=0x68dfae8) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmApal.c:594
#11 0x00a8f2cc in CfmAgentMsgHdlr (sig=<optimized out>) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmAgent.c:1335
#12 0x00a9045c in cfmAgentTmoHdlr (cycle=<optimized out>, extraProcTimeMs=0) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmAgent.c:1383
#13 0x00a90598 in cfmAgentMain (arg=<optimized out>) at src/software/saos-sds/leos/common/src/genericSwitch/cfm/src/cfmAgent.c:1441
#14 0x0112ea8c in thread_prologue (arg=<optimized out>) at src/software/saos-sds/leos/os/linux/src/ose_shim.c:1273
#15 0xf704af8c in start_thread (arg=0xee18a3e0) at pthread_create.c:335
#16 0xf646b0a0 in ?? () at ../sysdeps/unix/sysv/linux/arm/clone.S:89
from /localdata/perforce/ankgoyal/oneos/branches/saos-sds/dev/main/build/saos-sds/fs/eredan_tarfs/debug/eredan/armv7a/lib/libc.so.6
Backtrace stopped: previous frame identical to this frame (corrupt stack?)
(gdb) ore was generated by `/mnt/apps/bin/leos -s'.
(gdb) Program terminated with signal SIGBUS, Bus error.

SIGBUS是一个软件信号,由Linux内核产生,所以你需要理解为什么内核会产生SIGBUS信号。这可能是硬件异常,也可能不是。

确保数据与其类型和您正在执行的操作正确对齐。 SIGBUS 的原因之一是无效对齐。尝试使用未优化的代码重现错误(例如,对于 GCC 或 Clang,不传递 -O 选项)。

如果您已确认对齐不是问题,请检查访问权限在哪个范围内。如果由于访问设备总线而获得 SIGBUS,则需要弄清楚该内存如何映射到您的进程,以及设备在该地址公开的内容。

检查内核日志。它们可能包含来自 SIGBUS 生成的调试信息。

如果信号是由于硬件故障引起的,异常的原因确实是在一个寄存器中传达的,但只有内核才能读取这个寄存器的值。相关寄存器为 DFSR and DFAR for a failed data fetch or store, and IFSR and IFAR 表示指令错误。但是,如果您设法找到内核内部正在发生的事情,则只能使用此信息。