是什么导致文本屏幕刮擦中出现这些符号?

What caused these symbols in a text screen scrape?

所以这是第一张图片

所以在图片中,红色印迹后面是我屏蔽的一些个人信息。它只是说一些字母数字字符。

这是怎么回事,我正在从这个网站上阅读 http://www.origoservices.com/

我使用的技术是基于 .NET 2.0 的。我正在做的是从一个非交互式字段中读取,该字段包含我希望从屏幕上读取的 7/8 个字符长度的配置文件编号。 99/100 次它工作正常,没有额外的文本填充或奇怪的符号,但在过去的 6 个月里,这种情况发生了 3 次,我不确定为什么。有人可以指出这些符号来自的正确方向吗?我似乎无法在任何 UTF 符号包或 unicode 符号包中找到它们。我尝试使用正则表达式模式从该字符串中删除所有字母数字字符,然后执行无限循环,在该循环中我将检查字符串是否包含 CharAt(Loop Iteration Value) 并逐步检查它,但这并没有取得成果。这是基于 HEX 的搜索(我相信),例如CharAt(62) = '>'.

我一直在搜索我能找到的每个符号站点,以查看该符号可能来自何处,就像一个未知的数据集,但也没有任何乐趣。现在我正在查看我从屏幕上刮出值的代码,我没有看到任何会导致这种情况的东西。

我的假设是,在客户端的某个地方,他们通过某种方法将数据放入浏览器未呈现的文本字段中,当我把它刮下来我的 .NET 解释器显示了这些填充案例的符号,但我不确定,因为我无法识别它们。当我打开我的 text/string 项目时,我可以清楚地看到这些值,但我无法确定它们属于哪一组符号。

我用谷歌搜索过的东西 奇怪的箭头符号 带有两个彼此相对的水平箭头的符号 未知符号看起来像 'H' 奇怪的字符看起来像 'H'/ 箭头指向彼此

和大约 30 种其他变体,但我一直在查找相同的数据集结果。

是否有人认识这些符号或知道可能导致它们被填充到非交互式文本字段中的原因?我唯一可以从符号中破译的是有一组 4 个符号重复出现 4 次。不过不确定我能从中得到什么。

非常感谢任何帮助,甚至将我指向包含这些的数据集,我可以从那里开始工作,这将是惊人的帮助!

谢谢

抱歉,应该早点发布答案。

事实证明,我用来读取脚本的软件没有问题,屏幕上出现的文本符号中的错误源于迁移过程中的客户端,他们正在整理系统上的数据以努力迁移转发到另一个平台。碰巧的是,他们用来上传数据的其中一台机器是一台 DOS 盒式机器,上面有一些公司成立时的文件。不知何故,这些文件在进入公司主网络时保留了名称中的 box-draw 个字符,并通过脚本上传到站点。

我只是设法解决了这个问题,方法是看到一个上传了这些字符的文件,然后打电话给公司查明它是什么,有人提到了 DOS 机器并对其进行了测试,并复制了行为。将用一些关键词标记这个答案,希望其他人将来不会受到这个问题的困扰。感谢@cxw 从一开始就为我指明了正确的方向。

未知符号、方框图字符、奇怪的箭头字符、屏幕上的未知字符集