Ruby PDF::Reader 使用正则表达式匹配要点
Ruby PDF::Reader matching bullet point with Regex
我用 PDF::Reader 解析了 Ruby 中的一个 pdf 文档。 pdf 文件的要点在我解析的文本中显示为一个奇怪的立方体,里面有 F0B7,如下所示(我还附上了打印屏幕):
__
|F0|
|B7|
我想知道我是否可以将此 "bullet point" 与正则表达式匹配,如果可以,那么合适的方法是什么?我完全不知道要解决这个问题,因为我什至不确定这是不是字符串的一部分。谢谢
这是一个带有 codepoint F0B7
的 unicode 符号。
不幸的是,您的 Ubuntu 安装有一个缺少该字形的默认字体,当字体定义中缺少字形时,常用方法 是绘制它的代码点在一个正方形中。
匹配它的正则表达式是:
/\uF0B7/
我用 PDF::Reader 解析了 Ruby 中的一个 pdf 文档。 pdf 文件的要点在我解析的文本中显示为一个奇怪的立方体,里面有 F0B7,如下所示(我还附上了打印屏幕):
__
|F0|
|B7|
我想知道我是否可以将此 "bullet point" 与正则表达式匹配,如果可以,那么合适的方法是什么?我完全不知道要解决这个问题,因为我什至不确定这是不是字符串的一部分。谢谢
这是一个带有 codepoint F0B7
的 unicode 符号。
不幸的是,您的 Ubuntu 安装有一个缺少该字形的默认字体,当字体定义中缺少字形时,常用方法 是绘制它的代码点在一个正方形中。
匹配它的正则表达式是:
/\uF0B7/