从字符串中删除所有非字母字符,包括 & 或任何 & 代码

Remove all non alpha characters from a string including   & or any & code

给定一个像 "Whatup &nbsp; <b>whatever<b> \n" 这样的字符串,我需要将其转换为 "Whatup whatever"。

我非常接近我的以下方法,但我找不到删除动态 &amp;&nbsp; 类型代码的好方法。我不想 gsub 每一个(就像我用逗号做的那样)——有成千上万行和许多不同的代码......等等

欢迎任何指点。

  def self.clean_string(st)
    return strip_tags(st).force_encoding("UTF-8").gsub(",","").squish if st and st != ""
  end

对于 HTML 个实体,添加此正则表达式替换:

.gsub(/&[^;]+;/, '')

它将从文本中删除任何 &amp; 样式的实体。