从字符串中提取 2 个不同语言的子字符串

Extract 2 substring in different languages from string

我有一个字符串,其中包含我解析的 RSS 项目的描述。 该字符串包含描述(希伯来语)、图像 URL 和其他一些我不需要的字符。

我正在寻找一种方法来将描述和 URL 提取到 2 个新字符串中。

就 URL 而言,我找到了适合我的解决方案。 但是,由于父级中描述部分的位置和长度是未知的,所以我有点坚持......

** 我有一个想法并试图弄清楚如何正确编码:

String parent;
for (int i = 0; i < parent.length; i++) {
char currentChar = parent.charAt(i);
// check if the Char is in Hebrew and remove any other Char
}

不过这个想法是有问题的, 因为除了希伯来语, 我还需要保存多语言字符(即数字、句点、逗号、引号等)。

以下是字符串的几个示例: (部分内容为希伯来语,如有不便之处敬请见谅)

"במשטרה חושדים כי פיודור בייז'ניריי הצליח לרצוח ולאנוס ללא חשדות נגדו<p><img src=\"http:\/\/images.nana10.co.il\/upload\/mediastock\/img\/11\/0\/258\/258180.jpg\" alt=\"\" title=\"\"\/><\/p>

<p style=\"direction:rtl; clear:both\">\t\t\t <a href=\"http:\/\/news.walla.co.il\/item\/2956715\"> <img hspace=5 border=0 align=\"right\" src=\"http:\/\/msc.wcdn.co.il\/archive\/2132766-18.jpg\" \/>  <\/a> <BR> \n\t\t\tלוחמי משמר הגבול מצאו במהלך סיור באחת משכונות מזרח ירושלים כלב פצוע שעורר את חשדם. הם פינו את הכלב לטיפול במרפאה וטרינרית שם התברר כי הוא נגנב למטרת שימוש בקרבות כלבים. בעלי הכלב: \"אנחנו עדיין לא מעכלים שהוא חזר אלינו\"<\/p>

"הערב בחדשות: גילויים חדשים סביב מעצרו של מי שבמשטרה מכנים \"הרוצח הסדרתי\"; במרחק נגיעה מחיזבאללה - כתבנו במוצב הרגיש בצפון; ניצחונות סוחפים לטראמפ וקלינטון; בניגוד לחוק: בתי אבות מסרבים לקבל אליהם נשא של נגיף ה- HIV ; חשופים בדרכים: פרצת אבטחה מאפשרת לעקוב אחריכם כשאתם נוהגים עם וויז. כיצד מתגוננים?<p><img src='http:\/\/img.mako.co.il\/2016\/04\/28\/638671_A.jpg'\/><\/p>

גרושתו של פיודור בייז'נרי: \"ישנו באותה מיטה, הוא לא עשה את זה\"

更新:所以我发现我所要做的就是从字符串中删除所有 HTML 组件,就是这样。

只需使用 this answer!