在非英语字符串中查找子字符串 [乌尔都语字符串]
Finding Substrings in Non-English Strings [Urdu Strings]
我希望在乌尔都语字符串中找到子字符串。例如,假设我有以下乌尔都语字符串和子字符串:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring1 = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
substring2 = "Urdu English Translator حاصل کریں - Microsoft Store ur-PK"
substring3 = "ببر شیر - آزاد دائرۃ المعارف، ویکیپیڈیا"
substring4 = "اقوام متحدہ - ویکیپیڈیا"
substring5 = "واقعہ کربلا - آزاد دائرۃ المعارف"
substring6 = "Inaugural Address - Urdu | JFK Library"
substring7 = "دنیا میں امریکہ کے مقام کے بارے میں صدر بائیڈن کا خطاب - United ..."
substring8 = "ایران امریکہ کشیدگی: امریکی صدور اور جنگوں کی مبہم قانونی ..."
objective 是搜索/查找每个 子字符串 中的 全字符串 和然后 select 相应的子字符串进行进一步处理。特别是,任何子字符串中出现的最少单词应该是 "آòاد دائرو".
在上面给出的例子中,substring1、substring3、substring4和substring5 应该 selected 和 returned (True),而其余子串不应该 selected (假).
我已经编写了以下代码来实现上述任务:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
# extract the part after the "-" part
s = substring.split("-")[1]
# remove any spaces if they are present
s = s.strip()
if s in fullstring:
print("Found!")
else:
print("Not found!")
代码为我提供了所有子字符串的 未找到! 响应。而它应该 return Found! for substring1, substring3, substring4 和 substring5,以及 Not found! 对于上面给出的所有其他子字符串。
请帮助我完成上述子字符串搜索任务。
你应该试试这个:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
# extract the part after the "-" part
s = substring.split("-")[1]
# remove any spaces if they are present
s = s.strip().replace(".","")
if s in fullstring:
print("Found!")
else:
print("Not found!")
做 striped
s
就像 آزاد دائرۃ ...
但你在 fullstring
中没有 ...
所以你得到 Not found
.
或者你可以像这样使用 .find()
函数:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
# extract the part after the "-" part
s = substring.split("-")[1]
# remove any spaces if they are present
s = s.strip()
if fullstring.find(s)!=-1:
print("Found!")
else:
print("Not found!")
对于所有子串你可以试试这个:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring1 = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
substring2 = "Urdu English Translator حاصل کریں - Microsoft Store ur-PK"
substring3 = "ببر شیر - آزاد دائرۃ المعارف، ویکیپیڈیا"
substring4 = "اقوام متحدہ - ویکیپیڈیا"
substring5 = "واقعہ کربلا - آزاد دائرۃ المعارف"
substring6 = "Inaugural Address - Urdu | JFK Library"
substring7 = "دنیا میں امریکہ کے مقام کے بارے میں صدر بائیڈن کا خطاب - United ..."
substring8 = "ایران امریکہ کشیدگی: امریکی صدور اور جنگوں کی مبہم قانونی ..."
allsub=[substring1,substring2,substring3,substring4,substring5,substring6,substring7,substring8]
for a in allsub:
try:
s=a.split("-")[1].strip(". ").strip()
except IndexError:
s=a.split("-")[0].strip(". ").strip()
if fullstring.find(s)!=-1:
print("Found!")
else:
print("Not found!")
输出:
Found!
Not found!
Found!
Found!
Found!
Not found!
Not found!
Not found!
我已将所有子字符串的列表创建为 allsub
并检查你在做什么。此外,我已经完成了 try-except
因为在某些子字符串中没有 -
并且我们选择了列表的第二个元素。所以,有时它会通过错误。但是如果我们使用 try-expect
那么它将执行 except
部分而不是抛出错误。
试一试:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring1 = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
substring2 = "Urdu English Translator حاصل کریں - Microsoft Store ur-PK"
substring3 = "ببر شیر - آزاد دائرۃ المعارف، ویکیپیڈیا"
substring4 = "اقوام متحدہ - ویکیپیڈیا"
substring5 = "واقعہ کربلا - آزاد دائرۃ المعارف"
substring6 = "Inaugural Address - Urdu | JFK Library"
substring7 = "دنیا میں امریکہ کے مقام کے بارے میں صدر بائیڈن کا خطاب - United ..."
substring8 = "ایران امریکہ کشیدگی: امریکی صدور اور جنگوں کی مبہم قانونی ..."
allstrings = (substring1, substring2, substring3, substring4, substring5, substring6, substring7, substring8)
for a in allstrings:
try:
s = a.split("-")[1]
except:
s = a
s = s.strip().replace(".", "")
if s in fullstring:
print("Found!")
else:
print("Not found!")
输出:
Found!
Not found!
Found!
Found!
Found!
Not found!
Not found!
Not found!
我希望在乌尔都语字符串中找到子字符串。例如,假设我有以下乌尔都语字符串和子字符串:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring1 = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
substring2 = "Urdu English Translator حاصل کریں - Microsoft Store ur-PK"
substring3 = "ببر شیر - آزاد دائرۃ المعارف، ویکیپیڈیا"
substring4 = "اقوام متحدہ - ویکیپیڈیا"
substring5 = "واقعہ کربلا - آزاد دائرۃ المعارف"
substring6 = "Inaugural Address - Urdu | JFK Library"
substring7 = "دنیا میں امریکہ کے مقام کے بارے میں صدر بائیڈن کا خطاب - United ..."
substring8 = "ایران امریکہ کشیدگی: امریکی صدور اور جنگوں کی مبہم قانونی ..."
objective 是搜索/查找每个 子字符串 中的 全字符串 和然后 select 相应的子字符串进行进一步处理。特别是,任何子字符串中出现的最少单词应该是 "آòاد دائرو".
在上面给出的例子中,substring1、substring3、substring4和substring5 应该 selected 和 returned (True),而其余子串不应该 selected (假).
我已经编写了以下代码来实现上述任务:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
# extract the part after the "-" part
s = substring.split("-")[1]
# remove any spaces if they are present
s = s.strip()
if s in fullstring:
print("Found!")
else:
print("Not found!")
代码为我提供了所有子字符串的 未找到! 响应。而它应该 return Found! for substring1, substring3, substring4 和 substring5,以及 Not found! 对于上面给出的所有其他子字符串。
请帮助我完成上述子字符串搜索任务。
你应该试试这个:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
# extract the part after the "-" part
s = substring.split("-")[1]
# remove any spaces if they are present
s = s.strip().replace(".","")
if s in fullstring:
print("Found!")
else:
print("Not found!")
做 striped
s
就像 آزاد دائرۃ ...
但你在 fullstring
中没有 ...
所以你得到 Not found
.
或者你可以像这样使用 .find()
函数:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
# extract the part after the "-" part
s = substring.split("-")[1]
# remove any spaces if they are present
s = s.strip()
if fullstring.find(s)!=-1:
print("Found!")
else:
print("Not found!")
对于所有子串你可以试试这个:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring1 = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
substring2 = "Urdu English Translator حاصل کریں - Microsoft Store ur-PK"
substring3 = "ببر شیر - آزاد دائرۃ المعارف، ویکیپیڈیا"
substring4 = "اقوام متحدہ - ویکیپیڈیا"
substring5 = "واقعہ کربلا - آزاد دائرۃ المعارف"
substring6 = "Inaugural Address - Urdu | JFK Library"
substring7 = "دنیا میں امریکہ کے مقام کے بارے میں صدر بائیڈن کا خطاب - United ..."
substring8 = "ایران امریکہ کشیدگی: امریکی صدور اور جنگوں کی مبہم قانونی ..."
allsub=[substring1,substring2,substring3,substring4,substring5,substring6,substring7,substring8]
for a in allsub:
try:
s=a.split("-")[1].strip(". ").strip()
except IndexError:
s=a.split("-")[0].strip(". ").strip()
if fullstring.find(s)!=-1:
print("Found!")
else:
print("Not found!")
输出:
Found!
Not found!
Found!
Found!
Found!
Not found!
Not found!
Not found!
我已将所有子字符串的列表创建为 allsub
并检查你在做什么。此外,我已经完成了 try-except
因为在某些子字符串中没有 -
并且我们选择了列表的第二个元素。所以,有时它会通过错误。但是如果我们使用 try-expect
那么它将执行 except
部分而不是抛出错误。
试一试:
fullstring = "آزاد دائرۃ المعارف، ویکیپیڈیا"
substring1 = "افریقی نژاد امریکی شہری حقوق کی تحریک (1955–1968) - آزاد دائرۃ ..."
substring2 = "Urdu English Translator حاصل کریں - Microsoft Store ur-PK"
substring3 = "ببر شیر - آزاد دائرۃ المعارف، ویکیپیڈیا"
substring4 = "اقوام متحدہ - ویکیپیڈیا"
substring5 = "واقعہ کربلا - آزاد دائرۃ المعارف"
substring6 = "Inaugural Address - Urdu | JFK Library"
substring7 = "دنیا میں امریکہ کے مقام کے بارے میں صدر بائیڈن کا خطاب - United ..."
substring8 = "ایران امریکہ کشیدگی: امریکی صدور اور جنگوں کی مبہم قانونی ..."
allstrings = (substring1, substring2, substring3, substring4, substring5, substring6, substring7, substring8)
for a in allstrings:
try:
s = a.split("-")[1]
except:
s = a
s = s.strip().replace(".", "")
if s in fullstring:
print("Found!")
else:
print("Not found!")
输出:
Found!
Not found!
Found!
Found!
Found!
Not found!
Not found!
Not found!