Chrome 扩展历史记录 API 没有显示所有结果?
Chrome extension history API not showing all results?
我正在尝试使用 Chrome 扩展历史记录 API 根据输入的搜索词获取用户的历史记录。但在某些情况下搜索无法正常工作。例如,当我输入术语 "bi" 时,没有给出任何结果,但是当我搜索 "bit" 时,给出了一些结果但不是全部,我通过在 chrome 历史搜索中验证它来检查它显示更多结果。这是 history API 的工作原理还是我做错了什么?
这是我的代码 -
window.onload = function() {
function getHistory() {
var list = document.getElementById('list');
var box = document.getElementById("box").value;
if (box === '') {
list.innerHTML = '';
list.innerHTML = list.innerHTML + 'Nothing To Search.';
}
else {
var microseconds = 1000 * 60 * 60 * 24 * 365 * 45;
var start = (new Date).getTime() - microseconds;
chrome.history.search({text: box, startTime: 0, maxResults: 50000}, function(data) {
if(Object.keys(data).length === 0) {
list.innerHTML = '';
list.innerHTML = list.innerHTML + 'Nothing Found.';
}
else {
list.innerHTML = '';
data.forEach(function(page) {
list.innerHTML = list.innerHTML + '<li><p>'+page.title+'</p> <a href='+page.url+' target="_blank"><p>'+page.url+'</p></a></li> <hr>';
});
}
});
}
}
document.getElementById('search').onclick = getHistory;
}
谢谢。
chrome.history.search
并不一定意味着将检索所有页面。该文档指出它将搜索与查询匹配的每个页面的最后访问时间。这可能是它看起来不完整的原因。
至于为什么2个字符没有结果,3个字符有返回结果,我不能确定。这可能是由于设置了其他参数,例如 startTime
。它应该有一个纪元时间值并将其设置为 0
将尝试从 1970 年开始搜索(这可能是您打算做的)。
我在编写的扩展程序中看到了相同的行为。这真的很烦人,所以我深入研究了 Chromium 源代码,以找出它真正做了什么来匹配历史结果。
简答:
从源代码看来,这种行为是有意为之的,所以如果我们想要检索文本查询的所有匹配项,我们将不得不检索所有历史结果并在 JavaScript 中自己搜索匹配项。另外,不要忘记 double-check start/end 次,并确保你的 'maxResults' 属性 足够大,因为任何这些属性的错误值都会可能会给你意想不到的结果。
长答案
免责声明:我没有太多的 C++ 经验,所以如果我的评估有误,请纠正。
在您使用 non-empty 文本查询调用 chrome.history.search 之后,最终会调用以下函数(在 history_backend.cc 中)。
bool URLDatabase::GetTextMatchesWithAlgorithm(
const base::string16& query,
query_parser::MatchingAlgorithm algorithm,
URLRows* results) {
query_parser::QueryNodeVector query_nodes;
query_parser_.ParseQueryNodes(query, algorithm, &query_nodes);
results->clear();
sql::Statement statement(GetDB().GetCachedStatement(SQL_FROM_HERE,
"SELECT" HISTORY_URL_ROW_FIELDS "FROM urls WHERE hidden = 0"));
while (statement.Step()) {
query_parser::QueryWordVector query_words;
base::string16 url = base::i18n::ToLower(statement.ColumnString16(1));
query_parser_.ExtractQueryWords(url, &query_words);
GURL gurl(url);
if (gurl.is_valid()) {
// Decode punycode to match IDN.
base::string16 ascii = base::ASCIIToUTF16(gurl.host());
base::string16 utf = url_formatter::IDNToUnicode(gurl.host());
if (ascii != utf)
query_parser_.ExtractQueryWords(utf, &query_words);
}
base::string16 title = base::i18n::ToLower(statement.ColumnString16(2));
query_parser_.ExtractQueryWords(title, &query_words);
if (query_parser_.DoesQueryMatch(query_words, query_nodes)) {
URLResult info;
FillURLRow(statement, &info);
if (info.url().is_valid())
results->push_back(info);
}
}
return !results->empty();
}
传入此函数的算法 query_parser::MatchingAlgorithm
指的是下面显示的枚举(来自 query_parser.h),据我所知从未明确设置,因此它将是 DEFAULT
值。
enum class MatchingAlgorithm {
// Only words long enough are considered for prefix search. Shorter words are
// considered for exact matches.
DEFAULT,
// All words are considered for a prefix search.
ALWAYS_PREFIX_SEARCH,
};
阅读默认选项上方的评论 -
"Only words long enough are considered for prefix search. Shorter
words are considered for exact matches"
算法本身 (query_parser.cc) 将您的文本查询和原始 URL 结果分解为由 space 或标点符号分隔的 "words" 列表,并检查对于每对之间的 'prefix matches'。这解释了为什么如果您的历史记录中有多个页面在 URL 中包含文本 "chromium",那么如果您搜索 "hromium" 将得不到任何结果,但您会得到所有的结果如果您搜索 "chro"。
在你的情况下,我认为搜索 "bi" returns 没有结果,因为该算法只查找 精确词 匹配短期术语,这意味着"bi" 需要用白色 space 或 URL/title 中的标点符号包围。如果您对 "bi" 执行 google 搜索,然后再次查询 "bi" 的历史记录,则可以确认这一点。 google 搜索历史项目将被匹配,因为在 google 搜索的 URL 中 "bi" 被标点符号和白色包围 space:
https://www.google.ca/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=bi
来源
我正在尝试使用 Chrome 扩展历史记录 API 根据输入的搜索词获取用户的历史记录。但在某些情况下搜索无法正常工作。例如,当我输入术语 "bi" 时,没有给出任何结果,但是当我搜索 "bit" 时,给出了一些结果但不是全部,我通过在 chrome 历史搜索中验证它来检查它显示更多结果。这是 history API 的工作原理还是我做错了什么? 这是我的代码 -
window.onload = function() {
function getHistory() {
var list = document.getElementById('list');
var box = document.getElementById("box").value;
if (box === '') {
list.innerHTML = '';
list.innerHTML = list.innerHTML + 'Nothing To Search.';
}
else {
var microseconds = 1000 * 60 * 60 * 24 * 365 * 45;
var start = (new Date).getTime() - microseconds;
chrome.history.search({text: box, startTime: 0, maxResults: 50000}, function(data) {
if(Object.keys(data).length === 0) {
list.innerHTML = '';
list.innerHTML = list.innerHTML + 'Nothing Found.';
}
else {
list.innerHTML = '';
data.forEach(function(page) {
list.innerHTML = list.innerHTML + '<li><p>'+page.title+'</p> <a href='+page.url+' target="_blank"><p>'+page.url+'</p></a></li> <hr>';
});
}
});
}
}
document.getElementById('search').onclick = getHistory;
}
谢谢。
chrome.history.search
并不一定意味着将检索所有页面。该文档指出它将搜索与查询匹配的每个页面的最后访问时间。这可能是它看起来不完整的原因。
至于为什么2个字符没有结果,3个字符有返回结果,我不能确定。这可能是由于设置了其他参数,例如 startTime
。它应该有一个纪元时间值并将其设置为 0
将尝试从 1970 年开始搜索(这可能是您打算做的)。
我在编写的扩展程序中看到了相同的行为。这真的很烦人,所以我深入研究了 Chromium 源代码,以找出它真正做了什么来匹配历史结果。
简答: 从源代码看来,这种行为是有意为之的,所以如果我们想要检索文本查询的所有匹配项,我们将不得不检索所有历史结果并在 JavaScript 中自己搜索匹配项。另外,不要忘记 double-check start/end 次,并确保你的 'maxResults' 属性 足够大,因为任何这些属性的错误值都会可能会给你意想不到的结果。
长答案
免责声明:我没有太多的 C++ 经验,所以如果我的评估有误,请纠正。
在您使用 non-empty 文本查询调用 chrome.history.search 之后,最终会调用以下函数(在 history_backend.cc 中)。
bool URLDatabase::GetTextMatchesWithAlgorithm(
const base::string16& query,
query_parser::MatchingAlgorithm algorithm,
URLRows* results) {
query_parser::QueryNodeVector query_nodes;
query_parser_.ParseQueryNodes(query, algorithm, &query_nodes);
results->clear();
sql::Statement statement(GetDB().GetCachedStatement(SQL_FROM_HERE,
"SELECT" HISTORY_URL_ROW_FIELDS "FROM urls WHERE hidden = 0"));
while (statement.Step()) {
query_parser::QueryWordVector query_words;
base::string16 url = base::i18n::ToLower(statement.ColumnString16(1));
query_parser_.ExtractQueryWords(url, &query_words);
GURL gurl(url);
if (gurl.is_valid()) {
// Decode punycode to match IDN.
base::string16 ascii = base::ASCIIToUTF16(gurl.host());
base::string16 utf = url_formatter::IDNToUnicode(gurl.host());
if (ascii != utf)
query_parser_.ExtractQueryWords(utf, &query_words);
}
base::string16 title = base::i18n::ToLower(statement.ColumnString16(2));
query_parser_.ExtractQueryWords(title, &query_words);
if (query_parser_.DoesQueryMatch(query_words, query_nodes)) {
URLResult info;
FillURLRow(statement, &info);
if (info.url().is_valid())
results->push_back(info);
}
}
return !results->empty();
}
传入此函数的算法 query_parser::MatchingAlgorithm
指的是下面显示的枚举(来自 query_parser.h),据我所知从未明确设置,因此它将是 DEFAULT
值。
enum class MatchingAlgorithm {
// Only words long enough are considered for prefix search. Shorter words are
// considered for exact matches.
DEFAULT,
// All words are considered for a prefix search.
ALWAYS_PREFIX_SEARCH,
};
阅读默认选项上方的评论 -
"Only words long enough are considered for prefix search. Shorter words are considered for exact matches"
算法本身 (query_parser.cc) 将您的文本查询和原始 URL 结果分解为由 space 或标点符号分隔的 "words" 列表,并检查对于每对之间的 'prefix matches'。这解释了为什么如果您的历史记录中有多个页面在 URL 中包含文本 "chromium",那么如果您搜索 "hromium" 将得不到任何结果,但您会得到所有的结果如果您搜索 "chro"。
在你的情况下,我认为搜索 "bi" returns 没有结果,因为该算法只查找 精确词 匹配短期术语,这意味着"bi" 需要用白色 space 或 URL/title 中的标点符号包围。如果您对 "bi" 执行 google 搜索,然后再次查询 "bi" 的历史记录,则可以确认这一点。 google 搜索历史项目将被匹配,因为在 google 搜索的 URL 中 "bi" 被标点符号和白色包围 space:
https://www.google.ca/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=bi
来源