GitHub Pages 和 Jekyll 内容重复和 SEO 问题
GitHub Pages and Jekyll content duplication and SEO issues
我正在考虑使用 GitHub 页面托管我的博客并使用 Jekyll 来展示它。
据推测,我提交的任何内容都会通过 Jekyll 出现在 <yourname>.github.io
处,并以原始形式出现在 https://github.com/<yourname>/<yourname>.github.io
处。看到这个 page showing links to live sites and to the source repos used to construct them.
关于 SEO 的建议表明,在域内和跨域复制内容是糟糕的 SEO 做法。请参阅此 Google support page on duplication and this Moz page on issues with duplication 两者也提供了可能的解决方案。
我的问题有两个:
- 内容重复实际上是 GitHub 页面的问题吗?
- 如果是这样,如何将规范 linking 或
noindex
等解决方案应用于 GitHub 存储库,以便搜索引擎知道您的 Jekyll 站点是规范站点?
更新:
可能值得注意的是,我将 "hello world" 索引文件上传到我的 GitHub 页面存储库,然后在 GitHub 上检查了该页面的来源。 GitHub 来源已包含规范 link
<link rel="canonical" href="https://github.com/guypursey/guypursey.github.io/blob/master/index.html" data-pjax-transient>
我假设每个文件都需要更改以指向站点的 Jekyll 版本,但我在 GitHub 中看不到用于处理它的设置。
如果存储库是 public
,则使用包含用户和组织的 GitHub 页面时,重复内容是不可避免的
一般来说这应该不是问题。看到一个previous answer.
您有几个选择:
- Google 和其他搜索引擎显然无法访问需要付费计划的私有存储库。
- 切换到 project page。这将使用
gh-pages
分支而不是 master
分支。由于GitHub的robots.txt只允许搜索引擎抓取master分支,不允许其他分支。因此,如果站点在 gh-pages
分支中,这将阻止 Google 看到存储库。
我正在考虑使用 GitHub 页面托管我的博客并使用 Jekyll 来展示它。
据推测,我提交的任何内容都会通过 Jekyll 出现在 <yourname>.github.io
处,并以原始形式出现在 https://github.com/<yourname>/<yourname>.github.io
处。看到这个 page showing links to live sites and to the source repos used to construct them.
关于 SEO 的建议表明,在域内和跨域复制内容是糟糕的 SEO 做法。请参阅此 Google support page on duplication and this Moz page on issues with duplication 两者也提供了可能的解决方案。
我的问题有两个:
- 内容重复实际上是 GitHub 页面的问题吗?
- 如果是这样,如何将规范 linking 或
noindex
等解决方案应用于 GitHub 存储库,以便搜索引擎知道您的 Jekyll 站点是规范站点?
更新:
可能值得注意的是,我将 "hello world" 索引文件上传到我的 GitHub 页面存储库,然后在 GitHub 上检查了该页面的来源。 GitHub 来源已包含规范 link
<link rel="canonical" href="https://github.com/guypursey/guypursey.github.io/blob/master/index.html" data-pjax-transient>
我假设每个文件都需要更改以指向站点的 Jekyll 版本,但我在 GitHub 中看不到用于处理它的设置。
如果存储库是 public
,则使用包含用户和组织的 GitHub 页面时,重复内容是不可避免的一般来说这应该不是问题。看到一个previous answer.
您有几个选择:
- Google 和其他搜索引擎显然无法访问需要付费计划的私有存储库。
- 切换到 project page。这将使用
gh-pages
分支而不是master
分支。由于GitHub的robots.txt只允许搜索引擎抓取master分支,不允许其他分支。因此,如果站点在gh-pages
分支中,这将阻止 Google 看到存储库。