如果有人在自己的 public Github 存储库中复制了我的公司代码/重要数据,如何在所有 Github public 存储库中搜索

How to search in all Github public Repos, if anyone has copied my company code / important data on their own public Github repository

我是 GitHub 代码和数据搜索类的新手。 我的动机是搜索/扫描 GitHub/Git 的 A 到 Z Public 个存储库,以确保没有人复制我公司的源代码或敏感数据。

我正在考虑以下挑战;

  1. 如何在 GitHub.
  2. 上获取 A 到 Z public 存储库的列表
  3. 如何扫描我的数据,可能在数以百万计的存储库中。
  4. 如果有办法用任何脚本或代码扫描 Words 目录。

请给我一个指导。

非常感谢您的快速帮助(提前!)

阿布舍克

欢迎使用 Whosebug!

您最好的选择是使用 Github's search API to find code that you are interested. For example, using Github's search (not through the API) for my domain name, I was able to find code that I've committed

但是,请记住,这不会解决您确保没有人复制您的源代码的问题。有无数 git 服务:GitHub、GitLab、Bitbucket,仅举几例。除此之外,您还必须应对无法进行搜索的私有存储库。不可能搜索所有内容。最好的办法是采取保护措施来防止这种情况发生,例如进行严格的访问控制,确保您的员工以及与您合作的任何供应商理解并同意有关数据的公司政策。

最后,拥有一个良好的负责任的披露计划将鼓励白帽黑客通知您任何违规行为。

现在,考虑到所有这些,我仍然认为创建一个小机器人来搜索 github 等热门地点是个不错的主意。您可以做的另一件事是创建一个金丝雀,其中您有一个对象,其唯一的工作是具有唯一性,这样如果有漏洞,您的搜索可以很容易地找到它。

金丝雀可以是数据库中的唯一行,其中包含唯一文本的特定文件等。您可以在其中定期搜索该文本,如果出现,您就知道存在漏洞.