如何使用 java 检查 URL 是文档还是网页

How to check if a URL is a Doc or a web page using java

我正在构建一个类似于 URL 爬虫的应用程序,其中我需要区分普通网页和 pdf、img 或 doc。尝试了所有的 MIME TYPE 检查方式... :(

这将完成工作:

URL url = new URL(adress);
URLConnection u = url.openConnection();
String type = u.getHeaderField("Content-Type");
return type;

Returns

text/html; charset=utf-8

此页面。