Java 通过读取前几个字节读取实际文件类型(取证)
Java read actual file type by reading first few bytes (Forensic)
你好,我需要一种方法来使用 Java 读取任何文件的前四个字节。
为什么是前四个字节?因为它是实际文件类型的取证指纹(文件扩展名不可靠,因为它可以被伪造)
http://en.wikipedia.org/wiki/File_carving
现在,以这种方式读取文件(下面,Java 代码)将读取文件 "content",我认为它会跳过文件头信息。 ..?我无法获得 幻数(前四个字节),因此无法 identify/confirm 给定样本的真实文件类型。
byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) {
// do something
}
is.close();
Read First 4 Bytes of File
有什么建议吗?
我认为你可以使用:
IOUtils.toByteArray(InputStream is)
看这里:IOUtils.toByteArray
将您的 InputStream 转换为 byteArray,然后获取前 4 个字节。
为此使用 java.nio.file API;具体来说,写你自己的 FileTypeDetector
.
我恰好在我的一个项目中这样做:
https://github.com/fge/java7-fs-more/tree/topic/filetypedetector
有了这个,我可以使用 Files.probeContentType()
和 return 文件的确切类型作为 MIME 字符串。
现在,它是如何工作的:
正如 Blank 所建议的,https://tika.apache.org
这是代码 - 在此示例中,"test3_iamexe.txt" 是一个 exe 可执行文件,文件扩展名重命名为“txt" 攻击者。
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;
public class TestTika {
public static void main(String[] args) {
File file = null;
InputStream stream = null;
String contentType = null;
try
{
file = new File("C:\tmp\test3_iamexe.txt");
stream = new FileInputStream(file);
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
try {
// This step here is a little expensive
parser.parse(stream, handler, metadata);
} finally {
stream.close();
}
// metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
contentType = metadata.get("Content-Type");
} catch(...)
{
// handle it
}
return;
}
}
你好,我需要一种方法来使用 Java 读取任何文件的前四个字节。 为什么是前四个字节?因为它是实际文件类型的取证指纹(文件扩展名不可靠,因为它可以被伪造)
http://en.wikipedia.org/wiki/File_carving
现在,以这种方式读取文件(下面,Java 代码)将读取文件 "content",我认为它会跳过文件头信息。 ..?我无法获得 幻数(前四个字节),因此无法 identify/confirm 给定样本的真实文件类型。
byte[] buffer = new byte[4];
InputStream is = new FileInputStream("somwhere.in.the.dark");
if (is.read(buffer) != buffer.length) {
// do something
}
is.close();
Read First 4 Bytes of File
有什么建议吗?
我认为你可以使用:
IOUtils.toByteArray(InputStream is)
看这里:IOUtils.toByteArray 将您的 InputStream 转换为 byteArray,然后获取前 4 个字节。
为此使用 java.nio.file API;具体来说,写你自己的 FileTypeDetector
.
我恰好在我的一个项目中这样做:
https://github.com/fge/java7-fs-more/tree/topic/filetypedetector
有了这个,我可以使用 Files.probeContentType()
和 return 文件的确切类型作为 MIME 字符串。
现在,它是如何工作的:
正如 Blank 所建议的,https://tika.apache.org
这是代码 - 在此示例中,"test3_iamexe.txt" 是一个 exe 可执行文件,文件扩展名重命名为“txt" 攻击者。
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.mime.MediaType;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.parser.AbstractParser;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.XHTMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.Collections;
import java.util.Set;
import org.apache.tika.metadata.Property;
public class TestTika {
public static void main(String[] args) {
File file = null;
InputStream stream = null;
String contentType = null;
try
{
file = new File("C:\tmp\test3_iamexe.txt");
stream = new FileInputStream(file);
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
try {
// This step here is a little expensive
parser.parse(stream, handler, metadata);
} finally {
stream.close();
}
// metadata is a HashMap, you can loop over it see what you need. Alternatively, I think Content-Type is what you need
contentType = metadata.get("Content-Type");
} catch(...)
{
// handle it
}
return;
}
}