虚拟文件系统如何处理读写等系统调用?

How does the virtual filesystem handle syscalls like read and write?

(所有代码片段均来自:https://docs.huihoo.com/doxygen/linux/kernel/3.7/dir_97b3d2b63ac216821c2d7a22ee0ab2b0.html

嗨!为了确定我的问题,我已经查看 Linux fs 代码近一个月了以进行研究,但我被困在这里。因此,我正在查看 include/linux/fs.h 中的这段代码(如果我没记错的话,它包含 read_write.copen.c 等代码使用的几乎所有主要结构和指针的定义),我观察到了这一点代码片段:

struct file_operations {
 1519     struct module *owner;
 1520     loff_t (*llseek) (struct file *, loff_t, int);
 1521     ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
 1522     ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
 1523     ssize_t (*aio_read) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
 1524     ssize_t (*aio_write) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
 1525     int (*readdir) (struct file *, void *, filldir_t);
 1526     unsigned int (*poll) (struct file *, struct poll_table_struct *);
 1527     long (*unlocked_ioctl) (struct file *, unsigned int, unsigned long);
 1528     long (*compat_ioctl) (struct file *, unsigned int, unsigned long);
 1529     int (*mmap) (struct file *, struct vm_area_struct *);
 1530     int (*open) (struct inode *, struct file *);
 1531     int (*flush) (struct file *, fl_owner_t id);
 1532     int (*release) (struct inode *, struct file *);
 1533     int (*fsync) (struct file *, loff_t, loff_t, int datasync);
 1534     int (*aio_fsync) (struct kiocb *, int datasync);
 1535     int (*fasync) (int, struct file *, int);
 1536     int (*lock) (struct file *, int, struct file_lock *);
 1537     ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);
 1538     unsigned long (*get_unmapped_area)(struct file *, unsigned long, unsigned long, unsigned long, unsigned long);
 1539     int (*check_flags)(int);
 1540     int (*flock) (struct file *, int, struct file_lock *);
 1541     ssize_t (*splice_write)(struct pipe_inode_info *, struct file *, loff_t *, size_t, unsigned int);
 1542     ssize_t (*splice_read)(struct file *, loff_t *, struct pipe_inode_info *, size_t, unsigned int);
 1543     int (*setlease)(struct file *, long, struct file_lock **);
 1544     long (*fallocate)(struct file *file, int mode, loff_t offset,
 1545               loff_t len);
 1546 };

如您所见,他们定义了这些非常具体的系统调用,这些系统调用已在各自的文件中声明。例如 read_write.c 将读写系统调用分别定义为 SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count)SYSCALL_DEFINE3(write, unsigned int, fd, const char __user *, buf, size_t, count)。现在出于研究目的,我基本上进入了这两个定义并追查了每个函数调用(至少是在 Doxygen 文档中链接的那些函数调用)以及这些函数调用中的函数调用但无法回答一个非常简单的问题。 这两个系统调用如何调用虚拟文件系统以进一步调用从文件系统读取实际数据块所需的驱动程序? (如果它是特定于文件系统的,那么请告诉我它在代码中将其传递给 FS 驱动程序的位置)

P.S。我对打开的系统调用进行了同样的搜索,但能够找到他们调用部分 namei.c 代码来执行该任务的地方,具体如下:struct file *do_filp_open(int dfd, struct filename *pathname, const struct open_flags *op, int flags)。在这里,他们使用具有来自 inode 的相关信息的结构 nameidata 来打开文件。

我建议使用 ftrace 找出完整的代码库。它提供了内核中所有的函数调用跟踪。

https://lwn.net/Articles/370423/

Linux

中的内核文件系统

在Linux中,内核文件系统以模块化方式实现。例如,每个 struct inode contains a pointer to a struct file_operations,与您在问题中复制的结构相同。该结构包含各种文件操作的函数指针。

例如,成员 ssize_t (*read) (struct file *, char __user *, size_t, loff_t *); 是一个函数指针,指向一个以 struct file *char *size_tloff_t * 作为参数的函数参数,和 returns 一个 ssize_t.

将系统调用路由到底层文件系统

当读取系统调用发生时,内核VFS代码找到对应的inode,然后调用struct file_operations中指定的文件系统的读取函数。这是读取系统调用的踪迹:

  1. 调用了read() syscall handler
  2. 调用 ksys_read(),
  3. 调用 vfs_read().

这就是 vfs_read() 中神奇的地方:

if (file->f_op->read)
    ret = file->f_op->read(file, buf, count, pos);
else if (file->f_op->read_iter)
    ret = new_sync_read(file, buf, count, pos);
else
    ret = -EINVAL;

相关结构 struct file 也包含指向 struct file_operations 的指针。上面的 if 条件检查是否有这个文件的 read() 处理程序,如果存在则调用它。如果 read() 处理程序不存在,它会检查 read_iter 处理程序。如果两者都不存在,则 returns -EINVAL.

示例:ext4

在 ext4 中,struct file_operations 被定义 here. It is used in several places, but it is associated with an inode here. ext4 defines a read_iter handler (ie. ext4_file_read_iter), but not a read handler. So, when read(2) is called on an ext4 file, ext4_file_read_iter() 最终被调用。

至此,我们已经了解了文件系统特定的代码。可以从这里进一步探讨 ext4 如何管理块。