虚拟文件系统如何处理读写等系统调用?
How does the virtual filesystem handle syscalls like read and write?
(所有代码片段均来自:https://docs.huihoo.com/doxygen/linux/kernel/3.7/dir_97b3d2b63ac216821c2d7a22ee0ab2b0.html)
嗨!为了确定我的问题,我已经查看 Linux fs 代码近一个月了以进行研究,但我被困在这里。因此,我正在查看 include/linux/fs.h
中的这段代码(如果我没记错的话,它包含 read_write.c
和 open.c
等代码使用的几乎所有主要结构和指针的定义),我观察到了这一点代码片段:
struct file_operations {
1519 struct module *owner;
1520 loff_t (*llseek) (struct file *, loff_t, int);
1521 ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
1522 ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
1523 ssize_t (*aio_read) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
1524 ssize_t (*aio_write) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
1525 int (*readdir) (struct file *, void *, filldir_t);
1526 unsigned int (*poll) (struct file *, struct poll_table_struct *);
1527 long (*unlocked_ioctl) (struct file *, unsigned int, unsigned long);
1528 long (*compat_ioctl) (struct file *, unsigned int, unsigned long);
1529 int (*mmap) (struct file *, struct vm_area_struct *);
1530 int (*open) (struct inode *, struct file *);
1531 int (*flush) (struct file *, fl_owner_t id);
1532 int (*release) (struct inode *, struct file *);
1533 int (*fsync) (struct file *, loff_t, loff_t, int datasync);
1534 int (*aio_fsync) (struct kiocb *, int datasync);
1535 int (*fasync) (int, struct file *, int);
1536 int (*lock) (struct file *, int, struct file_lock *);
1537 ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);
1538 unsigned long (*get_unmapped_area)(struct file *, unsigned long, unsigned long, unsigned long, unsigned long);
1539 int (*check_flags)(int);
1540 int (*flock) (struct file *, int, struct file_lock *);
1541 ssize_t (*splice_write)(struct pipe_inode_info *, struct file *, loff_t *, size_t, unsigned int);
1542 ssize_t (*splice_read)(struct file *, loff_t *, struct pipe_inode_info *, size_t, unsigned int);
1543 int (*setlease)(struct file *, long, struct file_lock **);
1544 long (*fallocate)(struct file *file, int mode, loff_t offset,
1545 loff_t len);
1546 };
如您所见,他们定义了这些非常具体的系统调用,这些系统调用已在各自的文件中声明。例如 read_write.c 将读写系统调用分别定义为 SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count)
和 SYSCALL_DEFINE3(write, unsigned int, fd, const char __user *, buf, size_t, count)
。现在出于研究目的,我基本上进入了这两个定义并追查了每个函数调用(至少是在 Doxygen 文档中链接的那些函数调用)以及这些函数调用中的函数调用但无法回答一个非常简单的问题。 这两个系统调用如何调用虚拟文件系统以进一步调用从文件系统读取实际数据块所需的驱动程序? (如果它是特定于文件系统的,那么请告诉我它在代码中将其传递给 FS 驱动程序的位置)
P.S。我对打开的系统调用进行了同样的搜索,但能够找到他们调用部分 namei.c
代码来执行该任务的地方,具体如下:struct file *do_filp_open(int dfd, struct filename *pathname, const struct open_flags *op, int flags)
。在这里,他们使用具有来自 inode 的相关信息的结构 nameidata 来打开文件。
我建议使用 ftrace 找出完整的代码库。它提供了内核中所有的函数调用跟踪。
Linux
中的内核文件系统
在Linux中,内核文件系统以模块化方式实现。例如,每个 struct inode
contains a pointer to a struct file_operations
,与您在问题中复制的结构相同。该结构包含各种文件操作的函数指针。
例如,成员 ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
是一个函数指针,指向一个以 struct file *
、char *
、size_t
和 loff_t *
作为参数的函数参数,和 returns 一个 ssize_t
.
将系统调用路由到底层文件系统
当读取系统调用发生时,内核VFS代码找到对应的inode
,然后调用struct file_operations
中指定的文件系统的读取函数。这是读取系统调用的踪迹:
- 调用了
read()
syscall handler,
- 调用
ksys_read()
,
- 调用
vfs_read()
.
这就是 vfs_read()
中神奇的地方:
if (file->f_op->read)
ret = file->f_op->read(file, buf, count, pos);
else if (file->f_op->read_iter)
ret = new_sync_read(file, buf, count, pos);
else
ret = -EINVAL;
相关结构 struct file
也包含指向 struct file_operations
的指针。上面的 if 条件检查是否有这个文件的 read()
处理程序,如果存在则调用它。如果 read()
处理程序不存在,它会检查 read_iter
处理程序。如果两者都不存在,则 returns -EINVAL
.
示例:ext4
在 ext4 中,struct file_operations
被定义 here. It is used in several places, but it is associated with an inode here. ext4 defines a read_iter
handler (ie. ext4_file_read_iter
), but not a read
handler. So, when read(2)
is called on an ext4 file, ext4_file_read_iter()
最终被调用。
至此,我们已经了解了文件系统特定的代码。可以从这里进一步探讨 ext4 如何管理块。
(所有代码片段均来自:https://docs.huihoo.com/doxygen/linux/kernel/3.7/dir_97b3d2b63ac216821c2d7a22ee0ab2b0.html)
嗨!为了确定我的问题,我已经查看 Linux fs 代码近一个月了以进行研究,但我被困在这里。因此,我正在查看 include/linux/fs.h
中的这段代码(如果我没记错的话,它包含 read_write.c
和 open.c
等代码使用的几乎所有主要结构和指针的定义),我观察到了这一点代码片段:
struct file_operations {
1519 struct module *owner;
1520 loff_t (*llseek) (struct file *, loff_t, int);
1521 ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
1522 ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
1523 ssize_t (*aio_read) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
1524 ssize_t (*aio_write) (struct kiocb *, const struct iovec *, unsigned long, loff_t);
1525 int (*readdir) (struct file *, void *, filldir_t);
1526 unsigned int (*poll) (struct file *, struct poll_table_struct *);
1527 long (*unlocked_ioctl) (struct file *, unsigned int, unsigned long);
1528 long (*compat_ioctl) (struct file *, unsigned int, unsigned long);
1529 int (*mmap) (struct file *, struct vm_area_struct *);
1530 int (*open) (struct inode *, struct file *);
1531 int (*flush) (struct file *, fl_owner_t id);
1532 int (*release) (struct inode *, struct file *);
1533 int (*fsync) (struct file *, loff_t, loff_t, int datasync);
1534 int (*aio_fsync) (struct kiocb *, int datasync);
1535 int (*fasync) (int, struct file *, int);
1536 int (*lock) (struct file *, int, struct file_lock *);
1537 ssize_t (*sendpage) (struct file *, struct page *, int, size_t, loff_t *, int);
1538 unsigned long (*get_unmapped_area)(struct file *, unsigned long, unsigned long, unsigned long, unsigned long);
1539 int (*check_flags)(int);
1540 int (*flock) (struct file *, int, struct file_lock *);
1541 ssize_t (*splice_write)(struct pipe_inode_info *, struct file *, loff_t *, size_t, unsigned int);
1542 ssize_t (*splice_read)(struct file *, loff_t *, struct pipe_inode_info *, size_t, unsigned int);
1543 int (*setlease)(struct file *, long, struct file_lock **);
1544 long (*fallocate)(struct file *file, int mode, loff_t offset,
1545 loff_t len);
1546 };
如您所见,他们定义了这些非常具体的系统调用,这些系统调用已在各自的文件中声明。例如 read_write.c 将读写系统调用分别定义为 SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count)
和 SYSCALL_DEFINE3(write, unsigned int, fd, const char __user *, buf, size_t, count)
。现在出于研究目的,我基本上进入了这两个定义并追查了每个函数调用(至少是在 Doxygen 文档中链接的那些函数调用)以及这些函数调用中的函数调用但无法回答一个非常简单的问题。 这两个系统调用如何调用虚拟文件系统以进一步调用从文件系统读取实际数据块所需的驱动程序? (如果它是特定于文件系统的,那么请告诉我它在代码中将其传递给 FS 驱动程序的位置)
P.S。我对打开的系统调用进行了同样的搜索,但能够找到他们调用部分 namei.c
代码来执行该任务的地方,具体如下:struct file *do_filp_open(int dfd, struct filename *pathname, const struct open_flags *op, int flags)
。在这里,他们使用具有来自 inode 的相关信息的结构 nameidata 来打开文件。
我建议使用 ftrace 找出完整的代码库。它提供了内核中所有的函数调用跟踪。
Linux
中的内核文件系统在Linux中,内核文件系统以模块化方式实现。例如,每个 struct inode
contains a pointer to a struct file_operations
,与您在问题中复制的结构相同。该结构包含各种文件操作的函数指针。
例如,成员 ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
是一个函数指针,指向一个以 struct file *
、char *
、size_t
和 loff_t *
作为参数的函数参数,和 returns 一个 ssize_t
.
将系统调用路由到底层文件系统
当读取系统调用发生时,内核VFS代码找到对应的inode
,然后调用struct file_operations
中指定的文件系统的读取函数。这是读取系统调用的踪迹:
- 调用了
read()
syscall handler, - 调用
ksys_read()
, - 调用
vfs_read()
.
这就是 vfs_read()
中神奇的地方:
if (file->f_op->read)
ret = file->f_op->read(file, buf, count, pos);
else if (file->f_op->read_iter)
ret = new_sync_read(file, buf, count, pos);
else
ret = -EINVAL;
相关结构 struct file
也包含指向 struct file_operations
的指针。上面的 if 条件检查是否有这个文件的 read()
处理程序,如果存在则调用它。如果 read()
处理程序不存在,它会检查 read_iter
处理程序。如果两者都不存在,则 returns -EINVAL
.
示例:ext4
在 ext4 中,struct file_operations
被定义 here. It is used in several places, but it is associated with an inode here. ext4 defines a read_iter
handler (ie. ext4_file_read_iter
), but not a read
handler. So, when read(2)
is called on an ext4 file, ext4_file_read_iter()
最终被调用。
至此,我们已经了解了文件系统特定的代码。可以从这里进一步探讨 ext4 如何管理块。