有什么方法可以从文件 C++ 中自动读取一行
Is there any way to atomically read a line from a file C++
我目前正在开展一个项目,其中有一个大型文本文件 (15+ GB),我正在尝试 运行 在文件的每一行上执行一个函数。为了加快任务的速度,我创建了 4 个线程并试图让它们同时读取文件。这与我的相似:
#include <stdio.h>
#include <string>
#include <iostream>
#include <stdlib.h>
#include <thread>
#include <fstream>
void simpleFunction(*wordlist){
string word;
getline(*wordlist, word);
cout << word << endl;
}
int main(){
int max_concurrant_threads = 4;
ifstream wordlist("filename.txt");
thread all_threads[max_concurrant_threads];
for(int i = 0; i < max_concurrant_threads; i++){
all_threads[i] = thread(simpleFunction,&wordlist);
}
for (int i = 0; i < max_concurrant_threads; ++i) {
all_threads[i].join();
}
return 0;
}
getline 函数(连同“*wordlist >> word”)似乎分两步递增指针并读取值,正如我经常得到的:
Item1
Item2
Item3
Item2
回来了。
所以我想知道是否有一种方法可以自动读取文件的一行?首先将它加载到一个数组中是行不通的,因为文件太大了,我不想一次加载文件块。
遗憾的是,我找不到任何关于 fstream 和 getline 原子性的信息。如果有 readline 的原子版本或者甚至是使用锁来实现我想要的东西的简单方法,我会洗耳恭听。
提前致谢!
执行此操作的正确方法是锁定文件,这将阻止所有其他进程使用它。参见 Wikipedia: File locking。这对你来说可能太慢了,因为你一次只读一行。但是,如果您在每次函数调用期间阅读 1000 或 10000 行,这可能是实现它的最佳方式。
如果没有其他进程访问该文件,其他线程不访问就够了,你可以使用访问文件时锁定的互斥锁。
void simpleFunction(*wordlist){
static std::mutex io_mutex;
string word;
{
std::lock_guard<std::mutex> lock(io_mutex);
getline(*wordlist, word);
}
cout << word << endl;
}
另一种实现程序的方法可能是创建一个线程,它始终将行读取到内存中,而其他线程将从存储它们的 class 请求单行。你需要这样的东西:
class FileReader {
public:
// This runs in its own thread
void readingLoop() {
// read lines to storage, unless there are too many lines already
}
// This is called by other threads
std::string getline() {
std::lock_guard<std::mutex> lock(storageMutex);
// return line from storage, and delete it
}
private:
std::mutex storageMutex;
std::deque<std::string> storage;
};
我目前正在开展一个项目,其中有一个大型文本文件 (15+ GB),我正在尝试 运行 在文件的每一行上执行一个函数。为了加快任务的速度,我创建了 4 个线程并试图让它们同时读取文件。这与我的相似:
#include <stdio.h>
#include <string>
#include <iostream>
#include <stdlib.h>
#include <thread>
#include <fstream>
void simpleFunction(*wordlist){
string word;
getline(*wordlist, word);
cout << word << endl;
}
int main(){
int max_concurrant_threads = 4;
ifstream wordlist("filename.txt");
thread all_threads[max_concurrant_threads];
for(int i = 0; i < max_concurrant_threads; i++){
all_threads[i] = thread(simpleFunction,&wordlist);
}
for (int i = 0; i < max_concurrant_threads; ++i) {
all_threads[i].join();
}
return 0;
}
getline 函数(连同“*wordlist >> word”)似乎分两步递增指针并读取值,正如我经常得到的:
Item1 Item2 Item3 Item2
回来了。
所以我想知道是否有一种方法可以自动读取文件的一行?首先将它加载到一个数组中是行不通的,因为文件太大了,我不想一次加载文件块。
遗憾的是,我找不到任何关于 fstream 和 getline 原子性的信息。如果有 readline 的原子版本或者甚至是使用锁来实现我想要的东西的简单方法,我会洗耳恭听。
提前致谢!
执行此操作的正确方法是锁定文件,这将阻止所有其他进程使用它。参见 Wikipedia: File locking。这对你来说可能太慢了,因为你一次只读一行。但是,如果您在每次函数调用期间阅读 1000 或 10000 行,这可能是实现它的最佳方式。
如果没有其他进程访问该文件,其他线程不访问就够了,你可以使用访问文件时锁定的互斥锁。
void simpleFunction(*wordlist){
static std::mutex io_mutex;
string word;
{
std::lock_guard<std::mutex> lock(io_mutex);
getline(*wordlist, word);
}
cout << word << endl;
}
另一种实现程序的方法可能是创建一个线程,它始终将行读取到内存中,而其他线程将从存储它们的 class 请求单行。你需要这样的东西:
class FileReader {
public:
// This runs in its own thread
void readingLoop() {
// read lines to storage, unless there are too many lines already
}
// This is called by other threads
std::string getline() {
std::lock_guard<std::mutex> lock(storageMutex);
// return line from storage, and delete it
}
private:
std::mutex storageMutex;
std::deque<std::string> storage;
};