C++ (VC) 文本输出用 0d 0d 0a 而不是 0d 0a 换行 - 如何修复?
C++ (VC) Text output breaks lines with 0d 0d 0a instead of 0d 0a - how to fix?
编辑:这个问题的解决方案由 Ulrich Eckhardt 在下面的评论中提供。另外:这个问题有一个完全不同的从可能的副本中描述的原因和解决方案。同样,请参阅 Ulrich Eckhardt 的评论了解详细信息。
在专家的帮助下,我设法编写了一个程序,将 Windows 剪贴板的内容写入指定代码页的文本文件。它现在似乎工作得很好,除了文本文件中的换行符是三个字节 - 0d 0d 0a - 而不是 0d 0a - 当我将文本导入文字处理器时,这会导致问题(附加行)。
是否有一种简单的方法可以将文本流中的 0d 0d 0a 替换为 0d 0a,或者我应该在我的代码中做一些不同的事情?我在其他地方还没有发现这样的东西。这是代码:
#include <stdafx.h>
#include <windows.h>
#include <iostream>
#include <fstream>
#include <codecvt> // for wstring_convert
#include <locale> // for codecvt_byname
using namespace std;
void BailOut(char *msg)
{
fprintf(stderr, "Exiting: %s\n", msg);
exit(1);
}
string ExePath()
{
char buffer[MAX_PATH];
GetModuleFileNameA(NULL, buffer, MAX_PATH);
string::size_type pos = string(buffer).find_last_of("\/");
return string(buffer).substr(0, pos);
}
// get output code page from command-line argument; use 1252 by default
int main(int argc, char *argv[])
{
string codepage = ".1252";
if (argc > 1) {
string cpnum = argv[1];
codepage = "." + cpnum;
}
// HANDLE clip;
string clip_text = "";
// exit if clipboard not available
if (!OpenClipboard(NULL))
{ BailOut("Can't open clipboard"); }
if (IsClipboardFormatAvailable(CF_TEXT)) {
HGLOBAL hglb = GetClipboardData(CF_TEXT);
if (hglb != NULL) {
LPSTR lptstr = (LPSTR)GlobalLock(hglb);
if (lptstr != NULL) {
// read the contents of lptstr which just a pointer to the string:
clip_text = (char *)hglb;
// release the lock after you're done:
GlobalUnlock(hglb);
}
}
}
CloseClipboard();
// create conversion routines
typedef std::codecvt_byname<wchar_t, char, std::mbstate_t> codecvt;
std::wstring_convert<codecvt> cp1252(new codecvt(".1252"));
std::wstring_convert<codecvt> outpage(new codecvt(codepage));
std::string OutFile = ExePath() + "\#clip.txt"; // output file name
ofstream OutStream; // open an output stream
OutStream.open(OutFile, ios::out | ios::trunc);
// make sure file is successfully opened
if (!OutStream) {
cout << "Error opening file " << OutFile << " for writing.\n";
return 1;
}
// convert to DOS/Win codepage number in "outpage"
OutStream << outpage.to_bytes(cp1252.from_bytes(clip_text)).c_str();
//OutStream << endl;
OutStream.close(); // close output stream
return 0;
}
此处的评论是正确的,但让我提供更多背景信息并指出一个挥之不去的问题。
有多种line-terminator/separator约定。许多 Unix 派生系统在每一行的末尾使用换行符。在 ASCII 中,这是 '\x0A'
。其他系统,如 Windows 和许多网络协议,使用回车符 return 后跟换行符。在 ASCII 中,这是 '\x0D' '\x0A'
。 (还有其他方案,但它们要少得多。)
用于读写文本的 C 和 C++ input/output 库可以对您隐藏这些约定,以便您可以正确地编写代码,以在任何底层平台上执行 "right thing"。
编程约定是使用 '\n'
,如果您的底层平台使用 ASCII 或 Unicode(但如果它使用没有换行符的 EBCDIC,则几乎可以肯定等同于换行符)特点)。写入文件时,库将拦截 '\n'
并放置您的平台需要的任何约定。例如,如果您在 Linux 机器上,它将输出一个换行符(并且由于 '\n'
与换行符具有相同的值,这基本上是一个空操作)。在 Windows 上,库将拦截 '\n'
并输出一个回车符 return 和一个换行符。事情的输入端恰恰相反。
当您从 Windows 上的剪贴板获取文本时,您并不知道它使用的是哪种约定。由于它是 Windows,您可能希望使用 CR+LF,但许多可能将文本放入剪贴板的程序在 Windows.
上可能无法正常运行
在你的情况下,剪贴板中的文本似乎确实有回车 return 和行间换行。然后当您以文本模式输出时,i/o 库输出回车符 return,然后它看到换行符(它认为是 '\n'
),因此它输出另一个carriage return 后跟一个换行符。这就是为什么你看到马车加倍 returns.
将输出切换为二进制模式告诉库 "don't convert '\n'
." 所以,这解决了您眼前的问题。
但仍然存在剪贴板文本有时可能只有行之间(或行尾)换行的问题。如果您以二进制模式输出,您将不会得到回车 returns,并且该文件在技术上不会是您的平台想要的格式。有些程序可以解决这个问题,但其他程序(例如记事本)则不会。
More information.
编辑:这个问题的解决方案由 Ulrich Eckhardt 在下面的评论中提供。另外:这个问题有一个完全不同的从可能的副本中描述的原因和解决方案。同样,请参阅 Ulrich Eckhardt 的评论了解详细信息。
在专家的帮助下,我设法编写了一个程序,将 Windows 剪贴板的内容写入指定代码页的文本文件。它现在似乎工作得很好,除了文本文件中的换行符是三个字节 - 0d 0d 0a - 而不是 0d 0a - 当我将文本导入文字处理器时,这会导致问题(附加行)。
是否有一种简单的方法可以将文本流中的 0d 0d 0a 替换为 0d 0a,或者我应该在我的代码中做一些不同的事情?我在其他地方还没有发现这样的东西。这是代码:
#include <stdafx.h>
#include <windows.h>
#include <iostream>
#include <fstream>
#include <codecvt> // for wstring_convert
#include <locale> // for codecvt_byname
using namespace std;
void BailOut(char *msg)
{
fprintf(stderr, "Exiting: %s\n", msg);
exit(1);
}
string ExePath()
{
char buffer[MAX_PATH];
GetModuleFileNameA(NULL, buffer, MAX_PATH);
string::size_type pos = string(buffer).find_last_of("\/");
return string(buffer).substr(0, pos);
}
// get output code page from command-line argument; use 1252 by default
int main(int argc, char *argv[])
{
string codepage = ".1252";
if (argc > 1) {
string cpnum = argv[1];
codepage = "." + cpnum;
}
// HANDLE clip;
string clip_text = "";
// exit if clipboard not available
if (!OpenClipboard(NULL))
{ BailOut("Can't open clipboard"); }
if (IsClipboardFormatAvailable(CF_TEXT)) {
HGLOBAL hglb = GetClipboardData(CF_TEXT);
if (hglb != NULL) {
LPSTR lptstr = (LPSTR)GlobalLock(hglb);
if (lptstr != NULL) {
// read the contents of lptstr which just a pointer to the string:
clip_text = (char *)hglb;
// release the lock after you're done:
GlobalUnlock(hglb);
}
}
}
CloseClipboard();
// create conversion routines
typedef std::codecvt_byname<wchar_t, char, std::mbstate_t> codecvt;
std::wstring_convert<codecvt> cp1252(new codecvt(".1252"));
std::wstring_convert<codecvt> outpage(new codecvt(codepage));
std::string OutFile = ExePath() + "\#clip.txt"; // output file name
ofstream OutStream; // open an output stream
OutStream.open(OutFile, ios::out | ios::trunc);
// make sure file is successfully opened
if (!OutStream) {
cout << "Error opening file " << OutFile << " for writing.\n";
return 1;
}
// convert to DOS/Win codepage number in "outpage"
OutStream << outpage.to_bytes(cp1252.from_bytes(clip_text)).c_str();
//OutStream << endl;
OutStream.close(); // close output stream
return 0;
}
此处的评论是正确的,但让我提供更多背景信息并指出一个挥之不去的问题。
有多种line-terminator/separator约定。许多 Unix 派生系统在每一行的末尾使用换行符。在 ASCII 中,这是 '\x0A'
。其他系统,如 Windows 和许多网络协议,使用回车符 return 后跟换行符。在 ASCII 中,这是 '\x0D' '\x0A'
。 (还有其他方案,但它们要少得多。)
用于读写文本的 C 和 C++ input/output 库可以对您隐藏这些约定,以便您可以正确地编写代码,以在任何底层平台上执行 "right thing"。
编程约定是使用 '\n'
,如果您的底层平台使用 ASCII 或 Unicode(但如果它使用没有换行符的 EBCDIC,则几乎可以肯定等同于换行符)特点)。写入文件时,库将拦截 '\n'
并放置您的平台需要的任何约定。例如,如果您在 Linux 机器上,它将输出一个换行符(并且由于 '\n'
与换行符具有相同的值,这基本上是一个空操作)。在 Windows 上,库将拦截 '\n'
并输出一个回车符 return 和一个换行符。事情的输入端恰恰相反。
当您从 Windows 上的剪贴板获取文本时,您并不知道它使用的是哪种约定。由于它是 Windows,您可能希望使用 CR+LF,但许多可能将文本放入剪贴板的程序在 Windows.
上可能无法正常运行在你的情况下,剪贴板中的文本似乎确实有回车 return 和行间换行。然后当您以文本模式输出时,i/o 库输出回车符 return,然后它看到换行符(它认为是 '\n'
),因此它输出另一个carriage return 后跟一个换行符。这就是为什么你看到马车加倍 returns.
将输出切换为二进制模式告诉库 "don't convert '\n'
." 所以,这解决了您眼前的问题。
但仍然存在剪贴板文本有时可能只有行之间(或行尾)换行的问题。如果您以二进制模式输出,您将不会得到回车 returns,并且该文件在技术上不会是您的平台想要的格式。有些程序可以解决这个问题,但其他程序(例如记事本)则不会。
More information.