【发布时间】:2020-02-25 12:06:02
【问题描述】:
我有大量 html 文件(大约 2k)。
这些 html`s 是从 word 文档转换的结果。
这些文件在 html 标签中有一些希伯来文文本。我可以使用 vscode 或 notepad++ 编辑器完美地看到文本。
我的目标是遍历文件夹并将文件的内容插入到某个数据库中。 由于我对 nodejs 有一点了解 - 我决定使用 node.js 构建“循环”。 这是我到目前为止完成的地方:
fs.readdir('./myFolder', function (err, files) {
total = files.length;
let fileArr = []
for(var x=0, l = files.length; x<l; x++) {
const content = fs.readFileSync(`./myFolder/${files[x]}`, 'utf8');
let title = content.match(/<title>(.*?)<\/title>/g).pop()
fileArr.push({id:files[x] , title})
}
});
问题是:虽然文本在编辑器中正确显示 - 调试时 - 我可以看到“标题”变量获取由问号组成的字符串
我猜是文件编码的问题,我在这里吗?
如果是这样 - 有没有办法解码字符串?
附:我的操作系统是windows10
谢谢
【问题讨论】:
标签: node.js encoding utf-8 ansi hebrew