当前位置:首页 > 科技 > 正文

多管齐下 复制网页内容时去除多余字符

在保存网页中的内容时,有时我们会发现复制后粘贴得到的文本中增加了一些不需要的文字,比如从百度知道中复制内容时,粘贴得到的文本中随机地插入了“bai”、“du”、“zhi”、“dao”这样的多余字符(图1)。那么,这些内容是怎么产生的,又该如何将其删除掉呢?

1. 复制后的多余内容是怎么来的

类似从百度知道中复制网页内容时出现的多余字符,其实是网站设置的一些代码,增加的这些看似“多余”的字符,是制作者不希望读者直接引用该内容,因此这些复制的内容只适合作为个人的参考资料,不适合发表。我们在使用时需要注意这个问题。

这些代码不会在正常的网页中显示其内容,但复制粘贴后会显露出来。比如图1的例子,在网页中右击并选择“查看网页源代码”,在打开的页面中就可以看到,在“简单”和“来说”之间有段代码,属性值是“hidden”(即隐藏),代码是“2112”(对应“bai”),这些代码所对应的内容会在粘贴为文本形式后自动显示(图2)。

2. 对症下药解决问题

既然多余字符是由于网页中的代码导致的,如果要解决这个问题,我们就需要根据不同的需求对代码进行处理。

方法1:使用浏览器组件屏蔽代码

现在很多浏览器都有“沉浸式阅读器”,在这个模式下会自动屏蔽上述代码。以在新核心的Edge中复制知乎页面的内容为例,当我们在页面上直接复制文本后,粘贴的文本没有换行格式,而且会在内容的最后自动加上版权字段。如果在打开的页面中点击地址栏后的“沉浸式阅读器”按钮,进入该模式后再进行复制,粘贴后就不会有这些字符了(图3)。

如果网页(如上述的百度知道页面)不支持“沉浸式阅读器”,我们还可以在网页中按下“Ctrl+A”组合键全选内容(或者使用鼠标选中需要复制的内容),接着在网页中右击并选择“在沉浸式阅读器中打开”,手动设置网页使用沉浸式阅读器浏览(图4)。

此外,我们还可以使用打印模式进行复制,依次点击Edge浏览器右上角的“…→打印”,接着在打开的打印窗口中进行文章的复制即可(在这个页面中也会自动屏蔽上述代码)(图5)。

方法2:使用插件自动去除代码

如果觉得上述的方法麻烦,那么还可以使用插件来去除。比如Edge的用户,可在扩展商店中搜索并安装“Tampermonkey”,启动该插件后点击“+”新建一个脚本,在脚本编辑页中按下“Ctrl+A”组合键全选默认的内容并删除。接着到“/en/scripts/415814”下载脚本,下载后使用记事本打开并全选内容进行复制,接着粘贴到“Tampermonkey”的新建脚本窗口中,保存后即可使用(图6)。之后再打开百度知道页面,按下F5键刷新页面,再次复制内容,其中就不会包含那些字符了。

如果要去除类似知乎网站复制后自带的字符,则可以使用Copy As Plain Text插件(同样在Edge插件商店中搜索并安装即可)。完成插件的安装后,在需要复制文本时右击并选择“Copy As Plain Text”,这样粘贴后就是选择的文本(图7)。

方法3:使用Word查找替换

很多朋友喜欢将资料粘贴到Word中保存和整理,利用Word的“查找和替换”功能也可以快速完成整理操作。比如当需要将百度知道中多余的字符删除时,可在网页中选中需要复制的资料,接着使用鼠标将选择的内容拖拽到Word窗口中。拖拽完成后,在Word窗口中可以看到,其中字体为微软雅黑、字号为1的内容就是“bai、du、zhi、dao”这类的多余字符(这里为了方便文章显示,手动将“dao”设置成了二号字体显示),因此要删除这些内容,我们只要将字号为1的内容替换为空即可(图8)。

具体方法是,点击“查找和替换”,点击“查找”下的“格式→字体”,在打开的窗口中,字体选择微软雅黑、字号选择1,替换为留空,点击“全部替换”即可(图9)。

你可能想看:

有话要说...

取消
扫码支持 支付码