牛津英语同义词英汉双解简体增强版(1.14修复两处内容缺失)

Sunny1 · 2022 年9 月 18 日 07:09

bs4不同解析器出来的结果不太一样

>>> from bs4 import BeautifulSoup
>>> t = '<s s="esprelig"/>)'

#html.parser
>>> BeautifulSoup(t,"html.parser")
<s s="esprelig"></s>)

#lxml
>>> BeautifulSoup(t,'lxml')
<html><body><s s="esprelig"></s>)</body></html>

#lxml-xml
>>> BeautifulSoup(t,["lxml-xml"])
<?xml version="1.0" encoding="utf-8"?>
<s s="esprelig"/>

#html5lib
>>> BeautifulSoup(t,"html5lib")
<html><head></head><body><s s="esprelig">)</s></body></html>

从测试结果来看，使用html5lib解析确实会出现你说的问题。我比较常用lxml，暂时还没遇到奇怪的问题