【发布时间】:2018-09-23 22:27:56
【问题描述】:
我目前正在编写一个脚本,该脚本使用 BS4 和 aiohttp 在网站上注册一个帐户。 POST 中需要的一件事是名为 tagInfo 的内容。 tagInfo 的一部分是这个叫做“tmxSessionId”的东西。通常我会像往常一样使用 BS4 并且每次都刮取价值。但是问题是 tmxSessionId 是该站点正在使用的脚本的一部分,并且它在 JS 中。我将在这里发布一些脚本:
<script type="text/javascript">
(function() {
var Context = raptor.require('ebay.context.Context');
var langCode = "en-US";
var emailAutoCompleteEnabled = true;
var dfpContext = '{"tmxSessionId":"081708da1660ab61a9e69761fffcb25e"}';
}
我编辑了脚本并删除了大部分额外的部分,提供了一些上下文以及我很好奇的部分。如您所见,它位于脚本标签中。所以作为一个测试我试着做
soup = BeautifulSoup(r.text, 'lxml')
idd = soup.find('script', type='text/javascript')
它回来了<script type="text/javascript">var layer = false;</script>
而不是完整的脚本。那么如何解析 tmxSessionId 呢?
【问题讨论】:
标签: javascript python beautifulsoup aiohttp