【发布时间】:2021-05-31 08:22:53
【问题描述】:
我有一个奇怪的要求。我正在创建一个平台,艺术家将在其中创建个人资料并展示他们的作品。现在大多数艺术家都有他们以前的唱片或其他一些网站平台,如songkick或他们自己的网站。现在我的客户要求是用户将提供他们过去数据的url或其他东西,系统将通过该网站并根据某些字段获取内容。例如事件数据包含事件/位置/日期
我现在正在使用 AWS Comprehend 分析数据,我陷入的部分是获取整个网站的数据/文本。
假设我有一个https://www.something.com 的网址。我想去这个网站并在里面获取所有呈现的文本。如果这是不道德的,或者我需要用其他方法做到这一点,请建议我。
我现在正在尝试做的事情并失败了
fetch('https://www.somthing.com').then((response)=>console.log(response))
但这给了我fetch failed type error
我知道首先想到的是使用提供的 url 平台 API,但大多数网站都没有
【问题讨论】:
标签: javascript reactjs web-scraping web-crawler