【发布时间】:2020-03-31 20:27:33
【问题描述】:
我正在尝试使用网站上的一些特定过滤器来抓取丹麦的职位发布档案。当我尝试抓取所有标题及其链接时,我可以获取标题但不能获取链接。我尝试了不同的选择器,但没有任何链接。 CSS 选择器 ".jix_job_archived > a b , #result_list_box strong" 选择所有标题。 对于提供的网站,第一个链接应该是:https://www.jobindex.dk/c?t=r8830962&ctx=w
我已经包含了一张网站图片,我想在其中抓取屏幕右侧标记的“href”。
library(rvest)
library(tibble)
sel<- ".jix_job_archived > a b , #result_list_box strong"
jobindex <- "https://www.jobindex.dk/jobsoegning/kontor/offentlig?jobage=archive&maxdate=20200330&mindate=19901230"
tbl <- tibble(text = pg
%>% html_nodes(css = sel) %>%
html_text(), link = pg %>% html_nodes(css = sel) %>% html_attr('href'))
view(tbl)
**# A tibble: 20 x 2
text link
<chr> <chr>
1 Administrativ medarbejder/sekretær til stabsfunktion NA
2 Meeqqeriviup_igaffia_inuussutissanut_ikiortimik_pissarsiorpoq NA **
【问题讨论】:
标签: r web-scraping rvest