【问题标题】:Using simple_html_dom to scrape text from website. I want to remove a div class from the div I'm scraping使用 simple_html_dom 从网站上抓取文本。我想从我正在抓取的 div 中删除一个 div 类
【发布时间】:2018-07-23 22:46:46
【问题描述】:

我正在尝试从网站 (http://www.meteo.nc/nouvelle-caledonie/previsions/bulletin) 上抓取文本

我只想要以“Pas de vigilance particulière”开头的文本。

网站的结构如下:

 <div class="bulletin_txt" style="clear:both;">
    
    <?xml version="1.0"?>
    <div id="bulltimbbloc"><div class="bulltimb">
                 
                mardi 11h
                <img id="bull_98812001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/><img id="bull_98803001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j09.png"/><img id="bull_98818001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j10.png"/><img id="bull_98809001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j05.png"/><img id="bull_98804001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/><img id="bull_98830002" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j01.png"/><img id="bull_98814001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j09.png"/></div><div class="bulltimb">
                 
                mercredi 11h
                <img id="bull_98812001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j01.png"/><img id="bull_98803001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j01.png"/><img id="bull_98818001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/><img id="bull_98809001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j05.png"/><img id="bull_98804001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/><img id="bull_98830002" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j05.png"/><img id="bull_98814001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/></div><div class="bulltimb">
                 
                jeudi 11h
                <img id="bull_98812001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j01.png"/><img id="bull_98803001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/><img id="bull_98818001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j09.png"/><img id="bull_98809001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j10.png"/><img id="bull_98804001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j09.png"/><img id="bull_98830002" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j04.png"/><img id="bull_98814001" class="bulltimbpic" src="/images/pictos/Pictos_Meteo_Nc_blanc/j10.png"/>
</div>
</div>
                                
    <?xml version="1.0"?><br/>Prévisions météorologiques sur la Nouvelle-Calédonie établies par Météo-France à Nouméa le mardi 24 juillet 2018 à 05:59 locales, valables jusqu'au lundi 30 juillet.<br/><br/><p class="bulletinCorrectif"> </p><p class="bulletinSpecial">Pas de vigilance particulière.</p><span class="titre">Ce matin :</span><br/>Sur le sud de la côte Ouest, le ciel est nuageux avec des averses éparses en début de matinée, puis les éclaircies reviennent. Des remontées nuageuses accompagnées d'ondées intéressent également le Nord-Ouest et les Loyauté. Ailleurs, le soleil est plus généreux. L'alizé de sud à sud-est souffle entre 5 et 10 noeuds sur le Sud et le sud de la côte Ouest, et 10 à localement 15 noeuds ailleurs. Il est plus faible sur l'Est où le régime de brises domine.<br/><span class="titre">Cet après-midi :</span><br/>Des paquets nuageux porteurs d'averses reviennent sur le Sud, et les nuages qui se forment sur la Chaîne débordent vers la côte Est. Sur les autres régions, le soleil est bien présent. Le vent de sud sud-est souffle de 10 à localement 15 noeuds, sauf sur l'Est, où les brises de mer se maintiennent autour de 5 noeuds. Les températures maximales évoluent peu, avec 22 à 26 degrés, du Sud vers le Nord-Ouest.<br/><span class="titre">Aperçu pour mercredi et jeudi :</span><br/>Mercredi, après une matinée largement ensoleillée, les nuages gagnent le relief et ses versants Est, et débordent parfois vers le Nord-Ouest, accompagnés de quelques gouttes. De faibles ondées sont possibles sur le nord des Loyauté. Sur les autres régions, le soleil l'emporte. L'alizé s'oriente à l'est sud-est, proche de 15 noeuds le matin, et se renforce de 15 à 20 noeuds l'après-midi. Les températures sont stables, dans des valeurs de saison.<br/>Jeudi, sur le sud des Loyauté, la Pointe Sud, et le Sud-Est, le ciel est souvent gris, et les averses fréquentes. Sur les autres régions, c'est au contraire le soleil qui domine. L'alizé de secteur est faiblit aux environs de 10 noeuds, voire 10 à 15 noeuds aux extrémités Sud et Nord de la Grande Terre, et sur la côte Ouest l'après-midi. Peu d'évolution du côté des températures.<br/><span class="titre">Tendance pour la période de vendredi à lundi :</span><br/>Vendredi, le soleil domine sur l'Ouest, et nuages porteurs d'averses et éclaircies alternent sur les autres régions. A partir de samedi, un temps plus instable et pluvieux est attendu. L'alizé est d'abord modéré à assez fort de secteur est. Il tourne ensuite au nord-est, avant de faiblir. Les températures sont en légère hausse, dépassant légèrement les normales de saison.<br/><br/>Le prochain bulletin public sera enregistré vers 11:00 locales.<br/><br/><p class="bulletinGreve"> </p><br/>
    </div>

我已经刮掉了div class bulletin_txt

$es = $html->find('div[class="bulletin_txt"]', 0);
echo $es->innertext;

如何删除我的$es 的 div id "bulltimbbloc"?

【问题讨论】:

    标签: php web-scraping simple-html-dom


    【解决方案1】:

    我试试这个。首先从 Dom 中删除内容。它正在运行。使用此代码。

    <?php
    
    require getcwd()."/simple_html_dom.php";
    $string = "<div class='first'>First Div<div class='second'>Second Div</div></div>";
    $html = str_get_html($string);
    if($html != null)
    {
        $html->find("div[class='second']",0)->outertext = '';
        $html->load($html->save());
        $first = $html->find("div[class='first']",0)->plaintext;
        echo $first;
    }
    

    输出是:First Div

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-12-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-22
      • 2020-04-11
      • 1970-01-01
      相关资源
      最近更新 更多