-->

2014年1月26日日曜日

【スクレイピング】webサイトからデータをパクってくる

・スクレイピングするライブラリ
結局は<td class = ~~>とか<div img=~~>の~~の部分しか取って来れなくて、
タグとタグの間の文字をとれなかった
http://d.hatena.ne.jp/laiso+iphone/20120715/1342350160

・webサイトのhtmlをダウンロードして、innerhtmlを解析する
https://github.com/acoomans/WebScraper

タグとタグのデータをとる方法


HTMLParser *parser = [[HTMLParser alloc] initWithString:htmlstring error:&error];
    if (error) {
        //NSLog(@"Error: %@", error);
        return;
    } 
HTMLNode *bodyNode = [parser body];
    
    NSArray *inputNodes = [bodyNode findChildTags:@"div"];//divタグの物を全部とってくる

    item = [[NSMutableDictionary alloc]init];
    int appendCount = 0;
    
    for (HTMLNode *inputNode in inputNodes) {
        
        if([[inputNode getAttributeNamed:@"class"] isEqualToString:@"name"])
        {//そのなかでclass属性がnameの物にしぼる。
            
            homeTeam = [[NSString alloc]init]; 
            homeTeam = [inputNode contents];
            homeTeam = [homeTeam stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceCharacterSet]];

            
            [item setObject:homeTeam forKey:@"home"];
            appendCount++;
        } 

HTMLParserを使って 解析する

0 件のコメント:

コメントを投稿