ダストボックスマイハウス: 【スクレイピング】webサイトからデータをパクってくる

2014年1月26日日曜日

【スクレイピング】webサイトからデータをパクってくる

・スクレイピングするライブラリ
結局は<td class = ~~>とか<div img=~~>の~~の部分しか取って来れなくて、
タグとタグの間の文字をとれなかった
http://d.hatena.ne.jp/laiso+iphone/20120715/1342350160

・webサイトのhtmlをダウンロードして、innerhtmlを解析する
https://github.com/acoomans/WebScraper

タグとタグのデータをとる方法

HTMLParser *parser = [[HTMLParser alloc] initWithString:htmlstring error:&error];

if (error) {

//NSLog(@"Error: %@", error);

return;

}

HTMLNode *bodyNode = [parser body];



NSArray *inputNodes = [bodyNode findChildTags:@"div"];//divタグの物を全部とってくる

item = [[NSMutableDictionary alloc]init];

int appendCount = 0;



for (HTMLNode *inputNode in inputNodes) {



if([[inputNode getAttributeNamed:@"class"] isEqualToString:@"name"])

{//そのなかでclass属性がnameの物にしぼる。



homeTeam = [[NSString alloc]init];

homeTeam = [inputNode contents];

homeTeam = [homeTeam stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceCharacterSet]];



[item setObject:homeTeam forKey:@"home"];

appendCount++;

}

HTMLParserを使って解析する

ダストボックスマイハウス

2014年1月26日日曜日

【スクレイピング】webサイトからデータをパクってくる

0 件のコメント:

コメントを投稿

ページ

ラベル