Social Media Data Crawling

Social Web crawling là 1 chủ đề thú vị, tập hợp data từ Social Media như facebook
Topic này có từ thời sơ khai khi build Google những năm cuối 1997s. Ngày nay thì Facebook và Web 2.0 model phát triển tới mức tạo cả núi thông tin mà 1 cái box như Google là không đủ.
phim The Dark Knight Rises là 1 bộ  film hay, trước khi đi xem film, mọi người thường xem qua trailer hay review trên các forums (rất nhiều site)

VD: cần nghe soundtrack http://nhacso.net/nghe-album/the-dark-knight-rises-ost.XV5UUUtX.html
từ google keywords “dark knight rises soundtrack nhacso”
hay “dark knight rises trailer” hoặc “dark knight rises reviews”
review từ IMDB: http://www.imdb.com/title/tt1345836/ , 9/10 từ hơn 200.000 ratings , hơi bị cao

Giải pháp:

http://www.udacity.com/view#Course/cs101/CourseRev/apr2012/Unit/671001/Nugget/671007
http://www.almaden.ibm.com/almaden/feat/www8/
http://www2003.org/cdrom/papers/poster/p181/p181-tsoi/p181-tsoi.html
http://www.cs.uwaterloo.ca/~tozsu/courses/cs856/W05/Presentations/Mohamed.pdf
http://cis.poly.edu/cs912/lectures.html

My focused crawling algorithm
Usecase: simple active recommended node for user in knowledge graph

 

Leave a Reply

Your email address will not be published. Required fields are marked *