[Java] Đồ án trích xuất dữ liệu từ website sử dụng Regular Expression || Extract information on the website by Regular Expression

Chào các bạn.

Sau đây, mình xin giới thiệu 1 đồ án của nhóm mình.

Link code ở đây nhé.

Đối tượng mình chọn là kenh14.vn. Do là web này không thể nào get html chứa comment của người dùng được, nên buộc mình phải lấy thông tin đó từ 1 nguồn khác nhưng nội dung tương tự.

Ngoài comment của người dùng, nhóm mình còn trích xuất thêm thông tin của của website như là email, hình ảnh và link. Tuy nhiên, đối với hình ảnh thì mình sẽ lưu về thư mục luôn nhé.

Những điểm còn chưa làm được(Còn nhiều, nhưng mình xin kể ra vài cái trọng điểm):

  • Chưa lấy được comment sub.
  • Chưa lấy được từ trang chính.
  • Không lấy được hết 'thẩy' thông tin trong website.
Những điểm thấy ổn:
  • Lấy được comment top lẫn thường + user comment
  • Get image + link + email: ok
Mình xin đánh giá sơ qua đồ án của mình thế thôi :) Không dám chém nhiều âu :D

Chào các bạn nhé ;) 

Bài đăng phổ biến từ blog này

Stack And Queue Trong Python

[Raspberry] Raspberry Kết Nối Cảm Biến Độ Ẩm, Nhiệt Độ