[Java] Đồ án trích xuất dữ liệu từ website sử dụng Regular Expression || Extract information on the website by Regular Expression
Chào các bạn.
Sau đây, mình xin giới thiệu 1 đồ án của nhóm mình.
Link code ở đây nhé.
Đối tượng mình chọn là kenh14.vn. Do là web này không thể nào get html chứa comment của người dùng được, nên buộc mình phải lấy thông tin đó từ 1 nguồn khác nhưng nội dung tương tự.
Ngoài comment của người dùng, nhóm mình còn trích xuất thêm thông tin của của website như là email, hình ảnh và link. Tuy nhiên, đối với hình ảnh thì mình sẽ lưu về thư mục luôn nhé.
Những điểm còn chưa làm được(Còn nhiều, nhưng mình xin kể ra vài cái trọng điểm):
Sau đây, mình xin giới thiệu 1 đồ án của nhóm mình.
Link code ở đây nhé.
Đối tượng mình chọn là kenh14.vn. Do là web này không thể nào get html chứa comment của người dùng được, nên buộc mình phải lấy thông tin đó từ 1 nguồn khác nhưng nội dung tương tự.
Ngoài comment của người dùng, nhóm mình còn trích xuất thêm thông tin của của website như là email, hình ảnh và link. Tuy nhiên, đối với hình ảnh thì mình sẽ lưu về thư mục luôn nhé.
Những điểm còn chưa làm được(Còn nhiều, nhưng mình xin kể ra vài cái trọng điểm):
- Chưa lấy được comment sub.
- Chưa lấy được từ trang chính.
- Không lấy được hết 'thẩy' thông tin trong website.
Những điểm thấy ổn:
- Lấy được comment top lẫn thường + user comment
- Get image + link + email: ok
Mình xin đánh giá sơ qua đồ án của mình thế thôi :) Không dám chém nhiều âu :D
Chào các bạn nhé ;)