Những vấn đề liên quan đến MIGRATE dữ liệu trong DSpace

Discussion in 'Tin tức về Dspace' started by Phạm Quang Quyền, Apr 29, 2019.

  1. Phạm Quang Quyền

    Phạm Quang Quyền Administrator Staff Member

    Chú ý: Lưu trữ dữ liệu trên DSpace gồm 02 phần:
    - Các file dữ liệu (tài liệu số) được lưu ở trong mục ASSETSTORE
    - Các siêu dữ liệu (metadata - dublin core) được lưu trên DATABASE.
    Vì vậy, sao lưu và phục hồi là 2 thằng song song
    Sao lưu (nén) thư mục assetstore lại.
    Sao lưu database (lưu ý cùng thời điểm) để siêu dữ liệu trỏ đúng bằng assetstore. Có 100 file thì sẽ có 100 siêu dữ liệu trỏ đúng đến từng file đó - đại loại như vậy.
    Vậy những khi gặp sự cố là gì?
    1. Dữ liệu trên assetstore nhiều hơn so với database
    Mình đang gặp vấn đề này nó làm mất toi 03 ngày nghỉ lễ. Giờ mới ra vấn đề viết ngay
    Còn các phần đằng sau mong rằng anh em có ai gặp vấn đề gì chia sẻ tiếp để dreamlib.vn thực sự là một "SỔ TAY" đúng nghĩa của THƯ VIỆN ĐIỆN TỬ, THƯ VIỆN SỐ tại Việt Nam.
    Cách xử lý của mình:
    1.1. Copy assetstore (thời điểm dữ liệu số nhiều hơn trong database).
    1.2. Đánh chỉ mục lại tí nhé, khá mất thời gian (bình quân 1300 tài liệu số mất khoảng 10 phút - Theo hướng dẫn của anh @Tran huu Trung ) bằng lệnh /dspace/bin/dspace index-discovery
    1.3. Xóa sạch sẽ các bitstream "thừa" - lệch so với siêu dữ liệu bằng lệnh
    /dspace/bin/dspace cleanup -l -v
    CHÚC CÁC BẠN THÀNH CÔNG NẾU GẶP TÌNH HUỐNG NHƯ MÌNH!
    2. Khi có metadata muốn xóa nhưng dữ liệu quá lớn sẽ như thế nào (xóa trên giao diện đồ họa GUI),...
  2. Tran huu Trung

    Tran huu Trung Active Member

    @Phạm Quang Quyền
    Theo anh thì khi quản trị máy chủ Dspace, anh em thư viện nên làm sẵn một số script chạy thường xuyên (cron task/task scheduled) để làm một số việc sau:
    1. Reindex (index-discovery)
    2. Cleanup (cleanup)
    3. Backup database (cái này viết 1 đoạn scripts, auto backup database theo ngày
    4. Backup data (nên dùng 1 số tool kiểu như Always Sync, Auto backup,..) để lưu lại bộ data
    5. Filter- media (filter-media) dùng để tạo các thumbnail cho các tài liệu mới đưa lên dspace.
    Phạm Quang Quyền likes this.
  3. Phạm Quang Quyền

    Phạm Quang Quyền Administrator Staff Member

    Em bo sung them yeu cau:
    Co tien ich xoa nguoi dung ca khoa anh @Tran huu Trung aj. Vi du nhu: SVK2015 thi den 2020 se tu dong xoa toan bo! Thanks anh!
    Tran huu Trung likes this.
  4. Phạm Quang Quyền

    Phạm Quang Quyền Administrator Staff Member

    Con bo suu tap hon 20 nghin, em xoa bang giao dien do hoa (ca: jspui va xmlui deu khong xoa duoc anh aj - he thong cu chay nhung khong ket thuc!).
  5. Tran huu Trung

    Tran huu Trung Active Member

    @Phạm Quang Quyền
    1. Xóa user:
    - Cái này thì theo anh em nên tiến hành xóa trong database là nhanh nhất, Em cứ vào db, select danh sách sinh viên thuộc khóa đó rồi xóa thôi. Phần user của Dspace khá ổn, anh nghĩ trừ phi dữ liệu lên hơn 200k users mới cần xóa, còn không thì cứ để đấy cho có tý khí thế :D
    2. Xóa bộ sưu tập
    - Cái này thì theo anh nên tiến hành migrate sang bộ sưu tập khác trước (giống bài anh viết về cách export/import toàn bộ dữ liệu kể cả metadata sang 1 trang khác ấy ). Sau đó E mới tiến hành xóa bộ sưu tập. Về nguyên tắc xóa bộ sưu tập thì các collection trong bộ sưu tập đó phải là rỗng nhé - em remove các tài liệu đã đưa lên trong các collection thuộc bộ sưu tập đó rồi xóa dần từ trong ra sẽ ok.
  6. Phạm Quang Quyền

    Phạm Quang Quyền Administrator Staff Member

    Em nhập cả hơn 12.000 biểu ghi thư mục vào 1 collection (sách truyền thống). Giờ em vào quản trị xóa toàn bộ collection Sách truyền thống đó mà chương trình không xóa. Nó cứ chạy xong rồi treo chứ dữ liệu không biến mất anh @Tran huu Trung à. Anh ơi, có 1 bạn thư vện tỉnh Yên Bái hỏi như thế này, anh trả lời giúp nhé. Thanks anh: e cài dspace ở ổ C, em đã cấu hình để thư mục assetstore sang ổ khác, nhưng file upload dung lượng lớn quá và làm đầy ổ C:. giờ e muốn chuyển file upload đó sang ổ khác. thì cấu hình config như nào?
    Nguyễn Thúc Phúc likes this.
  7. Tran huu Trung

    Tran huu Trung Active Member

    @Phạm Quang Quyền
    1. Collection 12000 biểu ghi anh đoán là lỗi timeout connection của postgresql. Máy treo không chạy nữa thì em mở Dspace.log ra xem có thêm thông tin gì không?
    2. assetstore được cấu hình ở ổ khác rồi mà nhỉ. Các phiên bản Dspace khác nhau config phần assetstore này khác nhau, ở bản 6.x Dspace chuyển sang cấu hình bằng bitstore.xml chứ ko dùng trong dspace.cfg nữa. Giải pháp để chuyển file upload đó thì có nhiều cách, an toàn nhất là xuất toàn bộ dữ liệu rồi import lại từ đầu.

Share This Page