dc.contributor.advisor | Melgar Sasieta, Héctor Andrés | |
dc.contributor.author | Castañeda Rojas, Edson Bryan | es_ES |
dc.date.accessioned | 2016-11-26T17:22:22Z | es_ES |
dc.date.available | 2016-11-26T17:22:22Z | es_ES |
dc.date.created | 2016 | es_ES |
dc.date.issued | 2016-11-26 | es_ES |
dc.identifier.uri | http://hdl.handle.net/20.500.12404/7513 | |
dc.description.abstract | Web scraping o extracción de datos Web es el proceso de recolección de
información de uno o más sitios Web de manera automatizada, emulando la
interacción entre un usuario y un servidor, dicho proceso se basa en el análisis
de estructuras HTML y no requiere la autorización de los propietarios.
El uso de estructuras repetitivas o plantillas, facilita el funcionamiento de un
programa informático que extrae contenido Web, dicha intrusión genera un
incremento considerable en el uso de recursos, considerando la permanente
ejecución de instrucciones para obtener tanto contenido como sea posible.
Con la finalidad de reducir la vulnerabilidad de los sitios Web frente a procesos
de extracción de contenido masivo, en el presente trabajo se planteó un patrón
de diseño de software tomando como referencia el patrón Template View de
Martin Fowler, al cual se agregó una capa de aleatorización que permita
generar estructuras HTML no predecibles.
Mediante la aplicación de una herramienta de extracción de contenido a un sitio
Web de prueba, cuya capa de presentación se desarrolló tomando en cuenta el
patrón de diseño propuesto, se logró verificar una reducción considerable de la
cantidad de datos extraídos. | es_ES |
dc.description.uri | Tesis | es_ES |
dc.language.iso | spa | es_ES |
dc.publisher | Pontificia Universidad Católica del Perú | es_ES |
dc.rights | info:eu-repo/semantics/openAccess | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ | * |
dc.subject | Patrones de software | es_ES |
dc.subject | Sitios Web--Medidas de segurdidad | es_ES |
dc.title | Propuesta de patrón de diseño de software orientado a prevenir la extracción automatizada de contenido web | es_ES |
dc.type | info:eu-repo/semantics/masterThesis | es_ES |
thesis.degree.name | Maestro en Ingeniería de Software | es_ES |
thesis.degree.level | Maestría | es_ES |
thesis.degree.grantor | Pontificia Universidad Católica del Perú. Escuela de Posgrado | es_ES |
thesis.degree.discipline | Ingeniería de Software | es_ES |
dc.type.other | Tesis de maestría | |
dc.subject.ocde | https://purl.org/pe-repo/ocde/ford#1.02.00 | es_ES |
dc.publisher.country | PE | es_ES |
renati.advisor.dni | 10145776 | |
renati.discipline | 612357 | es_ES |
renati.level | https://purl.org/pe-repo/renati/level#maestro | es_ES |
renati.type | http://purl.org/pe-repo/renati/type#tesis | es_ES |