开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

tikazyq:话不多说,下面给几个主流网站列表页的识别效果。

开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

可以看到,列表基本都识别出来了,一些列表子项( List Item )的字段也标注出来了。这个算法还支持分页的识别。如果进一步优化,甚至可以做到网络爬虫中的自动驾驶,输入一个坐标(网站 URL )就可以自动抓数据,不需要写 XPath 各种抓取配置规则。做到这一步,说明离智能爬虫就不远啦。

算法不是基于 OCR 的,因此非常快,后续会进一步优化,欢迎大家提意见。

sillydaddy:这个做好了就再也不怕网站改版改 html 了!!是基于什么实现的呢?
盲猜一下,应该不是基于深度学习,但也应该不是基于渲染的位置什么的。
猜不出来。。

yunser:@sillydaddy 列表有个共同特征,就是子元素的结构基本一致,我猜是根据这个判断的。还有 ul li 。

guyskk0x0:很赞!开源吗?还是接口服务?

检查HTML表单复选框等是否已设置为POST的正确和最安全的方法是什么? - html

自从早期以来,这使我感到困惑。也许这只是在我脑海中,但在我看来,这似乎随着时间的推移而变化,在不同的浏览器之间,甚至可能取决于本地语言/地区。基本上,每当我需要检查是否已设置“ radio”或“ checkbox”类型的HTML输入时,我总是这样做:if (isset($_POST['the_name']) && trim…

html onClick打开url存储在php变量中 - javascript

以下是我的代码,正在获取Uncaught SyntaxError: Unexpected token },但是我的代码中没有看到任何}。 window.open期望用引号引起来的url,我尝试了单引号和双引号的不同组合,但不起作用并且也无法在echo中转义双引号。请帮助谢谢..<?php $a = "https://www.google.co…

html.dropdownlist的Javascript更改事件 - c#

我是javascript的新手。我尝试在Asp.net Mvc中使用Html.Dropdownlist。我有1个下拉列表和其他4个下拉列表。如果1.dropdownlist更改值,我想通过在JavaScript中使用foreach为4个dropdownlists应用1.dropdownlist值。HTML:@Html.DropDownList("M…

html | textarea中的额外标签 - javascript

我正在尝试将Markdown从数据库加载到textarea:<textarea class="wmd-input" id="wmd-input" name="question" required="required"> <?php echo '**Th…

将来自JavaScript函数的数据作为对象参数传递给@ Html.Action()C# - javascript

这是我想要做的。我希望能够调用html动作并将一些数据作为对象参数传递。唯一的事情是此数据需要从javascript函数返回。这是我正在尝试做的事情:@Html.Action("someAction", "someController", new { passedData = GetDropDownData() }) …