HTML 创建 GTFS 格式数据的解析器

HTML parser to create GTFS formatted data

有一家公交公司不提供 GTFS 格式的公交时刻表数据。我想制作一个 android 应用程序,可以在其中进行搜索,因此这种格式非常有用。 公交时刻表数据有网站,但好象很难区分有用的东西。

<td class="b stopPoint p0" background="nline.gif"><a href="line.cgi?id=1&dir=back&zero=15901&city=so&term=20141214"><img src="coming.gif" class="stopPoint" alt="A megállóhoz tartozó indulási időpontok megjelenítéséhez kérem, kattintson ide!" /></a></td>
<td class="b stopTime p0">2</td>
<td class="b stopPeakTime p0">2</td>
<td class="b stopName p0" colspan="1">Frankenburg úti aluljáró</td>
<td class="b stopTransfer p0"><img src="transfer.gif" class="iconTransfer" alt="Átszállási lehetőség a felsorolt autóbuszvonalakra" />&nbsp;&nbsp;<a href="line.cgi?id=10&dir=to&zero=1590&city=so&term=20141214">10</a>, <a href="line.cgi?id=10Y&dir=to&zero=1590&city=so&term=20141214">10Y</a></td>

也许用于此目的的现有解析器会有所帮助。有工作的吗?

询问运输机构是否可以以更有意义的格式提供时间表数据。他们可能有一些其他的数据格式,会比他们目前拥有的更好。

否则,您可能必须为此编写自定义 scraper/parser。我喜欢使用 python 的 beautifulsoup 库解析 html,但是有很多方法可以做到这一点。